常见基因ID类型
- 基因ID示例:TP53

Entrez Gene ID
- Entrez Gene ID来源于Entrez Gene数据库的编号系统,
- Entrez:一个归属于NCBI的综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库。我们通常所说的检索 NCBI数据库,其实就是在检索Entrez这个引擎系统所整合的生信数据库。
- NCBI:National Center for Biotechnology Information,即美国国家生物技术信息中心,官网:https://www.ncbi.nlm.nih.gov/
- Entrez Gene数据库其实就是我们现在指的NCBI中的Gene数据库,官网https://www.ncbi.nlm.nih.gov/gene/
- Entrez Gene ID=Entrez ID,也可以理解为我们通常所说的Gene ID,它是目前国际上最权威的Gene ID编号,编号的格式就是一串数字,比如7157
Gene Symbol
- 以TP53为例,其Official Symbol,Official Full Name和Primary Source三行都提到了HGNC组织
- HGNC:HUGO Gene Nomenclature Committee,即人类基因命名委员会,人类中大多数基因的命名,是由HGNC来完成的。
- Official Symbol:就是我们通常所说的Gene Symbol(也叫做HGNC Symbol,即基因符号),是HGNC组织根据基因功能,对基因进行命名描述的一个缩写标识符(如:TP53)。
- Official Full Name: Gene Name,是经过HGNC批准的基因名全称,对应于Gene Symbol(如TP53对应tumor protein p53)
- HGNC ID:是HGNC数据库分配的基因编号,每一个标准的Gene Symbol都有对应的HGNC ID。有时HGNC会对一些已经命名过的基因进行重新审查和命名,以确保新的命名在描述基因功能方面更加准确。
- 当一个基因被HGND分配了新的Gene Symbol时,其以前的命名会被当作同义词继续使用,建议使用HGNC ID作为我们处理数据的唯一标识符
- 其他基因命名的组织委员会
- 小鼠mouse的基因命名:MGNC,可访问MGI数据库
- 大鼠rat的基因命名:RGND,可访问RGD数据库
- 斑马鱼zebrafish的基因命名:ZFIN
- 说明:并不是所有的基因都有Official Symbol。如果基因缺少基因命名委员会命名的Gene Symbol,Entrez Gene 数据库中的Official symbol 就会变成Gene Symbol,并且Gene Symbol 的编号会变成LOC前缀加 Entrez ID,如下图所示

Ensembl ID
- Ensembl基因组数据库项目,是1999年启动的,用来应对当时即将完成的人类基因组计划的一个科学项目,是科研人员用于检索基因组信息的最常用数据库之一
- 我们在Ensembl中进行检索,主要使用的Ensembl stable id就是我们常说的Ensembl id,是Ensembl数据库中对基因的命名
- Ensemble Stable ID/Ensemble ID的命名规则
- 第一部份:ENS前缀,负责告诉我们这个基因ID是Ensembl ID
- 第二部分:Species,是根据不同物种设置的前缀
- 第三部份:Object type,即这个ID所指的类型,指向基因为G,蛋白为P
- 第四部份:identifier,一段特定的数字
- 第五部份:bersion,即版本号
- 下图中的see related部份即Ensembl ID

* 其开头是ENS
* 前缀-G(基因)
* 后面是一串特定的数字
* 人类的基因没有物种的前缀,也没有版本号
RefSeq Accession Number
- RefSeq 数据库:即 RefSeq 参考序列数据库,是美国国家生物信息技术中心(NCBI)提供的,具有生物意义上的非冗余的基因和蛋白质等片段序列的数据库,一般可信度比较高。
- RefSeq Accesion Number:就是我们通常用的RefSeq ID,同其他数据库不同,命名的格式以两个字母开头,后跟一个下划线和六个或多个数字。
- 开头的字母存储了序列类型的信息
- RefSeq Status显示的是这条RefSeq的状态
- MODEL指自动被NCBI提供的,没有被审核过
- INFERRED指由序列分析预测得到,没有经过实验验证
- PREDICTED指没有经过人工审核
- REVIEWED指已被人工审核
- 这条信息的存在可以为我们确定序列的可信度提供更多的帮助
基因ID转换工具
BioMart数据库
- BioMart是Ensembl网站提供的一个web工具,其主要功能是基因功能注释(包括跨数据库注释)和基因ID转换
- 网址:http://asia.ensembl.org/index.html
- choose database——Ensembl Genes 111(数字对应版本号);choose datasets——Human genes
- Filters-Input external references ID list选择输入基因的数据类型
- Attributes
- GENE-Ensembl-Gene stable ID version
- Externa项以选择Ensembl以外的其他数据的ID,并且可以将一种ID同时转换成多种ID,HGNC symbol的作用是将Ensembl ID与原来的输入一一对应起来
- 点击”Count”,可以查看已经提交的基因数量(最多500)/数据库中有的所有这个物种的基因的数量
- 点击”Go”,可以将转换后的结果以“制表符分隔的文本文件”的形式输出
bioDBnet数据库
- 全称biological DataBase network,是一个集成了大量生物数据库的应用程序
- 主要功能:
- 基因ID转换
- 基因功能注释
- 基因信息查找
- 同源基因ID转换
- 网址:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php
- 需要输入物种的Taxon ID,这可以通过网站上的“Taxon ID”去查询,如人的Taxon ID是9606
- 在“ID List”框中输入我们要转换的ID,之后点击“提交”,即可将结果以“制表符分隔的文本文件”的形式输出,下载到自己的电脑
- 一次只能转换成一种其他ID
dbWalk