banner

生信全书 Lesson 8.3 基因ID转换工具

  • Home
  • 解螺旋·生信全书
Scroll down
TIP

这些是本篇文章的标签,来发现更多感兴趣的内容吧
解螺旋
科研
生信全书

常见基因ID类型

  • 基因ID示例:TP53

Entrez Gene ID

  • Entrez Gene ID来源于Entrez Gene数据库的编号系统,
  • Entrez:一个归属于NCBI的综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库。我们通常所说的检索 NCBI数据库,其实就是在检索Entrez这个引擎系统所整合的生信数据库。
  • NCBI:National Center for Biotechnology Information,即美国国家生物技术信息中心,官网:https://www.ncbi.nlm.nih.gov/
  • Entrez Gene数据库其实就是我们现在指的NCBI中的Gene数据库,官网https://www.ncbi.nlm.nih.gov/gene/
  • Entrez Gene ID=Entrez ID,也可以理解为我们通常所说的Gene ID,它是目前国际上最权威的Gene ID编号,编号的格式就是一串数字,比如7157

Gene Symbol

  • 以TP53为例,其Official Symbol,Official Full Name和Primary Source三行都提到了HGNC组织
  • HGNC:HUGO Gene Nomenclature Committee,即人类基因命名委员会,人类中大多数基因的命名,是由HGNC来完成的。
  • Official Symbol:就是我们通常所说的Gene Symbol(也叫做HGNC Symbol,即基因符号),是HGNC组织根据基因功能,对基因进行命名描述的一个缩写标识符(如:TP53)。
  • Official Full Name: Gene Name,是经过HGNC批准的基因名全称,对应于Gene Symbol(如TP53对应tumor protein p53)
  • HGNC ID:是HGNC数据库分配的基因编号,每一个标准的Gene Symbol都有对应的HGNC ID。有时HGNC会对一些已经命名过的基因进行重新审查和命名,以确保新的命名在描述基因功能方面更加准确。
  • 当一个基因被HGND分配了新的Gene Symbol时,其以前的命名会被当作同义词继续使用,建议使用HGNC ID作为我们处理数据的唯一标识符
  • 其他基因命名的组织委员会
    • 小鼠mouse的基因命名:MGNC,可访问MGI数据库
    • 大鼠rat的基因命名:RGND,可访问RGD数据库
    • 斑马鱼zebrafish的基因命名:ZFIN
  • 说明:并不是所有的基因都有Official Symbol。如果基因缺少基因命名委员会命名的Gene Symbol,Entrez Gene 数据库中的Official symbol 就会变成Gene Symbol,并且Gene Symbol 的编号会变成LOC前缀加 Entrez ID,如下图所示

Ensembl ID

  • Ensembl基因组数据库项目,是1999年启动的,用来应对当时即将完成的人类基因组计划的一个科学项目,是科研人员用于检索基因组信息的最常用数据库之一
  • 我们在Ensembl中进行检索,主要使用的Ensembl stable id就是我们常说的Ensembl id,是Ensembl数据库中对基因的命名
  • Ensemble Stable ID/Ensemble ID的命名规则
    • 第一部份:ENS前缀,负责告诉我们这个基因ID是Ensembl ID
    • 第二部分:Species,是根据不同物种设置的前缀
    • 第三部份:Object type,即这个ID所指的类型,指向基因为G,蛋白为P
    • 第四部份:identifier,一段特定的数字
    • 第五部份:bersion,即版本号
  • 下图中的see related部份即Ensembl ID

    * 其开头是ENS
    * 前缀-G(基因)
    * 后面是一串特定的数字
    * 人类的基因没有物种的前缀,也没有版本号

RefSeq Accession Number

  • RefSeq 数据库:即 RefSeq 参考序列数据库,是美国国家生物信息技术中心(NCBI)提供的,具有生物意义上的非冗余的基因和蛋白质等片段序列的数据库,一般可信度比较高。
  • RefSeq Accesion Number:就是我们通常用的RefSeq ID,同其他数据库不同,命名的格式以两个字母开头,后跟一个下划线和六个或多个数字。
  • 开头的字母存储了序列类型的信息
    • NC——全基因组序列
    • NM——成熟的mRNA序列
  • RefSeq Status显示的是这条RefSeq的状态
    • MODEL指自动被NCBI提供的,没有被审核过
    • INFERRED指由序列分析预测得到,没有经过实验验证
    • PREDICTED指没有经过人工审核
    • REVIEWED指已被人工审核
    • 这条信息的存在可以为我们确定序列的可信度提供更多的帮助

基因ID转换工具

BioMart数据库

  • BioMart是Ensembl网站提供的一个web工具,其主要功能是基因功能注释(包括跨数据库注释)和基因ID转换
  • 网址:http://asia.ensembl.org/index.html
  • choose database——Ensembl Genes 111(数字对应版本号);choose datasets——Human genes
  • Filters-Input external references ID list选择输入基因的数据类型
  • Attributes
    • GENE-Ensembl-Gene stable ID version
    • Externa项以选择Ensembl以外的其他数据的ID,并且可以将一种ID同时转换成多种ID,HGNC symbol的作用是将Ensembl ID与原来的输入一一对应起来
  • 点击”Count”,可以查看已经提交的基因数量(最多500)/数据库中有的所有这个物种的基因的数量
  • 点击”Go”,可以将转换后的结果以“制表符分隔的文本文件”的形式输出

bioDBnet数据库

  • 全称biological DataBase network,是一个集成了大量生物数据库的应用程序
  • 主要功能:
    • 基因ID转换
    • 基因功能注释
    • 基因信息查找
    • 同源基因ID转换
  • 网址:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php
  • 需要输入物种的Taxon ID,这可以通过网站上的“Taxon ID”去查询,如人的Taxon ID是9606
  • 在“ID List”框中输入我们要转换的ID,之后点击“提交”,即可将结果以“制表符分隔的文本文件”的形式输出,下载到自己的电脑
  • 一次只能转换成一种其他ID

dbWalk

  • 用来进行数据库之间的查询,可以一次查询多个ID
  • 网址:https://biodbnet-abcc.ncifcrf.gov/db/dbWalk.php
  • 在Node中选择要查询的数据库,每选一个都要点旁边的Add Path,要首先选择我们提交的Gene ID对应的数据库
  • 和bioDBnet一样,也要输入Taxon ID
Other Articles
Article table of contents TOP
  1. 1. 常见基因ID类型
    1. 1.1. Entrez Gene ID
    2. 1.2. Gene Symbol
    3. 1.3. Ensembl ID
    4. 1.4. RefSeq Accession Number
  2. 2. 基因ID转换工具
    1. 2.1. BioMart数据库
    2. 2.2. bioDBnet数据库
    3. 2.3. dbWalk
Find Something Special?