banner

生信全书 Lesson 6.1 GEO测序数据下载

  • Home
  • 解螺旋·生信全书
Scroll down
TIP

这些是本篇文章的标签,来发现更多感兴趣的内容吧
科研
解螺旋
生信全书
测序

GEO数据库简介

GEO测序数据的存储类型

原始数据original submitter-supplied records

  • GPL (GEO Platform):平台,由芯片或测序公司设计提供,包含对芯片或测序平台的描述信息;如果为芯片数据,还包含芯片的注释信息。编号以GPL开头,如GPL570;每个平台内列出了使用该平台的所有样本和系列。
  • GSM(GEO Sample):样本,记录单个样本的生物学信息、处理流程以及该样本芯片或测序的原始数据。编号以GSM开头,如GSM18422;每个样本数据有且仅有一个对应平台。
  • GSE (GEO Series):系列,将一项研究中相关联的GSM数据集合在一起,并包含整个研究的名称、设计、概要信息等。编号以GSE开头,如GSE1145;一个系列可以包含多个平台和多个子系列,一个样本也可以出现在多个系列中。

精选整理的数据curated records

  • GDS (GEO DataSet):经挑选整理的数据集记录,GEO数据库的工作人员对部分GSE原始数据进行背景校正、均一化等处理后得到的数据。编号以GDS开头,如GDS2225;每个GDS的数据对应一个平台,使得数据在GDS内部具有直接的可比性。
  • GEO Profile:Profile数据,来源于GDS数据,直观地以图表展示单个基因在一个GDS中所有样本的表达水平。

GEO测序数据的存储文件格式

主要文件格式

  • SOFT(Simple Omnibus in Text Format)格式:一种紧凑、简单、基于行的ASCⅡ文本格式,包含实验数据和诠释数据,可以用excel打开
  • MINiML(MIAME Notation in Markup Language, pronounced minimal)格式,与SOFT格式文件的包含信息相同,仅格式不同,为XML 格式。MIAME (Minimum Information About a Microarray Experiment)和MINSEQE (Minimum Information About a Next-generation Sequencing Experiment) 定义了上传的芯片或测序数据最起码需要包含的数据信息。
  • Series Matrix files,以制表符分隔的包含每个样本具体数值的文本文件,以包含的GSM和GSE诠释数据开头。若来源于不同平台则分割为数个单独的文件。
  • Supplementary files,即补充文件,列出GSM原始数据或上传者提供的如临床信息等相关文件;GEO数据库鼓励但不强制要求上传补充文件。

GPL数据存储格式以及示例

  • GPL、GSM、GSE、GDS数据,因数据类型不同,具体对应的文件格式有所不同
  • GPL对应的文件格式
    • GPLxxx.annot.gz,基因序列的注释信息表格文件,不定期会有更新(将芯片探针名转换为基因名时需要用到这个文件)
    • GPLxxx_family.xml.tgz,压缩的MINiML格式文件,包含使用该平台的所有GSM、GSE的信息(一般分析不会用到)
    • GPLxxx_family.soft.gz,压缩的Soft格式文件,包含使用该平台的所有GSM、GSE的信息(一般分析不会用到)
    • GPLxxx.xxX.gz,补充文件,部分数据无补充文件
    • 举例:GPL571,链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL571

GSM对应的文件格式

  • GSMxxxxxx.xxx.gz,是单个样本的gzip压缩文件,位于补充文件类别下
  • 通常包括原始的、未转换的数据,或原始图像文件;不是所有的样本都有补充文件;常见的GSM补充文件类型的包括.gpr、.cel或.tiff。
  • GSM 原始数据文件格式与提供数据的平台有关,比如Affymetrix的芯片原始数据为CEL格式
  • 如 GSM18423_PA-D_132.cel.gz,表示为gzip压缩的CEL文件,GSM18423为样本编号,“PA-D_132”为该样本的简要描述信息,链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM18423

GSE对应的文件格式

  • 这是我们最常用到的数据类型
  • GSExxx_series_matrix.txt.gz 或GSExxx-GPLxxx_series_matrix.txt.gz,包含该GSE的样本表达矩阵及简要样本、平台信息;若一个GSE内应用了多个平台则按平台分割为多个series matrix文本文件。
  • GSExxx_family.soft.gz,SOFT格式,包含该GSE所涉及的所有样本及平台数据。
  • GSExxx_family.xml.tgz,MINiML格式,包含该GSE所涉及的所有样本及平台数据。
  • GSExxx_RAW.tar,该GSE所涉及的所有样本的原始数据,如所有样本的CEL压缩文件,或补充文件。
  • 如GSE1145,链接: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1145

GDS对应的文件格式

  • GDSxxx.soft.gz,该GDS来自于原始GSE数据,经过了GEO处理,具有了GDS内数值可比性的数据
  • GDSxxx_full.soft.gz,也是SOFT格式,在GDSxxx.soft.gz的基础上,增加了该GDS对应平台的最新基因注释信息
  • 此外,GDS页面还会展示该GDS对应的GSE和GPL数据下载链接,如GDS2225,链接https://https://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2225

GEO profile数据存储文件格式和示例

profile_data.txt

GEO测序数据的下载方式

通过网页直接下载

  • 最常见的,需要下载的数据类型:GSE和GPL
  • 通过相应的GEO数据网站页面内的链接直接点击下载:
  • 未确定数据编号,检索数据后,确定数据的编号后下载。
  • 已知GSE、GPL、GSM、GDS编号,GEO主页中直接输入编号,进入相应页面,点击页面下部或右侧相应的链接下载

构建ftp链接下载以及示例

Other Articles
Article table of contents TOP
  1. 1. GEO数据库简介
  2. 2. GEO测序数据的存储类型
    1. 2.1. 原始数据original submitter-supplied records
    2. 2.2. 精选整理的数据curated records
  3. 3. GEO测序数据的存储文件格式
    1. 3.1. 主要文件格式
    2. 3.2. GPL数据存储格式以及示例
    3. 3.3. GSM对应的文件格式
    4. 3.4. GSE对应的文件格式
    5. 3.5. GDS对应的文件格式
    6. 3.6. GEO profile数据存储文件格式和示例
      1. 3.6.1. profile_data.txt
  4. 4. GEO测序数据的下载方式
    1. 4.1. 通过网页直接下载
    2. 4.2. 构建ftp链接下载以及示例
Find Something Special?