GEO数据库简介

GEO测序数据的存储类型
原始数据original submitter-supplied records
- GPL (GEO Platform):平台,由芯片或测序公司设计提供,包含对芯片或测序平台的描述信息;如果为芯片数据,还包含芯片的注释信息。编号以GPL开头,如GPL570;每个平台内列出了使用该平台的所有样本和系列。
- GSM(GEO Sample):样本,记录单个样本的生物学信息、处理流程以及该样本芯片或测序的原始数据。编号以GSM开头,如GSM18422;每个样本数据有且仅有一个对应平台。
- GSE (GEO Series):系列,将一项研究中相关联的GSM数据集合在一起,并包含整个研究的名称、设计、概要信息等。编号以GSE开头,如GSE1145;一个系列可以包含多个平台和多个子系列,一个样本也可以出现在多个系列中。
精选整理的数据curated records
- GDS (GEO DataSet):经挑选整理的数据集记录,GEO数据库的工作人员对部分GSE原始数据进行背景校正、均一化等处理后得到的数据。编号以GDS开头,如GDS2225;每个GDS的数据对应一个平台,使得数据在GDS内部具有直接的可比性。
- GEO Profile:Profile数据,来源于GDS数据,直观地以图表展示单个基因在一个GDS中所有样本的表达水平。
GEO测序数据的存储文件格式
主要文件格式
- SOFT(Simple Omnibus in Text Format)格式:一种紧凑、简单、基于行的ASCⅡ文本格式,包含实验数据和诠释数据,可以用excel打开
- MINiML(MIAME Notation in Markup Language, pronounced minimal)格式,与SOFT格式文件的包含信息相同,仅格式不同,为XML 格式。MIAME (Minimum Information About a Microarray Experiment)和MINSEQE (Minimum Information About a Next-generation Sequencing Experiment) 定义了上传的芯片或测序数据最起码需要包含的数据信息。
- Series Matrix files,以制表符分隔的包含每个样本具体数值的文本文件,以包含的GSM和GSE诠释数据开头。若来源于不同平台则分割为数个单独的文件。
- Supplementary files,即补充文件,列出GSM原始数据或上传者提供的如临床信息等相关文件;GEO数据库鼓励但不强制要求上传补充文件。
GPL数据存储格式以及示例
- GPL、GSM、GSE、GDS数据,因数据类型不同,具体对应的文件格式有所不同
- GPL对应的文件格式
- GPLxxx.annot.gz,基因序列的注释信息表格文件,不定期会有更新(将芯片探针名转换为基因名时需要用到这个文件)
- GPLxxx_family.xml.tgz,压缩的MINiML格式文件,包含使用该平台的所有GSM、GSE的信息(一般分析不会用到)
- GPLxxx_family.soft.gz,压缩的Soft格式文件,包含使用该平台的所有GSM、GSE的信息(一般分析不会用到)
- GPLxxx.xxX.gz,补充文件,部分数据无补充文件
- 举例:GPL571,链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL571
GSM对应的文件格式
- GSMxxxxxx.xxx.gz,是单个样本的gzip压缩文件,位于补充文件类别下
- 通常包括原始的、未转换的数据,或原始图像文件;不是所有的样本都有补充文件;常见的GSM补充文件类型的包括.gpr、.cel或.tiff。
- GSM 原始数据文件格式与提供数据的平台有关,比如Affymetrix的芯片原始数据为CEL格式
- 如 GSM18423_PA-D_132.cel.gz,表示为gzip压缩的CEL文件,GSM18423为样本编号,“PA-D_132”为该样本的简要描述信息,链接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM18423
GSE对应的文件格式
- 这是我们最常用到的数据类型
- GSExxx_series_matrix.txt.gz 或GSExxx-GPLxxx_series_matrix.txt.gz,包含该GSE的样本表达矩阵及简要样本、平台信息;若一个GSE内应用了多个平台则按平台分割为多个series matrix文本文件。
- GSExxx_family.soft.gz,SOFT格式,包含该GSE所涉及的所有样本及平台数据。
- GSExxx_family.xml.tgz,MINiML格式,包含该GSE所涉及的所有样本及平台数据。
- GSExxx_RAW.tar,该GSE所涉及的所有样本的原始数据,如所有样本的CEL压缩文件,或补充文件。
- 如GSE1145,链接: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1145

GDS对应的文件格式
GEO profile数据存储文件格式和示例
profile_data.txt
GEO测序数据的下载方式
通过网页直接下载
- 最常见的,需要下载的数据类型:GSE和GPL
- 通过相应的GEO数据网站页面内的链接直接点击下载:
- 未确定数据编号,检索数据后,确定数据的编号后下载。
- 已知GSE、GPL、GSM、GDS编号,GEO主页中直接输入编号,进入相应页面,点击页面下部或右侧相应的链接下载
构建ftp链接下载以及示例