banner

生信全书 Lesson 6.2 TCGA测序数据下载

  • Home
  • 解螺旋·生信全书
Scroll down
TIP

这些是本篇文章的标签,来发现更多感兴趣的内容吧
科研
解螺旋
生信全书
测序

TCGA数据库简介

  • 全称The Cancer Genome Atlas,是一个具有里程碑意义的癌症基因组学项目,启动于 2005年,2013年 12月完成了33个癌症类型、共计2万多例样本收集;2014年6月完成了所有样本基因组数据采集
  • TCGA项目产生了非常庞大的数据量,有超过 2.5PB的基因组、表观基因组、转录组和蛋白质组数据,从基因、分子水平揭示了癌症的特征,提高了对癌症的诊疗和预防水平。
  • TCGA的数据收集于Genomic Data Commons(GDC)数据门户网站,链接https://portal.gdc.cancer.gov/
  • GDC网站收录了TCGA全部的33个projects的数据,此外还有美国国家癌症研究所NCI的其他20个项目数据

TCGA收录数据概要

  • TCGA数据包含7种数据类型,其中6类可以开放 获取
  • sequencing reads数据全部受限,simple nucleotide variation数据几乎全部受限,其他5类数据基本不受限制

TCGA数据检索

Cohort Builder中检索

  • 进入检索界面
  • 举例:检索TCGA中含有生存状态信息的肝癌患者的mRNA测序count数据
  • 首先进入Cohort Builder界面,选择General
    • Program——TCGA
    • Project——TCGA-LIHC
    • Demographic——VITAL STATUS 的dead和alive都选上
  • 接着进入Repository界面
    • Experiment Strategy——RNA-seq
    • Access—Open

检查结果加入购物车后直接网页下载

  • 这个部份根据数据量的大小,数据量<5GB的才能直接进行

使用GDC Data Transfer Tool下载

TCGA数据下载替代网站

UCSC Xena

  • UCSC Xena是由UCSC计算基因组学实验室开发的在线数据分析和下载网站
  • 数据下载页面链接:https://xenabrowser.net/datapages
  • UCSC Xena存储了TCGA全部33个癌症的数据,点解GDC TCGA开头的链接即可进入下载页面。
  • 优点:部分数据已经过整理,且较新;每一项数据的处理流程在数据下链接的说明文档中有具体介绍。

Firehose

  • Firehose 是Broad 开发的TCGA数据在线分析和下载网站,可下载TCGA全部33个癌症数据。
  • 最新的数据2016 年1月28日更新版本,数据下载页面链接:
  • http://gdac.broadinstitute.org/runs/stddata__2016_01_28/
  • 优点:Firehose网站TCGA测序数据已经过均一化处理和gene ID转换,可直接用来后续分析。
  • 缺点:网站打开不流畅,有时打不开,取决于网络情况;部分数据未及时更新,部分数据集缺少完整临床信息,somatic mutation信息不完整等。
Other Articles
Article table of contents TOP
  1. 1. TCGA数据库简介
    1. 1.1. TCGA收录数据概要
  2. 2. TCGA数据检索
    1. 2.1. Cohort Builder中检索
    2. 2.2. 检查结果加入购物车后直接网页下载
    3. 2.3. 使用GDC Data Transfer Tool下载
  3. 3. TCGA数据下载替代网站
    1. 3.1. UCSC Xena
    2. 3.2. Firehose
Find Something Special?