TCGA数据库简介
- 全称The Cancer Genome Atlas,是一个具有里程碑意义的癌症基因组学项目,启动于 2005年,2013年 12月完成了33个癌症类型、共计2万多例样本收集;2014年6月完成了所有样本基因组数据采集
- TCGA项目产生了非常庞大的数据量,有超过 2.5PB的基因组、表观基因组、转录组和蛋白质组数据,从基因、分子水平揭示了癌症的特征,提高了对癌症的诊疗和预防水平。
- TCGA的数据收集于Genomic Data Commons(GDC)数据门户网站,链接https://portal.gdc.cancer.gov/
- GDC网站收录了TCGA全部的33个projects的数据,此外还有美国国家癌症研究所NCI的其他20个项目数据

TCGA收录数据概要
- TCGA数据包含7种数据类型,其中6类可以开放 获取
- sequencing reads数据全部受限,simple nucleotide variation数据几乎全部受限,其他5类数据基本不受限制

TCGA数据检索
Cohort Builder中检索
- 进入检索界面
- 举例:检索TCGA中含有生存状态信息的肝癌患者的mRNA测序count数据
- 首先进入Cohort Builder界面,选择General
- Program——TCGA
- Project——TCGA-LIHC
- Demographic——VITAL STATUS 的dead和alive都选上
- 接着进入Repository界面
- Experiment Strategy——RNA-seq
- Access—Open
检查结果加入购物车后直接网页下载
- 这个部份根据数据量的大小,数据量<5GB的才能直接进行
TCGA数据下载替代网站
UCSC Xena
- UCSC Xena是由UCSC计算基因组学实验室开发的在线数据分析和下载网站
- 数据下载页面链接:https://xenabrowser.net/datapages
- UCSC Xena存储了TCGA全部33个癌症的数据,点解GDC TCGA开头的链接即可进入下载页面。
- 优点:部分数据已经过整理,且较新;每一项数据的处理流程在数据下链接的说明文档中有具体介绍。
Firehose