- 生物信息学工具用好了可以大幅提高研究效率
- 工具不是越多越好,增加选择负担
- 生物信息学工具给人的错觉是:拥有了这些工具,就能统治科研数据的世界,很遗憾,这一定是假象。
- 生信是一门独立的学科,能力有三种境界
- 专业级选手:研究各种算法和架构数据模型的,精通至少一种编程语言,比如现在比较流行的 Python 语言,他们的工作状态跟程序员很接近,光靠编程就可以有一碗饭吃
- 生信的资深爱好者:其进入条件是必须掌握R语言。R是专门用于统计分析和作图的语言,比编程语言要简单。把R玩好了,统计软件和作图工具就不用学其他的了,而且因为用得人多又是开源软件,有很多现成的扩展插件, 俗称为“包package”,即一套数据处理的工作流程,人家把代码都写好了,我们只要拿过来调一下参数就可以用,非常的高效。R的难点也恰恰在于包太多了,对新手而言像天书一样,拿到手也不会用。不管怎么说,R 是数据挖掘的基础,这一层境界是医生在业余时间刻苦学习可以达到的。学习周期大概半年到一年,如果你统计学得比较好,上手就快。
- 要想仅用生信手段就发paper,R语言是必学的。
- 如果不想专门耗费大量时间学R,那么所谓的生信分析仅仅是用用现有的在线数据库和软件工具而已,这是第三层境界,叫业余水 平。业余选手是希望点点鼠标就把数据分析给做了,但好的工具都是收费的,收费的用不起,免费的功能又有限。这么一来,人家数据挖掘是挖个大洞,我们的就只是刨个小坑,输出的数据层次上会比较单薄,单薄到必须要与细胞、分子、动物的数据相配合,才能形成完整的story。
- 其实,对绝大多数搞基础科研的人来说业余水平够用了,生信分析只是一种辅助手段,掌握一点生信技能可升级成为一个“干湿结合”的双修科研选手。近几年干湿结合已经成为基础科研的一种常规配置,生信数据分析加上生物学实验验证可以发高水平的paper。
- 生信技能配合基础研究主要有两种应用场景
- 其一是解决筛、猜获取新变量,也就是Candidates的问题。当变量代入恒量找研究靶分子的时候,我们可以通过在线的数据库,对 别人用过的高通量数据进行二次挖掘,实现数据的再利用。
- 筛或者猜机制的时候,工具和数据库也可以帮助预测,指引研究的分子跟哪些通路、哪些下游分子可能有关联。 如果下游有很多分子都发生变化,还可以构建调控网络,把复杂的信息可视化变成一张信号通路图。
- 实际上,在整个课题展开的过程中,有且只有两个环节需要筛猜——找主变量以及已知主变量,找机制的因变量。
- 两步关键的动作都可以加入生信工具辅助,所以就算不发展到学编程语言这一步,掌握一些必要的数据库和软件使用也是当前形势下做基础科研的基本功。
- 一些其他的必须使用的工具
- 整理文献——Endnote
- 查找文献——Pubmed
- 序列对比分析——blast
- PCR引物设计
信息数据库
凡是跟基因、非编码RNA分子序列或者功能注释相关的数据库,统称为信息数据库
就跟公安局存个人身份证信息、户籍信息一样,这些数据库中存储的是分子的特征信息。
当我们启动一个课题, 面对大量分子需要选择的时候,或者已经有一个确定分子需要检测它表达水平的时候,信息 数据库是我们最早用到的一批工具,同时这一类也是使用上最简单的数据库
- NCBI的Genebank、Nucleotide,查基因信息的Genecards,查miRNA序列的miRBase,查LncRNA的noncode,还有UCSC、Ensenbl查启动子区域信息,ORF Finder分析一段序列是否编码蛋白,CpG Finder找CpG岛的位置等等。
通路数据库
这类数据库主要功能是聚类,把相关的分子归为一类。
他们把分子按照功能表型进行了特征归类,当我们手上有一份高通量数据输入进去,就可以告诉我们研究中变化的分子跟哪些已知的特征比较相关,并且可以根据已知的分子间调控关系构建调控网络,然后告诉我们哪些分子位于关键的节点。
这个节点,术语Hub gene,翻译成枢纽分子或者叫节点分子,换句话说就是提示应该围绕哪些关键分子进行干预,可以有的放矢。通路网络的信息非常复杂,在手握高通量数据要进行整体性分析时,这些工具必不可少。
- 最经典的有三个:KEGG,DAVID和GSEA
分子互作数据库
主要用在预测分子与分子间相互作用,也就是直接作用机制
一旦涉及分子交互作用的预测,一般同样的功能会有不同科学家开发好几个数据库,背后的算法逻辑和用法都有些差别,一个个研究是很花时间的。
凡是我们课程里推荐的,那都是公认好用的,是前人的经验和口碑,没必要神农尝百草。
- miRNA预测靶基因的Targetscan
- 预测转录因子靶基因的JASPAR和TRANSFAC
- 预测LncRNA与miRNA结合的Starbase
- 蛋白与蛋白相互作用预测的String
- 一些商业公司的网站往往也提供一些工具,QIAGEN公司提供了CHIP实验后qPCR验证的预设计引物,每个基因可能结合的转录因子都预测好了,连结合位点的预测结果都有,我是在Genecards数据库给的产品链接里发现的。
- SIGMA公司把所有基因的shRNA序列都给设计好了,并且是免费公开的,搞得设计siRNA这么一个有难度的活顿时没了技术含量。
样本数据库
生信分析可以用别人的数据发自己的文章,别人的数据不是从文献一个个去找,而是有现成的数据中心,就是样本数据库。
- GEO是NCBI的一个子数据库,全称叫Gene Expression Omnibus。这个数据库存储了全世界最大、最全面的基因表达谱数据,是个数据仓库。允许研究者上传自己的数据,也可以免费下载别人的高通量检测原始数据
- 各种常见疾病还有自己的样本数据库,比如做肿瘤的还有TCGA、Oncomine、SEER等,都允许我们根据自己感兴趣的问题下载高通量数据,经过二次分析产生新的结论,发表论文。
搜寻数据库的方法
- 牛津大学出版社的核酸研究杂志(Nucleic Acids Research,NAR), 每年发布的数据库特辑(database issue);NAR database issue提供了15 个分类的数据库目录,其中有一个就涉及按疾病找数据库
- 数据库索引网站,叫Omictools (https://omictools.com/),这个站点直接提供关键词搜索功能,用起来很方便,也可以按分类搜,每个数据库都有网址和简单介绍。
- 数据库数量众多,很多作者发了文章之后没有维护基本就等于废了,如果有超过5年没有更新,是不是可用大家要加点小心
生信分析与统计方法的关系
- 在数据挖掘的过程中,统计方法可谓如影随形。
- 一般的流程,研究者会先通过高通量数据分析筛选出差异基因,然后会根据临床资料进行单因素、多因素和生存预后等分析操作。
- 在一些文章中,作者会把多个靶标根据评分组成多维度的分子预测模型,这种套路里样本数据至少会随机分成两份,一份75%和一份25%,或者七三分。多的那份数据集用来建立预测模型,或者称为Training set 训练集,少的数据集测试模型,称为testing set测试集。有些文章里还有第三份样本或者是自己的样本做外部独立验证,叫validation set验证集,由此证明模型的有效性。
- 除了建立多靶标的统计预测模型,还可以把有一定相关性的一组分子进行聚类分析,做分子网络,这里就用到DAVID、KEGG和GSEA。
- 纯生信套路本质上是利用数据库下载的高通量结果,自己进行统计分析处理,再来点交互网络点缀的数据套路,各种分析手段需要融会贯通。
生信分析的研究策略
- 第一个是系统搜索资料和荟萃分析的方法,如果我们学过META,那这个思路是一样的。针对某一个问题,把所有已有的高通量数据META在一起,多份数据合并,这时候往往要求入组的数据采用同一个技术平台,或者用统计手段把它们的表达值标准化,让不同研究项目之间的数据可以进行整合比较。从单研究上升到多研究数据整合,其严谨性能得到提高
- 把数据库里下载的数据做差异分析,这里最好懂点 R 语言,会用一些软件。无论是自己做高通量筛选还是用别人的数据,用到的技能是一样的,需要从芯片或者测序的原始数据转换到差异分子列表
- 临床相关性的统计分析,主要是单因素,多因素,COX、logistic 回归, Pearson、spearman相关系数等等,说起来简单,做起来需要注意很多细节,这些统计方法临床研究中也频繁要用到,必须要学
- 最后是通路分析工具,跟差异分析差不多,是用一些现成工具,可以出一些炫酷的图
不做湿实验,发干文章灌灌水已经毫无问题了。 不过都这么强大了,只是发点灌水文章有点亏吧?后面加上干湿结合,有生物学实验验证, 我们可以飞得更高。干湿结合是说在你通过生信分析获得一组靶标的时候,不仅局限在临床相关性的统计分析,进一步可以选择其中有创新性的一个或多个,进行细胞、动物实验的表型验证。Gain of function,loss of function,证明这些分子之所以有表达差异,也有临床意义, 是因为它具有某种影响疾病、表型的功能。接下来继续探讨分子机制,下游通路、靶点,找上游驱动因素,甚至直接筛选和验证相互作用的分子,这样逐步深入发展成一个多元变量的高水平文章。
从文章数据的角度分析生信的意义
- 当一个课题满足单变量有表型,有数据有细胞也有动物,这就是个毛坯,想文章发得更高有3个方面的加分项可选
- 第一,加生信分析,给这个分子套上一个怎么获得的理由, 找数据库里的样本资料给实验的结果做佐证,这可以加分。也就是说干湿结合并不一定就是从干的分析到湿的验证,有些人恰恰是先有了功能分子,然后反向往上找数据库验证,增加数据的说服力。
- 第二,可以结合临床资料进行分层分析,有生存预后数据可以显著提升 项目的临床意义,对文章的价值影响不小,也是医生做科研的一个优势。
- 第三个加分项是在机制上,特别是分子相互作用上精雕细琢,要知其然知其所以然。想象一下,一篇文章上来 会有数据库前人研究的数据挖掘指明一个方向,然后会有自己样本的一系列验证,还有临床相关性的统计分析结果,提出临床意义,接下来是细胞动物表型和分子机制的实验结果,做通路或者分子调控的时候用一些数据库预测和进行网络构建,除了间接机制还有直接靶点, 靶点预测也会用到数据库再加上经典实验验证,这样的文章无疑有满汉全席的味道。
- 干湿结合之所以成为一种科研的趋势,是因为它确实给基础研究带来了解构问题的全面角度。分析预测和实验验证是密不可分的整体,一般来说机制做得强的实验室生信能力并不一定也强, 反之生信厉害的人一般做实验能力很弱,背后的原因是这些技能都需要花时间去修炼,你并没有比别人多出来的时间,所以两种技能都精通的人是稀缺的。文章到了一定档次,常规的套路大家都会,不会的也有合作伙伴来补位,发顶级期刊还是需要提出具有颠覆性的创新观点才行