- 筛和猜是做科研的关键能力,不仅在筛选课题的分子时可以用到,而且在分子有表型,介导了什么机制(是与另一个分子,又或者是与通路相互作用)
- 经历的文献和课题多了,对分子的嗅觉会更加准确;没有人可以做到一筛全是阳性,一猜就有表型,但是经验确实可以提高命中率
筛选分子最好的办法:自己做高通量筛选
- 这个过程有点像皇帝选妃,一定会拥抱太多的选择,以至于很容易挑花眼
- 一次筛选正常情况下会产生几百到几千的显著差异性分子,靠人工一个一个检索分析非常耗时费力,可能几个月都做不出来什么东西
这时候就开始“随缘”,或者说蒙,然后就开始做,这无异于和自己的毕业证开玩笑2333
如果不用瞎蒙的,正规的方法是生物信息学分析
- 可以说生物信息学分析直接决定了筛选的质量和效率,当然自己做筛选虽然费钱,但是做筛选的公司会提供生信分析的后续服务
- 差异基因的列表(表达量排排坐)——进一步挑选候选分子的大名单
- 花里胡哨但实际没用的调控网络分析结果✖️N(这些图的存在意义很大一部份在于“让钱花得值”)
面对一份高通量筛选的数据,生物信息学分析能做什么
- 从测序或者芯片的原始数据,转化为差异基因列表的过程(谁做服务谁负责,自己搞比较麻烦)
- 即使是从数据库下载的数据,也没有必要下载完全原始的数据,最普遍的是下载差异基因已经分析好的数据
- 整合分析:交互作用网络分析、功能聚类分析、相关通路分析
- 差异分子哪些比较重要(重要是因为它们位于调控网络的节点之中)
- 变化的分子群已知跟哪些表型关系最高(提示做哪些表型验证)
- 跟哪些已知的通路调控关系比较密切(和后面做机制、找通路的大致方向)
以通量解决概率问题
- 生信很有用,但不是万能的:
- 两个阶段的生信分析,都没有办法保证找一个关键差异分子就一定出现显著的表型功能
- 具体有没有还是要进行分子和细胞水平的验证
- 生信分析不能提高人为选择(分子水平和细胞水平),真的只负责提高命中率
- 要想一次得到阳性基因,不差钱的同学可以多做几个候选分子(糟糕的比喻:一夫多妻总有一个能生育,当然这是不尊重女性的,只是做个比喻),like“以通量解决问题”
- 对于选分子而言,筛和猜是获得候选分子的来源,通量克服概率,是谋求验证获得阳性结果的最佳策略
- 真的懂科研了之后我们会发现科研是概率的游戏,真的所有实验都符合预期就不是科研了,只有工业化生产才能达到99%的良品率,科研的成功率在比较理想的情况下可能也只有1/3
- 怎样尽可能保证在一定的科研周期内尽可能获得好的结果:稳健的方法是大幅提高提及的工作量,把偶然性转化为必然性;职业选手做科研的时候除了主课题,一般情况下还有一个以上的备选课题,就是用来抵抗风险的(课题中的某些内容过不去,或者被人抢发)
- 用通量来规避风险,是基础科研的精髓思想,普遍通用,“好的成果都是用工作量堆出来的”
数据挖掘
- 猜是穷人的法宝,有钱筛,没钱猜,但中间还有一招是用别人的筛选找自己的分子发文章,即数据挖掘
- 实验模型的意义是大家用同样的评价体系进行研究,这样不同实验室做出来的结果还能有点可比性,高通量筛选数据也是一样的道理,如果从事相同方向的lab都自起炉灶,那就是极大的资源浪费,所以在科研界其实是提倡共享筛选的原始数据的,上档次的文章也会要求作者把筛选的数据上传到数据库,以此作为文章发表的条件)
- 一些常见的数据库介绍
- 隶属于NCBI的GEO(GEO是存高通量数据的仓库,pubmed是论文数据库),里面就像检索文章一样,输入关键词就可以找到匹配的研究文章列表,找到感兴趣的就可以下载数据
- GEO里还提供了在线的分析工具GEO2R,可以利用这个工具来获得差异基因的列表,通过这些操作就已经可以和自己做筛选,公司提供分析结果的同学站在了几乎同样的起跑线上
- 做肿瘤研究同学们更加幸福,还有专门基本样本的数据库,最权威的是TCGA,比较方便易用的是oncomine,有单元课配套
- 其他常见疾病的数据库可以在数据库索引网站omictools找到
- 不学编程语言的生信分析,用用现成的工具也就到头了,要想深入挖掘必须要发掘专门的生信技能;虽然但是,医生做科研会用编程工具就够用了,编程语言是锦上添花
- 总而言之,在有大数据可用的情况下,首先要做的就是数据挖掘,我们不需要把数据的所有潜力都挖出来就算合格,而是挖掘出足够我们发文章的部分(可能只有1%)就足够了
筛选分子的若干标准
- 为了尽快明确后续工作的方向,我们不能沉迷在筛选数据的海洋内,而是用比较高的效率,从众多的差异分子中修枝剪叶,建立10-20个分子左右的“精选列表”,就像海选一样
- 筛选出“精选列表”的过程,除了差异分子的倍数要十分显著以外,更多应该考虑作为课题主变量的创新问题
- 可以说“猜”分子是比较折磨人的,就像谈恋爱(糟糕的比喻,大概是找两情相悦的好难的意思)
- 线索高,可行性多的,创新意义不强
- 创新水平显著的,研究的不可预知性肯定高
- 生信分析也是基于现有的研究来分析的,完全无中生有的研究计算机做不到啊,所以不存在最佳的标准答案,需要根据自己的经验建立选择的标准
“新”——新颖性
- 误区:从来没有别人做过的分子,就觉得不靠谱,风险好大;非要选择一些已经有好多文章做过的,这种想法本身就已经对课题的创新造成了很大的局限
- 我们所说的分子“新”,是指在我们选择的疾病(肿瘤的体系比较庞杂,可以适当放宽)中,这个分子从来没有被研究过
- 比如研究肠癌,就会希望这个分子在其他种类的肿瘤中报道总数≤2篇,因为发完文章还要申请基金,尤其是国自然基金,对科研创新性的要求是显著高于低分的SCI文章的
- 如果选了那些比较成熟的分子,在填写标书的综述部分时,对这个分子的既往回顾就会比较难看了,分子创新性不足的课题真的会坑死人
分子特征(背景信息)
genebank数据库或专门注释人的基因特征的genecards数据库
- genecards了解分子的大小,亚细胞定位,表达分布,分子已知的功能和相似的蛋白质家族的功能,分子有没有转录本等,根据这些来预测一下这个分子能够讲出什么样的故事
- 分子量很大的蛋白做起实验来会有比较多的难点
- 亚细胞定位:膜蛋白/胞浆蛋白/核蛋白/分泌蛋白,提示可能存在的不同功能,比如分泌型蛋白用来传递信号,膜蛋白用来接受信号,胞浆蛋白功能比较杂也比较多(激酶、磷酸酶),核蛋白往往具有转录调节功能
- 遇到转录因子、激酶等关键分子,其功能比较强大,下游的机制也多,后期做机制的时候会比较轻松
- 上述方法需要我们对科研,特别是文献有一定的积累量
多种信息来源
- 进一步提升选分子的命中率:利用数据库/预实验进行验证,比如肿瘤的数据集有病人的预后资料,可以把侯选分子的表达和病人的预后记录下来,一个分子一个分子用生存分析看有没有相似性,选预后有差异的分子,文章的第一部分数据就有了,临床意义不明确的分子在这一步可以剔除
- 可以找检测过组织或细胞中表达的文献,把这些分子的表达情况再对照一下,如果找不到可以自己做,用qPCR检测10-20个分子的表达,上述的工作对于确定哪几个分子进行功能验证有不可替代的作用
- 第三步:从其他方面再找一些验证,数据库,临床意义,文章报道的其他人的研究成果里表达的差异,或者是自己检测的细胞系的表达情况,选出在多组结果间一致的,放弃结果矛盾的分子,为后续研究降低风险
- 最好还是把猜分子的工作交给有多年科研经验的“老司机”来做,刚刚入门的萌新太费劲了,即使是熟手也需要1-2周,科研新手医生这个过程需要2-3个月也不例外
简化的猜分子策略
- 从差异最显著的分子列表里一个个往下看,按照前述的标准来过滤
- 选出5-6个分子后,剩下的就不管了,接下来补充一下文献调研的工作,把已经发的文章读一遍
- 最终选出2-3个靶标(以通量解决概率的思路),再按照分子-细胞-动物的套路来做实验验证;我们还是要对冥冥中有定数的规则有一定的敬畏之心,去顺应规则
- 基础科研不比临床和临床研究,基础科研的规则是秘而不宣的,没有官方版本
- 在科研院所或者高校这种地方,写在论文上的工作量和实际的工作量往往是1:10,甚至更加悬殊
课题深入的策略
- 在分子表型研究完才适用
- 差异表达的分子列表里的分子交互网络信息,如果高通量筛选是公司做的,那交互网络的信息可以在公司报告里看到,如果自己挖掘数据,可以等到明确了哪个分子有表型之后再做
- 表型后面要挖掘机制,我们就需要知道哪些比较关键的通路受到了调控,而且趋势和靶分子是一致的,尤其是明星蛋白的变化,可以通过在线工具分析得到
- 一个潜在的:KAGG pathway数据库,把高通量筛选获得的差异表达的分子列表放在数据库中,可以产生一个通路网络的结果,其中就包含了关键的网络节点的信息,这个网络的关键节点可以反过来在筛选数据当中看到表达变化的倍数
- 一个通路有多个biomarkers,如果它们的表达趋势是一致的,那结果就比较可信,还可以用qPCR或western进一步做验证明星分子的表达变化
- 以这些通路大咖为抓手,我们就可以在研究机制方面把分子与通路结合起来,即“蹭热点”;课题选新分子是为了满足创新型,蹭明星通路是为了迅速提高这个分子的江湖地位和影响力,方法是与通路的明星分子蹭上关系,在文章放上分子间相互调控的数据和图片
从文献里猜分子
- 先去找3-5本领域内的权威期刊,IF在10分以上
- 把最近3个月做新分子的文章全部找出来,题目里就有,把分子丢进pubmed看看,新的留下来备选
- 选到3-5个分子的时候就可以去了解分子的背景,读一下这个分子已经发表了的文章,确认有无问题,没问题的直接开始进行表型验证
- 我们选择的表型和原来的文章中的应该是不一样的,疾病也不能一样
- 表型如果不一样做不出来:以通量解决概率,分子和表型都一样的文章是垃圾文章,这种文章救回来的唯一机会是机制不一样,如果机制都一样那文章就没救了
- 这么做是因为表型和表型之间是可能存在相关性的,比如肿瘤的转移和肿瘤干细胞有相似性,肿瘤的发生和胚胎的发育也有相似性,机制方面往表型共有的机制去套就好