解释题目的意思
- 蝶-蝴蝶;蜂-蜜蜂;使-使者;媒-媒介
- 这里形容的是传递信息的或者是撮合男女的人
- ceRNA,两条 RNA经由一个miRNA相互调控,产生内源性的竞争作用,中间调控的媒介就是miRNA,这是本节课程的名字的由来。
复习:直接作用机制的意义
三十六策 Lesson 15 一元三形讲完后, 变量嵌套的多元线性结构已经到顶了,逻辑上继续串联更多变量,并没有决定性的升级意义。一篇文章里主变量只有一个,围绕主变量的上游、下游加起来就是三个变量,不会有人在一篇文章做两个主变量的论证,这是自讨苦吃,明明可以拆成两篇讲故事的没必要逆规律而行。
同样的,也不会有人在主变量和因变量调控关系创新的基础上,再不嫌麻烦地给自己加戏,针对两个因变量之间的关系还要尝试做一套全新的完整证明。像上游的上游,下游的下游这种远端的因变量关系,一般都是取已有报道的来验证,而不是重新开发,这也是约定俗成的一套做法。横向发展到了极限,就应该往纵向探索了,那就是两个变量间交互的细节——直接作用机制。
在三十六策 Lesson 11我们介绍了miRNA找靶基因的直接机制套路,它出现的那么早是因为这种RNA和RNA的结合是最简单的,基于序列互补配对的原理。
到了三十六策 Lesson 16我们学习了蛋白-DNA的交互模式,在三十六策 Lesson 17又补充了DNA甲基化调控的研究方法。甲基化属于分子修饰,可以用半套直接机制的简约策略,如果是全套它一样是蛋白与DNA的交互作用。
在上一节课中,我们梳理了蛋白-蛋白分子交互的内在规律和经典实验验证手段。与转录因子模型嵌套一下,可以衍生出一套结合了蛋白-DNA 和蛋白-蛋白的三元直接机制——蛋白-蛋白-DNA,其中既要提供两个蛋白结合的证据,也要提供蛋白和 DNA结合的证据,一鱼两吃,内涵非常华丽。 - 这一策的蝶使蜂媒是针对RNA结合RNA二元交互套路的二次升级。RNA-RNA交互的升级就是ceRNA的调控网络,这也是当下比较流行的一种机制研究模式。随着研究趋势的发展,主变量是miRNA机制做靶基因的文章总感觉有点营养跟不上,那么ceRNA就是堪称妙手回春的一招。 毫无疑问,它能使得以miRNA为核心主料的餐点,层次更丰富,口味更好。把两套RNA-RNA交互作用叠加在一起就成了ceRNA,其中有一个RNA分子是共用的,是miRNA。一个miRNA两个靶基因,一共三个变量,构成ceRNA的基本框架。
- 通晓了ceRNA,我们对非编码RNA的认识会上升一个层次。miRNA调控靶基因的实验内容是直接机制里最简单、最容易操作的,而miRNA介导的ceRNA又是三元变量直接机制里最友好、最人畜无害的。miRNA之所以能成为新手入门的不错选择,关键在于它不仅仅有相对容易掌握的经典实验,就其套路本身的可拓展性而言,也有像ceRNA这样的后续手段。
ceRNA的前世今生
- ceRNA概念的提出是源自2011年cell上的一篇文章,The Rosetta Stone of a hidden RNA language。Rosetta Stone,什么石碑,必有典故。我跟大家一样, 也不知道具体是什么典故,所以特意去查了下。Rosetta Stone是保存在大英博物馆的一块石碑,制作于公元前196年,上面记载着古埃及国王托勒密五世登基的诏书。这块石碑是古埃及文明的重要象征,古埃及的文字一度失落了一千多年,没人会解读。这块石碑上用希腊文、古埃及文和当时的通俗文字记录了同样的内容,为法老歌功颂德。希腊文是一直流传下来的,这样的一块石碑就使考古学家有机会通过文字对照,解读出埃及象形文的意义与结构,从而重新掌握了这种文字。回过头来再看,一个 科学家用这样的寓意起作自己文章的题目,水平已经到了出神入化的境界。 当年这篇文章一出来,老谈就推荐我读过,而且顺势我就写了一个ceRNA的国自然面上项目,一举中标。国自然喜欢追新,是一个很显著的特点。ceRNA 的原理说起来极其简单,但是第一次提出来,并且在实验中证实,还是很令人震撼的。
- ceRNA本质上是miRNA作用机制的升级。miRNA通过与mRNA的3’-UTR结合抑制蛋白翻译表达,这个领域从 2001 年开始,最初也是CNS上报道,随后大量发现了miRNA 就很普遍了。后续研究证实,单个mRNA可能受到多个miRNA的调控,而单个miRNA也能调控多个mRNA,形成一个网状的结构。如果两个mRNA,它们的 3’-UTR 能结合同样的miRNA,它们之间会不会有调控关系呢?从理论上分析一下,A表达多了之后,能够竞争性结合miRNA,然后就导致结合B的同样的miRNA减少,这样B的表达就上升了,所以A和B之间应该存在表达的正相关性。
- 2011年的这篇文章,就是在实验室水平,证明了内源RNA之 间,通过竞争miRNA结合,相互之间影响表达的这种调控现象确实存在。这种机制模式发展到现在,已经成为一种非常流行的研究非编码RNA的套路。在科研里,第一个提出来的是大牛,后面跟风移植到自己研究里的全是套路。不过到目前为止,ceRNA还有一定的新颖性,还属于远远没有探索完全的一个前沿领域。ceRNA不是指一个分子,而是RNA与RNA之间多元调控的一种交互模型。如果说miRNA结合靶基因mRNA的3’-TR是RNA结合RNA的二元直接作用,那ceRNA 就是它的进化版,是RNA结合RNA直接机制的至少三元结构。
- 从11年到现在过去了7年了,ceRNA 的文章出了不少,已经证实ceRNA调控是具有普遍性的,是一种调控网络,而不是少数分子的调节关系。ceRNA涉及的分子很多,一个miRNA 结合的靶基因可能有上百个,而mRNA的3’-UTR和大量的非编码RNA上,也有远远不止一个的miRNA识别元件,miRNA recognition elements,缩写MRE,也可以叫miRNA binding sites,miRNA 结合位点。大家可以想象一下一个水库的 作用,雨季蓄水,旱季放水,这样下游的水流量能够形成一个相对稳态,有更强的环境抗压能力。ceRNA调控网络的作用也类似这种机制,某一个基因变化会引起一堆基因的表达产生涟漪,对高等生命体而言这些波动就有机会纠正不利的影响。
ceRNA课题的设计
这些年高通量测序的技术发展很快,数据分析水平也在不断进步,产生了不少新的研究方法。
miRNA结合靶基因被证明是依赖于RISC蛋白复合体的,可以适当复习三十六策 Lesson 4和三十六策 Lesson 11的内容,RISC复合体中有个关键催化组分蛋白AGO2。有一种思路是利用AGO2的抗体,把复合物免疫沉淀下来,再把结合在其中的miRNA和其他RNA送去测序。
这样的高通量研究就表明参与 ceRNA 调控网络的基因数量非常庞大。有意思的是,现有研究还发现,当miRNA表达丰度很高的时候,它们对于ceRNA的调控看起来是不敏感的,另一方面,miRNA表达丰度又需要足够高,才能发挥抑制靶基因的作用,这样不就说明ceRNA实际起到的作用可能很有限吗?或者说是有一个严格的剂量区间?这些问题现在还不好说,ceRNA的作用到底有多广泛,多重要,还需要更多探索,但是实验性的研究确确实实提供了不少支持ceRNA的有力证据,实验条件和生理条件毕竟有差别,科学研究也不需要一次性把问题都解释清楚,每次发现一点点小进步就可以发文章了。
著名的抑癌基因PTEN就有好多篇ceRNA调节机制的文章,从这些文章的模式中我们应该可以受到启发,一个那么知名的分子通过ceRNA重新焕发了青春。有些同学手上有那个几个毫无创新性可言的,食之无味、弃之可惜的课题分子,可以学习一下人家利用ceRNA二次开发PTEN的研究思路。
目前证实,通过ceRNA机制,调节靶基因的分子已经不少了,尤其在非编码RNA领域。以前,非编码RNA数量虽然多,但因为不编码蛋白,机制就很难研究。现在只要分析一下非编码RNA上面有多少MRE,找个miRNA搭个桥,傍上一个功能基因mRNA,通过这个蛋白的功能就能说明作为ceRNA的非编码RNA的功能,这个story就圆了,非编码RNA功能困局似乎 一下子被ceRNA盘活了,功劳不小。当我们去看做非编码RNA有机制的文章里一半以上,都在从ceRNA上建立突破口。这也是非常讨巧的方法,因为ceRNA研究就实验方法而言基本等同于miRNA研究,仅仅是多了个分子,平行增加了点工作量而已。miRNA的实验方法本来就不难,因此门槛不算高。门槛不高贬值就快,现在做非编码RNA加上ceRNA机制的文章过10分都有一定的难度。一个套路用的多了必然会俗气,这是难以抗拒的历史发展进程。
肿瘤中的ceRNA报道已经比较常见,其他疾病都还处于初始阶段。想发ceRNA的文章,首先得有钱,在有钱的前提下,主要有3条思路。
- 第一条,从零开始,索性直接从非编码RNA开始筛选。在确定的疾病和表型组合下,利用特有的样本,细胞模型或者动物模型,直接进行非编码RNA的筛选,比如去筛circRNA,用新的circRNA+ceRNA机制,争取发好一点的文章。
- 第二条,如果你前期工作有功能基因的文章,可以从你自己的基因去反推ceRNA。这种反推就不要找非编码RNA了,找编码蛋白的mRNA更好一点,去研究2个mRNA之间的ceRNA调控关系。这么推荐的理由是:充当ceRNA的有mRNA、假基因(pseudogene)、长链非编码LncRNA 和环状CircRNA,其实概况起来就两类,编码基因的mRNA和长链非编码RNA。考虑到假基因一般不转录,转录出来的也属于LncRNA的一个子类,CircRNA也可以看成是LncRNA的一个特殊剪切形式,所以可以分成编码和非编码两个角度来思考。在目前验证过的ceRNA中,mRNA参与其中是多数,所以不必舍近求远,直接从前期工作的mRNA出发,利用miRNA竞争结合的靶点预测,猜一批ceRNA编码的功能蛋白来验证就好,配对成功就是一篇新文章。
- 如果非要蹭下热点,做非编码RNA,就没必要这么局限了,既然文章主变量是非编码RNA,直接上筛选就OK,就回到第一种思路了。可以一次性筛三个表达谱,LncRNA表达谱,miRNA表达谱和mRNA表达谱,然后一通生信分析预测ceRNA关系,接下来再进行实验验证。
- 最后第三种,前期工作有miRNA的文章,围绕这个miRNA来延伸出ceRNA机制。建议是做这个miRNA过表达之后的RNA表达谱变化,咱们先筛选一下,从差异表达趋势一致的分子中做ceRNA预测,然后再进行验证。
基本上,做ceRNA都需要做高通量筛选,所以需要有钱才能玩。ceRNA的生信分析高通量服务的公司都是可以做的,需要比较复杂的算法,没有现成的工具。miRNA靶基因预测是有数据库可以现成用的,要把几个数据库的预测结果综合起来取个交集,这一步也不难。但是要分析的不是一个基因,而是成百上千个差异表达的LncRNA、miRNA和mRNA的分子调控网络,要把miRNA和mRNA,以及miRNA和LncRNA的靶基因配对加上他们的表达量进行相关性分析,这就需要依靠算法的支持了,没有专业生信能力搞不定。
预测出来的潜在ceRNA配对的结果可能会比较多,验证起来就有一定的工作量,正常来说应该先做表达差异和表型的验证,跟我们前面讲的策略相同,Gain of function或Loss of function,证明有明确功能的候选分子,再去做ceRNA机制。但如果目标就是研究ceRNA,经过前面筛选,这时候你手上已经有了mRNA,miRNA和非编码RNA的三个表达谱交互网络信息,这时候做法可以不一样。可以从非编码RNA竞争性结合影响的mRNA的功能注释,来推测LncRNA的潜在表型,比如一个LncRNA可能调节几十个都是在同一个通路上或者属于同一个功能分 的蛋白,那么它很可能跟这个功能或者通路有关。结合机制考虑靶分子,靶分子的范围会进一步缩小,这样验证的准确性也会增加。
这种思路下,也可以先锁定一个明星分子以及它所介导的表型,反过来就找它的ceRNA,无论是LncRNA,CircRNA都行,反正是新的分子就行。锁定一个明星分子,你候选的范围会很有限,验证工作有的放矢。其实找pseudogene看起来是最简单的,因为它和真的那个基因的3’-UTR基本是一样的,结合的miRNA本来就应该是一样的,构成竞争关系。假基因常规来说不转录,如果让你发现一个转录的,而且有功能表型,你就赚到了。如果大家走到这一步,发现前期筛选的差异表达结果里有pseudogene,建议不妨先验证一下表达,确定是转录的就做ceRNA机制。这样的课题设计是表型和机制两个维度综合在一起考虑的,无论是先验证ceRNA关系,还是先验证表型,总之两个条件一旦都满足,就是一篇 5 分往上的文章。
ceRNA的文章实验设计与实验数据
变量选择与实验设计
- ceRNA的文章首先肯定至少是三元变量。
- 第一个是主变量,可以是mRNA,LncRNA,CircRNA或pseudogene,一个原则就是要原创、要新,在你的文章里,主变量介导表型应该是原创性的发现,这样围绕主变量的功能需要一套一正一反,体外体内细胞动物,加上组织标本表达检测以及相关性分析的完整的功能研究数据。
不要把前面教的东西忘了,把主变量代入疾型模法标的套路文章里是一样的,骨架通用。ceRNA属于分子机制环节加进去的戏码, 单变量论证套路不变,这一点咱们要先搞清楚。
- ceRNA的三元变量还剩下两个,第二个变量一定是miRNA,第三个变量一定是一个编码蛋白的功能基因。一般情况下,第三个编码基因与表型之间的关系是已知的,这跟间接机制靠通路的时候常规是找表型相关的道理一样,方便自圆其说。
- miRNA这个变量跟表型的报道不一定需要已知,如果是原创的,有加分作用。因变量miRNA调节因变量编码基因可以是已知的,只要主变量和miRNA之间的关系是新建立的,miRNA和下游靶基因之间即使是个固定搭配,也仅仅是稍许降低了一点你研究的创新性,不会明显影响文章的核心价值。
- 说是至少三元变量,是因为在很多文章里,中间搭桥梁的miRNA环节可能不止一个。两个,三个,甚至五个的都很常见,这也从一个侧面说明ceRNA文章的工作量肯定比单纯的miRNA大很多。前面介绍ceRNA背景的时候,我们提到了RNA sponge这种机制是网状的,独立的去看某个miRNA和靶基因的关系没法体现全局性的调节影响。在最初2011年的那篇ceRNA开山之作里,作者就人为定义了只有两个RNA共享超过7个miRNA,才能被认为可能构成ceRNA关系,算法就这么定义的。从现在的文章看,这个概念已经放宽,只要是RNA之间,经由miRNA介导调控关系,都叫ceRNA,最少一个 miRNA都可以的。但显然,更多的共享miRNA靶点会有利于两者之间竞争的强度,尤其是预测的结果里有一个家族的几个序列相近的miRNA,放在一起研究更严谨。 为了文章发得更好,选多个miRNA平行验证也是一个常见的策略,因为ceRNA关系有普遍性,几个miRNA都竞争,结果一样就更有说服力了。
ceRNA论证的必要环节
我们学习论证框架,不要那么复杂,就以1个miRNA的情况,通过三元变量来说明ceRNA关系论证所需要的证据链,更多miRNA的情况需要自己体会,体会不出来就去找文献借鉴学习吧。
Step 1:表达检测
- 如果主变量和编码基因之间假定是ceRNA,它们的表达应该具有正相关的关系,所以表达检测的结果需要做,qPCR、Western,组织样本、细胞株。
- 如果主变量是非编码RNA,它和miRNA的表达丰度都不能太低。正常情况下,非编码RNA的丰度比编码基因的mRNA低的多,低丰度一般认为没活性,所以你得首先表明你的研究对象存在疾病中特异性的高表达现象,证明研究这个分子的必要性。
Step 2:主变量与最下游变量之间的调控关系
- 根据上面的内容,最下游的变量一定是一个编码蛋白的功能基因。
- 主变量和编码基因互为ceRNA,这种调控关系体现在上调或下调主变量能够影响编码基因的表达,反过来也是一样。
- 严谨来说,主变量的上下调检测编码基因的表达,以及编码基因的上下调检测主变量表达都要做,但是看到文章里基本只做一个方向,会省掉一点 工作量,这属于一种潜规则。
- 主变量往往是在疾病中高表达的,所以做RNAi是抑制疾病发生,也应该是主要的表型调节方向,这样简化论证的话只做主变量的RNAi就OK,过表达就可以省了。
- 同时,主变量是新分子,编码基因是明星分子,这就有一种错觉,编码基因是用来解释主变量的机制,所以主变量调节编码基因必做,反过来编码基因调节主变量很多文章都不 show。作为ceRNA,双向互调节是必须的,否则就有可能存在其他的机制。
Step 3:验证miRNA可以抑制主变量和编码基因
- 文章里一般会先show一下miRNA与主变量和编码基因3’-UTR之间结合的靶序列信息,图片来源于数据库预测。
- 实验环节需要过表达miRNA,观察对主变量和编码基因表达的影响,用qPCR和WB。
Step 4:论证miRNA可以抑制靶基因
- 用Luciferase实验,证明主变量和编码基因确实是miRNA的靶基因.
- ceRNA关键的直接作用二元论证就是miRNA 研究的一套标准模式。不过其中有2组miRNA 和靶基因的关系,需要都做到位。
Step 5:多元变量研究,Rescue 实验必不可少
- 这里的Rescue主要是主变量和miRNA的逆向操作,看编码基因的回复以及表型回复,比如前面主变量是做RNAi的,就要再加上miRNA的inhibitor,注意是inhibitor,口诀是反反反
- 这一步还有一种替代的方法,可以用Dicer敲除的细胞来验证主变量和编码基因之间的调节关系是依赖于miRNA的。Dicer是miRNA从前体加工成成熟体必须的酶,Dicer缺陷的细胞是miRNA缺失的,这也相当于是一种阻断策略。
- 在Rescue这一步,如果编码基因是明星分子,跟表型有非常明确的联系,那么为了说明主变量影响表型是依赖于这个明星分子的,可以跳过miRNA的rescue,在验证miRNA作用靶点的荧光素酶报告基因实验之后做编码基因的rescue验证,证明主变量和明星分子之间的依赖关系。这时候口诀应该是正正反,正反正,高分文章,三元变量,两个环节的Rescue在逻辑上都是必选项。
补充的加分Step:
- 文章分数10分以下的时候,基本上还用不到
- 高分文章里还会看到一个实验,过表达主变量,然后做AGO2抗体的RIP,RNA免疫沉淀,看拉下来的复合物里面主变量RNA结合多了之后,是不是编码基因的mRNA就结合少了。这一步还可以分析miRNA,当然实验的难度和工作量就不是我们这些初学者能玩得起的了,在文章里你看到了这样的数据能看懂就行,要用到下一策RNA和蛋白交互作用的技术,属于直接机制里面最难的部分,只可远观不可亵玩。