- miRNA是重点推荐新手学员们去学习和利用,而lncRNA是专门为有一定科研基础的老鸟们准备的一道菜,不鼓励初学者伸手亵玩。这是一朵”带刺的玫瑰”,远观很美,但抓在手上很刺人
- lncRNA参与各种生理过程,当然也与疾病发展息息相关。在疾病中靶向lncRNA估计是比靶向蛋白更好的选择,用钥匙开关门比直接把门一脚踹开更有智慧
- 在miRNA,lncRNA,circRNA这三个新分子天王中,miRNA本身数量偏少,机制简单,研究的可扩展性有天花板,目前算是盛极而衰的状态
- lncRNA只是不编码蛋白,功能跟蛋白一样复杂,无所不包。作为专业搞调控的分子,调控机制很高端、很烧脑,是科学家们的装逼利器
- 功能基因是经典,会长盛不衰,lncRNA不但是研究热点,而且必然也会成为功能基因一样的经典分子,可以说是支柱型的分子类型
- circRNA严格意义上应该算是lncRNA的一个特殊亚类,因为也是长链非编码RNA,只是呈环状。目前发现的circRNA作用机制基本上也都是lncRNA之前就报道过的机制,因为没有分子机制上的特殊差异,可以把lncRNA和circRNA当成是一个分子类型,用同样的研究套路来理解
- circRNA之所以被单独拎出来被当成一类分子,原因在于它的数量非常庞大,现有的研究认为成环的RNA甚至比线性RNA更普遍,因为普遍就有了独立出来自成一派的需求,但只要套路一样,搞清楚了lncRNA 自然就解锁了circRNA
lncRNA的分子特征
- 长:超过了200个核苷酸
- 非编码:和研究套路有关,具体见下
lncRNA的命名
lncRNA混乱的命名
- 根据生物学功能命名的
- 根据疾病相关性命名的
- 根据细胞或者组织表达定位命名的
- 根据基因组位置命名的
- 根据上下游调控的分子或者相互作用的分子命名的
- 根据位置+功能命名的
- 根据疾病+表达命名的
- 根据位置+调控分子这种多要素之间组合
- 直接用转录本的编号命名的
lncRNA的分子类型
- 这些分子类型有可能会在分子命名的”-“之后看到
- 反义(antisense, AS):一类从编码基因反向转录的lncRNA。哺乳动物中这一类lncRNA大概占了20%的比例。这类lncRNA经常调控附近基因的转录,像个开关一样
- 内含子(intronic, IT) :在基因内含子区域编码的lncRNA
- 重叠 (overlapping, OT),跨越内含子和外显子的lncRNA;比较特别的是,长链基因间lncRNA(Long intergenic lncRNA,lincRNA),它的命名是比较规整的,都是以大写LINC为前缀、数字为后缀,有点像miRNA,这一类 lncRNA的编码区域位于两个基因中间,不与编码基因的内含子和外显子重叠。
- 反义上游(Antisense upstream, AU):这一类与编码基因头对头挨着(head to head),推断有双向启动子
- eRNA(enhancer lncRNA):由基因的增强子编码产生的,作用是促进基因转录
- 若干种circRNA
lncRNA可能的作用机制
- 作为miRNA分子海绵,miRNA sponge,像海绵一样吸引结合miRNA,抑制miRNA的功能。
- 调控基因转录,跟转录因子关系密切
- 部份lncRNA可以编码一些短肽,进而发挥对应的生物学功能
circRNA基础知识
- 一般的mRNA是线性的,5’-端有帽子结 构,3’-末端有poly(A)的尾巴,而circRNA 没有这些结构,它是以环状结构存在于生物体内的非编码 RNA分子。
- 2013年,Nature杂志同一期刊登了两篇背靠背的circRNA研究文章,这之后 circRNA的研究文章数量才快速增长,逐渐成为非编码RNA领域新的明星分子。背靠背,back to back,是CNS级别的期刊创造热点的惯用手法,一期同一主题的两篇甚至三篇论文同时发表,能够有效创造聚光灯效应,引起研究者的跟风
- circRNA是由特殊的可变剪切产生的,主要存在于细胞质中,大部分来源于外显子,少部分内含子来源的 circRNA 存在细胞核中
- circRNA因为呈闭合环状结构,不易被核酸外切酶降解,比线性RNA更加稳定
- circRNA 的表达水平具有种属、组织、时间特异性,序列保守性比一般的线性lncRNA高
- 绝大多数circRNA是非编码的,但也有少数跟lncRNA已经发现的机制一样,可以翻译出多肽片段
lnc的研究模式
前置步骤:证明目标分子是lncRNA
- 如果自己筛到了分子,这个分子又没有广泛的报道,要做的第一件事是证明这个分子是一个非编码RNA,如果要做的是circRNA,还要额外增加证明这个分子是环状的
- 证明方法:聚焦于非编码,去Noncode数据库查序列
- 补充:开放阅读框ORF:从起始密码子到终止密码子,一段连续能编码氨基酸的核酸序列,被我们称为ORF。
判断提供的序列是不是lncRNA的若干种办法
- 分辨一段序列是不是非编码,可以看它有没有超过100个碱基长度的 ORF。用NCBI的ORF finder工具可以预测ORF,由于密码子读写起始位点每条链有三种,对应三种不同的起始位点,一条双链的DNA序列可能有六种ORF阅读格式,ORF finder会把六种可能的情况都列出来。如果预测到了氨基酸序列,那么再Blast分析下有没有同源蛋白,否定就能确定lncRNA的身份了,因为它不表达蛋白。
- 有些lncRNA被发现可以编码,形成一些短肽,这是一种比较新颖的作用机制,因此在分析ORF的时候,如果发现lncRNA能编码短肽序列,就算它没有同源蛋白也不要忽视,做机制的时候可能有用
- 另外一种分析lncRNA序列特性的工具:CSF,即codon substitution frequency scores,密码子替换频率,这是一种对序列的分析算法,主要是看一段序列编码的密码子在不同物种之间的保守性。非编码RNA的保守性是比较差的,因为不编码蛋白,错若干个碱基关系不大,所以当 CSF评分小于0的时候,就可以认为这个目标分子是一个非编码RNA。
一个讨巧的方法
- lncRNA和circRNA都很新,只想试试手的话,可以挑一些文献中已有报道的老分子,这就可以免去自证身份这一步。
- 所谓老分子也老不到哪里去,lncRNA和circRN 的文章大部分都是近五年的, 所以老分子套新表型,分子移植表型换一下,利用表型相关性的原则,再以通量解决概率问题。表型不动换各种已知的长链非编码RNA 分子,研究难度并没有增加很多
尽量避免自己筛lncRNA分子
- 筛lncRNA做表型,再自己挖掘机制,这是目前医学科研中难度比较高的一类课题了,尤其是想文章发高一点,往往要把机制从lncRNA和蛋白相互作用上去挖掘。
- RNA和蛋白结合是比较难做的实验内容,里面有不少技巧和细节,再加上做lncRNA总体来说比其他分子类型都费钱,入坑需慎重
- 相比较而言,找一些有过报道的lncRNA分子, 猜一下就省心多了,序列、引物、siRNA都是现成的,省掉了这些探索工作,就可以把所有的关注点聚焦到分子是不是有新表型上
- 一个分子多次利用,发多篇文章是没问题的,可以研究研究这些分子是怎么发几百篇文章的,从里面的套路借鉴到自己适合的发SCI机会。
检测基础表达
- lncRNA不是蛋白,RNA水平检测用RT-PCR
- 注意:lncRNA表达量一般比mRNA低,如果前面有筛选步骤,建议优先选择表达量高的。可以用送测序或者芯片的同一批样品来做二次验证,这样验证效果最好,如果换一批样品,批次之间也有分子表达的差异,验证效果就会差一些
- Northern Blot:不推荐,比较难做,而且精度上不如定量 RT-PCR
- FISH:荧光原位杂交,广泛使用,图漂亮,而且还能知道lncRNA的亚细胞定位(见下)
制备基因操作工具
- 细胞质定位的lncRNA:siRNA
- 细胞核定位的lncRNA:不能用siRNA,因为它主要在细胞质基质发挥作用,替代的方式是用CRISPR 基因编辑技术,直接把lncRNA的基因给KO掉
细胞表型实验和动物表型实验
表型Rescue实验
- 可以把CRISPR敲掉后的细胞,再过表达lncRNA分子,跟功能基因的验证策略类似
一些需要区分开的逻辑
- 功能基因的rescue实验:一般是在已经沉默的细胞里,再转进去一个过表达的载体,也就是在一个细胞里,同一个实验来回操作基因表达两次,看功能表型是否也有同样趋势的变化,即得而复失或者失而复得
- 功能基因的Rescue有一个很巧妙的设计,利用密码子的简并性导入一个突变过表达载体, 可以使得过表达和 siRNA 干扰这两个操作相互独立。
- 大家知道蛋白翻译的时候是三个核苷酸密码子对应一个氨基酸,其中密码子的第三位可以飘,几个不同核苷酸其实都是翻译成同一个氨基酸,利用这种特性把序列人为突变之后,让蛋白的氨基酸序列保持不变,而 mRNA序列发生改变,变得siRNA结合不上,也就阻断不了了。这样的 rescue效果是分子介导的功能表型之间发生抵消作用,而不是siRNA跟过表达载体的相互结合、无效化。
- miRNA/lncRNA是做不了这样的rescue的,非要做,只能用CRISPR+过表达的方法
- 首先,miRNA的序列不编码蛋白,也就没法利用上面这套方法;lncRNA也不编码蛋白,不能保证突变之后功能是一样的
- 其次,miRNA序列那么短,一突变就变成其他miRNA了,功能会变化,容易造成实验的假阳性
- lncRNA与蛋白结合关键的序列可能就不到十个碱基,万一正好突变在关键位置, 也会给实验带来干扰。