- DNA甲基化是表观遗传领域当之无愧的老大哥,资格最老:从分子层面,我们现在已经证实DNA甲基化可以遗传。 在 2015 年,有文献报道了表观遗传对基因组不稳定性的影响,说明表观遗传可能是一个短期适应效应,而基因遗传是个长期稳定效应,它们之间存在某种关联,短期效应可能促进长期效应产生。
- 在表观遗传的研究领域里,DNA甲基化、组蛋白修饰、染色质重塑、基因印记和X染色体失活是属于选择性转录调控的机制;属于转录后调控机制有各种非编码RNA等, 这些调控性RNA是表观遗传的执行者。
- 染色质重塑、基因印记和X染色体失活我们不展开讨论,医生做科研很少遇到。组蛋白修饰的内容可以复习三十六策 Lesson 10,有甲基化、乙酰化、泛素化、磷酸化等, 这样来说,甲基化的研究就分为DNA甲基化和组蛋白甲基化两个细分问题。它们结果是一样的,都是影响基因的转录。
- 机制研究除了分上下游,还分间接和直接。最简单的机制研究模式——下游间接作用,靠一靠明星通路或分子,在三十六策 Lesson 15中有详细的说明。在下游已经有因变量的情况下,上游找驱动因素, 三十六策 Lesson 16我们介绍的是转录因子这种套路,另一种常见的上游机制做法就是往甲基化的角度上靠。
DNA甲基化的常识
- DNA甲基化是在DNA甲基转移酶的作用下,将甲基选择性地添加到胞嘧啶上的过程,变成5-甲基胞嘧啶(甲基加在5号位的碳原子上,真核生物只有这种甲基化修饰形式)。
- 甲基化的功能主要是调控基因表达,尤其在胚胎发育中,甲基化控制着时序性表达(在特定时间阶段表达)的基因,甲基化去除之后就像基因解开封印,基因的功能用完之后再用甲基化“封印”起来。胚胎发育过程中正确解开封印很关键,不但要能解开和锁上,而且解开和锁上的过程也要发生在正确的时间内。
- 当然,在受到某些刺激因素影响的时候,或者疾病中,甲基化”封印“也可能会异常,这就跟医学研究紧密结合了。
CpG island
- CpG岛(CpG island)指的是DNA发生甲基化的位置,CpG里的C是DNA四种碱基之中的胞嘧啶的缩写,p代表磷酸,G是碱基鸟嘌呤。CpG即指C后面跟一个G的核苷酸序列,而CpG岛就是指富含CG序列的区域。
- 在人类基因组内,G和C的含量大约为40%,A和T比较多,而且GC不是平均分布。在某些DNA片段位置,GC局部富集,而在另一些位置出现得较少。正常情况下,散在的CpG是被甲基修饰的,属于封印状态。在编码基因的启动子或者其他转录调控区域中,CpG容易成簇,形成CpG island。 在健康人中,CpG岛跟散在的CpG不一样,它往往呈现非甲基化的状态,也就是“解除封印”的状态,这是转录调控的开关。
- CpG岛有严格定义,长度至少500bp,且GC含量超过 55%,CpG比值大于 0.65。CpG比值是个参数,有公式可以算的,需要用到可以查一下。
- 人类基因组大概存在4万个CpG岛,大部分位于启动子区域,启动子CpG岛甲基化之后会诱发基因沉默,所以启动子CpG甲基化与转录活性负相关。
CpG岛的概念之所以重要,是因为研究一个基因启动子DNA的甲基化就是找CpG岛位置,那里是一切故事起源的地方。
甲基化和去甲基化过程中的酶
我们介绍DNA甲基化酶、甲基化结合蛋白和去甲基化的途径,是因为一般在研究中发现了基因启动子CpG岛甲基化多了少了,进一步往上找原因的时候,检测到有这三类分子的变化就可以用来自圆其说。
DNA甲基转移酶
- DNA甲基转移酶(DNA methyltransferase)有4种:DNMT1、DNMT2、DNMT3a和DNMT3b。根据结构和功能上的差异分为两大类: 维持甲基化 (maintenance of methylation)和从头甲基化(de novo methylation)。
- 维持甲基化以DNMT1为代表,它作用于仅有一条链甲基化的DNA双链,使其完全甲基化,也就是参与DNA复制双链中的,新合成链的甲基化。
- 从头甲基化是对DNA链甲基化状态的重构,不依赖于DNA复制,是在完全非甲基化的位点上引入甲基。主要参与的从头甲基化酶是DNMT3a和DNMT3b。现有研究表明,DNMT1与DNMT3a、DNMT3b之间还存在交互影响,并非绝对的分工关系。
- 针对DNMT2的认识相对较少,在DNA甲基化中不起主要作用,平究中遇到的机会不多。DNMT2的底物主要是催化tRNA,虽然底物不一样但催化机制类似。
DNA甲基化结合蛋白
- 这类蛋白通过一种保守的结构域,称为甲基化DNA结合结构域(methylated DNA-binding domain,MBD),来结合甲基化的CpG。
- MBD家族有MeCP2和MBD1-4共五个成员。
- MeCP2是最早被发现的,甲基化与组蛋白乙酰化之间的联系就通过它。
- MBD的功能:MBD识别甲基化位点,负责招募阻遏蛋白,抑制转录过程。有些转录因子直接对甲基化位点敏感的,有甲基化存在就不能结合启动子来影响转录。还有一些转录因子对甲基化不敏感,当启动子上存在CpG岛的甲基化,它们的转录抑制就需要MBD参与。
DNA去甲基化
- DNA去甲基化的过程比较复杂
- 脱氨酶参与的碱基切除修复途径(base excision repair,BER)
- 直接移除甲基化CpG的核苷酸切除修复机制(nucleotide excision repair, NER)
- 在酶催化下,氧化或者水解方式去除甲基基团
甲基化的检测方法
酶切法
- 代表:Southern Blotting,做法是酶切完用电泳方法分离,再用特异性探针进行杂交
- 这种既有跑胶分离,又有特异性探针的杂交,实验精度更可靠,一度还 比较流行
- 这里Southern是检测DNA的印迹杂交技术,而检测RNA的印迹杂交技术叫Northern,检测蛋白的叫Western。
- 针对已知的DNA甲基化位点
酶切+PCR法
- MS-PCR(methylation specific PCR),简称 MSP——甲基化特异性 PCR。
- 原理是DNA 经过亚硫酸氢钠处理后,非甲基化的胞嘧啶会转变成尿嘧啶,而甲基化的保持不变
- 这样,设计两对特异性的引物去分别扩增甲基化和非甲基化的 DNA,结果就出来了。
- 类似的技术还有BSP(Bisulfite sequencing PCR):同样用亚硫酸氢盐处理DNA,设计引物进行PCR,在扩增过程中,尿嘧啶会被识别为胸腺嘧啶,DNA序列被改变了,对PCR产物进行测序就可以获得结果。
- 其他基于PCR衍生的:高分辨溶解曲线技术(High Resolution Melting,HRM),检测精度也很高;还可以用带荧光标记的Taqman探针做qPCR,有试剂盒可以直接用
- 针对已知的DNA甲基化位点
DNA甲基化组学
- 主要做大规模的DNA甲基化位点筛选,用基因芯片和二代测序都可以做筛选,跟筛基因差不多。
- 我们比较少直接筛甲基化差异,更多的情况是已有一个主变量,表型做完,上游找机制的时候考虑DNA甲基化,这种策略是不需要做高通量筛选的。
- 具体的做法:从启动子区找CpG岛的过程很简单,CpG岛是一个序列特性,不涉及复杂的生信算法,用来搜索CpG岛的软件有很多,比如CpG Analyzer、CpGcluster、CpGFinder、CpG Island Explorer、CpG Island Searcher。另外,甲基化引物设计软件Methyl Primer Express以及MethPrimer也有相应的CpG岛搜索功能。
- 找到了这些CpG岛的位点,接下来用特异性甲基化检测方法,比如 MSP,BSP检测分析就好了。
- 在预测分析这一步,甲基化要比转录因子简单得多,甚至检索启动子序列的数据库也能提供相关的CpG岛甲基化位点信息。
组蛋白的甲基化
- 染色质是由核小体组成的,核小体包含4种组蛋白,也就是H2A、H2B、H3和H4,组装成8聚体的复合物。四种组蛋白内部结合非常紧密,但N端会伸向外侧,是各种组蛋白修饰酶的作用位点。
- 组蛋白修饰主要有两个作用:影响染色质结构从而调控转录,或者作为信号招募转录因子和辅助的调控蛋白。
- 在所有的修饰里,甲基化是目前研究比较清楚的一种组蛋白修饰方式,由组蛋白甲基化转移酶(Histone methylation transferase,HMT)催化,可以发生在赖氨酸和1-3个甲基;而精氨酸可以1,2甲基化。
- 一些在文献中常见的,描述组蛋白甲基化的示例:H3K4、H3K9、H3K27。
- 组蛋白甲基化的命名规律:
- H3、H4等是组成核小体的组蛋白名称
- K是赖氨酸的缩写,R是精氨酸的缩写
- 氨基酸后面的数字就是第几个赖氨酸或精氨酸的序列位置
- 有时H3K4后面还会跟mer1,2,3,这是1甲基化,2甲基化和3甲基化,也就是加一个、两个和三个甲基的区别。
- 做组蛋白甲基化的时候,可以做这些甲基化位点的Western(用特异性抗体检测),通过关键的组蛋白甲基化位点的甲基化状态变化,来说明靶基因为什么上调或者下调, 建立来自上游的间接作用机制。
- 组蛋白甲基化位点有些是促进转录的,有些抑制转录,至于哪条路可以走通,要么筛、要么猜,多做几个位点以通量解决概率问题。
- 组蛋白甲基化的过程也有添加甲基的酶和去甲基化的酶催化,不同的位点用到的酶可能还不一样。我们需要先确认甲基化的位点,再往上推,去确认有哪些酶的表达有变化。
甲基化的论证规律
- 复习三十六策 Lesson 15,我们找上游驱动因素的前提是确定主变量与表型的关系,甚至是下游机制也比较明确。主变量最常规是编码基因,非编码RNA也要转录出来,也有启动子,所以上游机制研究是思路一样的。
- 三元在论证的步骤上依然与三十六策 Lesson 14中教过的内容一致。在主变量怎么往上游推因变量的问题上,上一策三十六策 Lesson 16和这一策为大家提供了细节。
- 上游机制和下游机制一样,也有间接和直接的两种做法
间接机制的操作方法
- 主要是去检测一下启动子CpG岛甲基化水平变化,或者是组蛋白甲基化位点的甲基化水平改变。
- 变化知道了,也解释了主变量表达改变的原因,但怎么变的依然不清楚,所以是间接机制。
直接机制的操作方法
- 找甲基化酶和去甲基化酶表达水平的变化,或者是甲基化结合蛋白MBD,也就是通过再引入一个因变量把故事自圆其说。
- 还需要注意的是,启动子CpG岛甲基化也可以影响转录因子在相应位点对启动子的结合。也就是说发现了CpG岛甲基化状态改变,进一步的上游变量可以是甲基化酶,也可以是转录因子,这样就联通了上一策三十六策 Lesson 16的知识。
- 把主变量的Promotor序列找到,放在JASPAR里进行分析,猜一猜可能作用于它的转录因子,然后用Luciferase、ChIP或者EMSA验证,获得一套分子交互的实验证据。
文章中常见的上游机制研究策略
- 直接检测启动子CpG岛, DNA甲基化或者组蛋白甲基化,然后围绕甲基化机制找上游明星分子。
- 二话不说,跳过甲基化分析这一步,直接找启动子结合的转录因子,以转录因子的变化来解释驱动因素问题。
- 最严谨的:先分析CpG岛,检测DNA的甲基化,然后进一步去找与这个甲基化位点功能相关的转录因子。转录因子能够产生的变化比甲基化酶和去甲基化酶要丰富,这一种策略是三类常规上游思路里最富有内容的一种。
具体怎么做
通常情况
- 三十六策 Lesson 16中我们讲过了怎么找启动子序列,做甲基化研究第一步,分析CpG岛也需要用到这个序列。
- 第二步,用实验检测甲基化状态变化,就是MSP、BSP这些方法。
- 第三步,找甲基化转移酶、甲基化结合蛋白和去甲基化途径上的明星分子。
- 第四步,进行组蛋白甲基化位点检测,做Western筛一下。
- 有了变化再想继续深入,就围绕甲基化和去甲基化的各种酶再分析。
特殊情况:主变量是转录因子
- 研究的创新点在于转录因子对于表型的调控关系
- 这种情况下,转录因子+靶基因可以看作与miRNA+靶基因类似的二元直接作用机制模式,这两者套路有很多相同的地方,比如已知miRNA预测靶基因是用数据库,已知转录因子预测靶基因也用数据库。两种套路的经典验证实验都是荧光素酶报告基因实验,虽然载体不一样,但是实验操作上也类似。
- 在三十六策 Lesson 16中,我们讲了如何从启动子往上推转录因子。预测转录因子和启动子的结合本质上是通过转录因子喜欢结合什么样的DNA序列总结的规律。输入一段启动子序列数据库里面的符合条件的转录因子就被找出来了。反过来选一个已知的转录因子,在数据库里有它喜欢的DNA motif数据的,搜索全部基因的 promotor 也能输出预测结果。
- 跟miRNA预测一样,已知靶基因预测转录因子和已知转录因子预测靶基因双向都是可行的, 再结合今天这一策讲到的,以转录因子为主变量的研究一旦找到了靶基因,一样可以分析启动子的甲基化,各种酶和组蛋白甲基化,有很多可以做的分子机制,模式基本一模一样。