全基因组分析揭示长非编码RNA的差异表观特征模式

               




摘要

高等生物转录组的主要部分包括广泛的长非编码RNA(lncRNA),具有细胞类型和发育阶段表达特异性。虽然lncRNAs是表观遗传基因表达调控的组成之一,但是lncRNA本身的表观遗传调节仍然知之甚少。在此,本文分析了四种不同细胞类型和代表不同细胞阶段的三种不同组织类型的与lncRNA的转录起始位点(TSS)相关的泛基因组DNA甲基化和组蛋白修饰标记(H3K4me3,H3K9me3,H3K27me3和H3K36me3)。观察到,与活性转录H3K4me3和H3K36me3相关的组蛋白标记以及抑制性组蛋白标记H3K27me3,不论细胞类型 在TSS周围具有类似的分布模式。而且,这些标记的密度与编码基因和lncRNA基因的表达相关联。相比之下,无论其表达状态如何,lncRNA基因在TSS周围都具有比蛋白质编码基因更高的甲基化密度。此外,我们发现DNA甲基化与其他抑制性组蛋白标记H3K9me3一起在lncRNA表达中似乎不起作用。因此,我们的观察表明除了DNA甲基化的作用明显不同,lncRNA的表观遗传调节与mRNA具有共同的特征。


1 lncRNA和编码基因的差异DNA甲基化模式


lncRNA的表达和差异DNA甲基化标记是组织分化机制的重要部分。编码基因周围的DNA甲基化可能影响他们的表达,因此也影响细胞的身份。然而,DNA 甲基化在调控lncRNA表达的机制仍不明确。首先,比较了H1细胞系,PBMC ,脑皮层和脑胚层lncRNA和蛋白编码基因的外显子,内含子和启动子(TSS上下游2kb)的平均甲基化密度。发现,这些区域的甲基化模式相似,外显子的甲基化密度高于内含子和启动子(figure 1A and B)。

全基因组分析揭示长非编码RNA的差异表观特征模式


1 编码基因和lncRNA 的TSS附近组蛋白修饰分布


组蛋白修饰如H3K4me3和H3K27me3/H3K9me3是分别与激活和抑制的编码基因的启动子相关。另一个与编码基因相关的特征是活性基因的基因体内转录偶联相关的染色体标记H3K36me3.本文分析了lncRNA和编码基因的TSS 5kb内这些标记的分布,也包括H3K36me3,如前所述,该分析是在四种不同的细胞类型(H1,IMR90,CD34 和PBMC)和两种组织类型(脑胚和肝脏)中进行的.lncRNA TSS 附近的H3K4me3的分布模式和编码基因TSS附近的分布相同。然而,在所有的组织和细胞系中,lncRNA的H3k4me3标记的密度都比较低(figure4 A-F).lncRNA与编码基因间H3K4me3的密度差异在H1细胞系中比其他细胞系更加明显。


全基因组分析揭示长非编码RNA的差异表观特征模式

1 表观遗传标记CGI与lncRNA基因的TSS的关联


全基因组分析揭示长非编码RNA的差异表观特征模式

1 lncRNA 和编码基因的TSS组蛋白标记的全局分析


本文绘制了编码基因和lncRNA基因TSS上下游2kb的组蛋白分布。每个基因类别的每个修饰的百分比占有率是通过将每个数据数量归一化到该类别中的条目总数来计算的。本文发现,特定组织/细胞类型中蛋白质编码基因的TSS上游或下游2kb的组蛋白标记的总体占据率在65%和73%之间,而在lncRNA基因中相同的范围在27-38%。更多的,当考虑到DNA甲基化时,在H1细胞,PBMC和脑胚组织中,表观遗传学标记的蛋白质编码基因的计数增加到> 75%。类似地,对于这些样品,包含DNA甲基化的表观遗传学标记的lncRNA基因的计数升至> 43%。 在这个窗口中评估单独标记的密度显示,在所有细胞/组织类型中,> 50%的蛋白质编码基因具有H3K4me3标记。


全基因组分析揭示长非编码RNA的差异表观特征模式

高通量测序技术的最新进展表明,人类基因组的90%以上被转录,其中只有1-2%直接用于蛋白质合成。越来越明显的是,在人类和其他生物体中,转录组明显比先前假设的对表现型更广泛的RNA复杂得多,而不仅仅是其作为信使的作用。表观遗传机制如胞嘧啶甲基化和组蛋白修饰已知影响基因表达。虽然已经发现表观基因组的异常与几种人类疾病和病症有关,但是越来越多的报道将异常的lncRNA表达与癌症,心血管疾病和其他疾病相关联。 然而,表观基因组特征如胞嘧啶甲基化和组蛋白修饰与lncRNA基因的关联尚未在全基因组水平进行研究。

表观遗传标记如DNA甲基化和组蛋白修饰调节遗传信息的表达,从而确定细胞,因此确定生物体的身份。LncRNA也参与细胞特征的表征; 然而,控制其表达的表观遗传标记没有很好的特点。 本文发现大部分lncRNA基因缺乏任何前述的表观遗传标记。 然而,如果存在的话,除DNA甲基化之外,它们表现出与蛋白质编码基因类似的分布模式。然而,表观遗传学特征的分布模式对于干细胞,分化细胞和分化细胞没有显着差异,这表明无论分化和增殖状态,这些过程的大致模式保持不变。

因此,本文的观察显示,紧邻TSS的DNA甲基化模式对于lncRNA和蛋白质编码基因是非常不同的。 此外,组蛋白标记H3K4me3和H3K36me3和H3K27me3以与mRNA相似的方式与lncRNA的表达相关。 然而,抑制标记DNA甲基化和H3K9me3组蛋白标记似乎并不涉及lncRNA的表达。


参考文献:


Sati, S., et al., Genome-wideanalysis reveals distinct patterns of epigenetic features in long non-codingRNA loci. Nucleic Acids Res, 2012. 40(20):p. 10018-31.


往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 BS-Seq  | 隐马模型 | Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵

精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)



上一篇:Android笔记:解决 Your project contains error(s),please fix them before running your application问题


下一篇:病毒m6A修饰——病毒RNA提取试剂盒解决方案