前言
差异甲基化区域(DMR)的检测是表征不同表观遗传状态的必要先决条件。 文章提出了一个新的程序,metilene,以较高的特异性和敏感性识别全基因组和目标数据中的DMR。与二维统计测试相结合的二进制分割算法,可以在几分钟内检测多组样本的DMR。metilene优于其他用于低覆盖率数据的最先进的工具,并且可以估计丢失的数据。因此,metilene是一种多功能工具,用于研究表观遗传修饰对全局,全基因组水平的分化/发育,肿瘤发生和系统生物学的影响。
1 软件简介
作者提出一种分割算法来检测单个样本之间以及样本组中的DMR。软件同时适用于WGBS和RRBS数据,无需进一步的参数调整。与其他方法相比,文章提出了一个评分模型,以在最小长度的基因组间隔内结合非参数测试来找到最大的组间甲基化差异。基于循环二进制分割(CBS)的方法扫描平均差异信号(MDS)内的变化点对,即群体中CpG水平的平均甲基化差异,限定具有相似甲基化差异的区域。随后,使用二维Kolmogorov-Smirnov测试(2D-KS测试)测试间隔的相似性。最初,基因组是预先规定的,以避免调用长时间没有甲基化信息的DMR。这些区域被递归地分段,直到(1)区域包含小于用户定义数量的CpG,或者(2)没有实现P值改善。简言之,在区域[s,t]内,使用评分函数Zs,t(a,b)寻找窗口[a,b],使得MDS达到最大变化。
缺失数据(pmis)的甲基化率由β分布估计。 参数是根据相应CpG位置上剩余甲基化比率的平均值(ur)和方差(s)计算的:
1 Metilene应用于模拟数据
接下来作者测试metilene性能,将metilene与三种经常使用的DMR检测工具进行比较,即MOABS(v1.2.9),BSmooth(v.1.0.0)和BiSeq(v1.2.5),使用人工模拟和真实的数据测试。
作者模拟了10号染色体具有不同背景(1,2)和甲基化差异程度(class 1,2 3,4)的DMR,得到具有不同复杂水平的8个数据集。模拟了两组甲基化数据,每组10个样本。对于20个模拟样本,甲基化比率p从具有参数a和b的β分布(β)中得到p〜β(a,b)。
对模拟和预测的DMR中的CpG以及与模拟DMR中≥50%重叠的预测DMR进行了真正阳性率(TPR)和阳性预测值(PPV)的性能评估。CpG和DMR都可以通过metilene和MOABS正确地预测甲基化差异较大的DMR(DMR等级1和2)。BSmooth难以识别模拟DMR。
Metilene可以在非常小的误差范围内预测DMR,与背景类型和DMR类无关。
为了验证预测的鲁棒性,文章模拟了低覆盖率数据。metilene在PPV和TPR中排在首位。同时metilene还有内存占用少,运行速度快的优点。
1 Metilene在真实数据应用
利用人成神经管细胞瘤12个样本和8个对照的人类WGBS数据集,比较实际数据中的三种工具,即BSmooth,MOABS和metilene。
在测试的工具中,metilene发现DMR数量最多(n = 4602),其次是MOABS(n = 2108)和BSmooth(n = 1935)。这一观察结果与仿真中观察到的灵敏度优势一致。通过metilene峰检测的DMR的平均甲基化差异分布在0.2和0.3之间。MOABS 较困难的报告差异较小DMRs,而且BSmooth仅报告了少量具有较高差异的DMR。使用独立的非参数检验(Wilcoxon)证实,metilene单独报告的DMR显着差异。通常,metilene特异识别的DMR往往具有比MOABS或BSmooth更低的P值。同时metilene特异的DMR不仅表现出高的绝对甲基化差异,而且长度较长。
总之,文章表明,metilene优于其替代工具,该方法似乎特别适用于具有不同甲基化信号的癌症样品或其他样品中的DMR预测。
参考文献:
metilene: fast andsensitive calling of differentiallymethylated regions from bisulfite sequencingdata