Sequential regulatory activity prediction across chromosomes with convolutional neural networks

Sequential regulatory activity prediction across chromosomes with convolutional neural networks
基于卷积神经网络的染色体序列调控活动预测

摘要

基因预测表型

从DNA序列预测大型哺乳动物基因组中细胞类型特异性的表观遗传和转录谱。

利用CNN对启动子和远端调控元件进行识别,综合其内容,进行基因表达的预测

 

尽管许多研究表明,在一系列人类疾病和特征中,基因型和表现型的变异之间存在很强的关系,但这种关系运作的机制仍不完全清楚(Boyle等,2017)。
非编码变异尤其抑制了进展;
通过全基因组关联研究(GWAS),大多数与表型统计相关的基因组位点不会改变编码序列,但只有极少数的机制已被彻底描述(例如,Claussnitzer et al. 2015)。
大量证据表明,许多非编码变异通过改变基因表达影响性状(Maurano et al. 2012;
Albert and Kruglyak 2015;
Finucane等人,2015;
O Connor等人,2017)。
反过来,基因表达决定了多细胞生物中细胞类型和状态的多样性(表观基因组学研究路线图等,2015)。
因此,基因表达提供了一个易于处理的中间表现型,而改进的模型将有很大的价值。
大型财团和许多个体实验室绘制了多种细胞的表观遗传和表达谱(ENCODE项目财团2012;
Forrest等人,2014;
路线图表观基因组学联盟等,2015)。
此外,最近人们认识到,许多数据可以使用机器学习作为潜在DNA序列的功能精确建模。
成功的转录因子(TF)结合预测模型、易访问的染色质和组蛋白修饰为基因组变异提供了机制洞察力和有用的解释(Ghandi et al. 2014;
Alipanahi等人,2015;
Whitaker等人,2015;
Zhou and Troyanskaya 2015;
Kelley等人2016年)。
特别是,从30亿个核苷酸(nt)人类基因组中获取的大量训练数据,使得具有大量参数的深度学习方法能够对提供的测试数据做出比以前方法更准确的预测(Zhou和Troyanskaya 2015;
Kelley等人2016年)。

上一篇:2、找sci文献


下一篇:运用python测度投资组合的风险价值