今天介绍厦门大学刘向荣老师团队在Briefings in Bioinformatics上发表的一篇综述论文,该论文首先介绍了应用在网络数据上的深度学习几种典型的模型,然后根据不同的生物网络数据分类,介绍了现有的实际研究和工作;最后对这篇文章提到的方法进行了总结和讨论。
1
背景
生物系统有很多不同层面和不同组织形式的网络,包括基因转录调控网络、生物代谢与信号传导网络、蛋白质相互作用网络等。除此之外,人们利用各种实验研究手段获得了像药物靶点网络,疾病与生物分子的关联网络等。生物网络的研究也涉及到生物分子以及与生物分子相关的各个方面。这些网络中的节点可以代表蛋白质,基因,疾病,以及一些与靶点相关联的药物等,网络中的边对应着节点之间的各种生化,物理或者功能交互等关联。深度学习的框架是学习样本数据的内在规律和表示层次,通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类预测等学习任务。随着深度学习技术的发展,被应用在网络数据上的深度学习算法也取得了很好的效果。这篇综述主要的目的就是为了介绍已有的利用深度学习模型在生物网络上的应用,及其可能应用的前景,为对这个领域感兴趣的研究人员提供一个参考。
图1 生物分子网络和深度学习发展的重要事件
2
模型介绍
这一部分,作者简要介绍了一些应用在网络数据上具有代表性的深度学习模型,包括基于RandomWalk的DeepWalk,基于AutoEncoder的Graph AutoEncoders (GAEs),基于CNN的Graph Convolution Networks (GCNs),基于RNN的Graph Recurrent Neural Networks (Graph RNNs)。
图2 应用在网络数据上具有代表性的深度学习模型
3
深度学习在生物网络中的应用
生物网络包含了生物体之间的大量信息。生物网络的探索对于理解生物分子的内在联系、药物的发现、疾病的治疗以及微生物的作用机制都是非常重要的。这些应用在网络数据上的深度学习模型可以多层次地表示网络结构,捕捉已知生物网络的拓扑特征,并结合其他异构信息挖掘生物网络中的潜在关联。在这一部分该论文通过对基因组数据研究、蛋白质组数据研究、转录组数据研究、药物发现、疾病生物学和微生物组数据研究六个方面,对现有的利用深度学习方法在生物网络数据上的研究应用进行了总结和介绍,希望够为今后利用深度学习技术挖掘生物网络中包含的信息提供思路。在介绍的过程中,作者选择了三个典型的研究案例,绘制了具体研究实例的流程图。
图3 生物网络数据中运用AutoEncoder模型的研究实例流程图
图4 生物网络数据中运用DeepWalk模型的研究实例流程
图5 生物网络数据中运用GCN模型的研究实例流程图
4
挑战和机遇
该论文主要从数据处理,异构信息,深度学习模型的限制方面介绍了现在深度学习在生物网络数据应用上的挑战。对于数据处理,目前许多生物数据集在样本类别上存在不平衡,生物数据的质量保证可能需要更为专业的研究人员获取更准确的数据。在计算时还应该找到克服数据冗余、不平衡和不完整的方法,以提高预测的准确性。生物网络可能包含多种生物分子,除了生物网络数据,还需要结合不同的生物信息来提高计算的准确性,如基因表达谱、蛋白质分子序列、药物分子结构、疾病的CT图像等。所以怎样更好的结合这些异构信息去进行计算,也是未来发展的重点和难点。虽然随着现在生物系统中可用的数据越来越多,但是对于许多深度学习框架来说,其数量级仍然很小,并且无法充分利用深度学习训练的优势。未来仍然需要提出更适合不同生物数据的深度学习模型来解决一些小而稀疏的生物数据集研究。
5
关键点总结
利用生物网络数据可以获得生物分子之间的关联性质。将生物网络数据与其他生物信息相结合可以提高预测性能。
应用在网络数据上的深度学习的引入为生物网络数据的处理带来了新的方向,能够处理大量的、多维的、复杂的生物数据。
将其他算法与深度学习模型相结合,可以克服一些数据质量问题的影响,提高深度学习算法的适用性。