北鲲云超算平台在AlphaFold2对蛋白质研究中有何作用?

 

受人工智能和深度学习技术发展较快等因素影响,结构生物学数据的研究也开始迎来了崭新的阶段,针对蛋白质结构的预测也出现了一些新的方法,并获得了突破性进展。目前,最为前沿的技术当属AlphaFold2以及RoseTTAFold,这些技术对行业的影响可谓是颠覆性的。特别是国内已经有北鲲云这类的企业和一些高校以及科研机构进行合作,在北鲲云超算平台的支持下,AlphaFold2的优越性会更好地发挥出来,甚至有很多人士认为,实验结构生物学会逐渐地成为过去式,最终退出历史舞台。

问题来了,AlphaFold2的运行原理是怎样的,它的重要性又具体体现在哪些方面呢?要了解这些问题的答案,还要从蛋白质序列的研究说起。业界人士都知道,蛋白质折叠是生物物理领域最重要的研究课题之一,在过去的五十年时间里,这一课题的研究都因为各种各样的技术问题而受阻。其中很重要的一个原因是,蛋白质序列和结构之间属于高维到高维的映射关系,常规的数学或物理的方法难以对这些关系进行分析。

最近几年,实验技术得到了进一步的提升,新一代测序技术和蛋白质晶体学以及冷冻电镜等结构生物学方法开始得到大量应用,丰富的蛋白质序列和结构信息得以积累,这无疑为使用基于北鲲云的人工智能技术对序列-结构间关系进行研究打下了坚实的基础。自从2016的CASP12竞赛开始,深度学习技术就广泛地在蛋白质结构预测领域进行应用,使得结构预测准确度得到了质的提升。

AlphaFold2的独到之处在于,它采用全新算法设计,这种算法和之前的方式具有很大的区别,比如在生物物理层面,该技术所采用的神经网络架构,其序列信息和氨基酸残基相互作用图谱间实现了升级,和蛋白质折叠的物理机理可以更好地进行吻合。另外,基于这种技术的模型还能够实现端对端的精准结构预测,可以极大地提升分析效率。

不过,AlphaFold2的实现必须要借助于强有力的算能,目前北鲲云已经具备了为众多科研机构提供此类算能的能力。据了解,北鲲云超算平台在将云计算与科研相结合方面进行了持续的探索,并取得了实质性的成果。北鲲云超算平台某高校生物信息组的基因组分析科研项目中进行应用,可以在一周内的时间里完成2000个物种基因组分析,不但极大地提升了数据分析效率,且提高了结果的准确性。在AlphaFold2技术快速发展的背景下,北鲲云还开始全力布局Nvidia A100 、Nvidia V100 GPU卡,为AlphaFold2应用带来强有力的硬件支持,助力该技术更好地进行应用。

无论是从方法设计的角度还是从性能的角度而言,AlphaFold2都体现了人工智能技术与生物物理思维的完美融合,在北鲲云超算平台的支撑下,它成为近年来最重要的科学突破之一就不难理解了。

 

上一篇:AlphaFold2代码阅读(一)


下一篇:在数学直觉的指导下,机器学习提供了一个强大的框架