当药物研发遇上阿里云超算,GHDDI如何实现高通量分子筛选?

2020年6月1日凌晨,武汉市卫健委发布通告称,5月31日,武汉市对6万余人进行了核酸检测,未发现无症状感染者。这是武汉市公布无症状感染者人数以来,首次无症状感染者当日新增为零,国内抗疫取得又一关键的阶段性成果。

然而,全球范围内的新冠疫情对社会经济活动带来的影响还在持续,寻找行之有效的治疗方案仍是全球科学家当下重要的任务。4月中旬接受央视记者白岩松采访时,比尔·盖茨曾特别提及:“GHDDI的研发团队将帮助世界更好地理解并对抗疫情。”这家创立于2016年的独立运营、非营利性质新药研发机构,再次以如此高调的方式进入公众视野。

GHDDI,全称全球健康药物研发中心(Global Health Drug Discovery Institute),由比尔及梅琳达·盖茨基金会、清华大学和北京市*联合发起成立于中国北京。清华大学药学院院长、拜耳特聘教授丁胜教授担任中心主任。通过汇聚全球顶尖资源、发挥中国特色优势,GHDDI致力于建设引领性的生物医药研发能力和创新药物转化平台,攻克人类面临的重大疾病挑战,改善全球健康。

与GHDDI一同抗疫的,还有阿里云。1月29日,阿里云宣布对全球公共科研机构免费开放一切AI算力,以支持抗疫。在此之前,阿里云高性能计算平台就开始免费支持GHDDI研究新冠病毒。

早在新冠肺炎疫情爆发之初的2020年1月,GHDDI即宣布会同清华大学药学院向全球科研人员免费开放了包括高通量药物筛选平台和多个化合物库在内的内部研发平台和药研资源。随后,数以百计的海内外科研机构和研究团队基于GHDDI的开放资源进行针对新冠肺炎病毒的药物、疫苗开发。

药物筛选平台和内部药研资源开放的两天后,GHDDI人工智能研发团队就上线了针对新冠病毒研究的一站式科研数据与信息共享平台 “Targeting COVID-19”。据了解,“Targeting COVID-19”平台从设计到搭建完成,耗时仅4天。此外,GHDDI联合阿里云共同搭建新冠病毒人工智能全球共享云计算系统,用顶尖的数据库和高性能的超算资源助力全球抗疫的创新探索

高通量:快速锁定新冠病毒潜在靶点

1月21日,全国已有13个省市相继出现新冠肺炎确诊病例,疫情加剧。同时,新冠病毒基因组序列公开发布。

在阿里云高性能计算负责人何万青的询问下,GHDDI人工智能部门负责人潘麓蓉博士比对了新冠病毒和SARS病毒的相似度。意识到这种病毒的潜在威胁,GHDDI决心投入资源帮助对抗新冠病毒。

当药物研发遇上阿里云超算,GHDDI如何实现高通量分子筛选?

实际上,GHDDI在1月即模拟了几乎全部新冠病毒相关靶点的三维结构,并完成全面的同源性、传染性相关分析,快速锁定在后续药物开发、抗体设计中发挥关键作用的抗原靶点。确定关键靶点后,GHDDI公布前期研究数据供外部团队进行药物开发的同时,也开展了基于计算模型的虚拟药物分子筛选。

动脉网从GHDDI相关负责人处了解到,GHDDI药研团队聚焦“老药新用”思路,对现有超过9000种抗病毒活性小分子和内部ReFRAME化合物库(内含12000多种临床安全的化合物)进行构效关系和历史数据分析,筛选出几百个高概率具有抗击新冠病毒活性的小分子。至此,GHDDI始终秉持开源的态度,将科研数据和基于此间数据构建的各级抗原靶点表型分析模型对外发布,供全球科研群体开展后续的成药性相关研究。

新冠病毒疫情的背景下,资源和研究成果共享无疑能极大的加速研究者的进展,避免重复工作。

我们知道,药物研发是一个非常复杂和耗时的过程。在化合物发现阶段,传统方法是通过大量实验完成筛选,发现可能适合的化合物。以确定与蛋白病毒酶结合的小分子为例,由于存在数量巨大的不同商业化合物库,且每个库的化合物数以百万计,合计上亿,完全依靠实验方式一一测试几乎不可能实现。

当药物研发遇上阿里云超算,GHDDI如何实现高通量分子筛选?

于是,科学家尝试通过机器模拟分子化合物与靶点的相互作用等计算方式筛选出可能有效的化合物做小通量实验。其中一种传统虚拟筛选方式是通过小分子和靶点对接,对不同配体的结合效果打分或者通过分子动力学进一步计算,筛选出得分高且结合模式合理的配体作为候选药物进行实验验证,加速药物研究进程。

由于分子库巨大,哪怕用计算机实现虚拟筛选,需要在有限时间完成,也极大挑战了计算机性能。假设某化合物库有10,000个候选配体,以每个化合物在单核CPU平均处理时间1.5个小时计算,总共需要15,000 个小时(625天)才能完成此化合物库的分子筛选。而高性能计算集群的应用,为现代药物研发提供了必不可少的支撑。如果在高性能集群上,用625个CPU并行计算,一天则可完成上述任务。如果用高性能GPU训练好的人工智能模型进行预测筛选,在单个GPU上四分钟则可以完成上述任务。

云超算的药物研发场景验证

高性能计算又称超算,是一种用超级计算机或大规模的计算集群来解决需要大量计算能力(如并行计算、AI模型运算)需求的方法,在石油勘探、气象预报、药物研发中广泛应用。一般而言,为在规定时间内完成药物研发的分子筛选,研究者需要拥有强大计算能力的计算平台、大容量存储和大量配套的高性能应用软件,如Amber, NAMD等。

在高性能计算出现后的许多年中,由于虚拟化造成的性能损耗,云计算并不被从事高性能计算开发的专家看好。在单个节点实验中,物理机性能一定比虚拟机高,使用配置最好最快的物理机器几乎成为高性能计算领域的“潜规则“。

2017年,阿里云在云栖大会上发布神龙服务器。这款由阿里云自主开发的云服务器,主要通过自研芯片和MOC卡来实现虚拟化功能,并将存储网络的管控放上来,使得CPU本身不再浪费,100%地为计算者提供服务。

尽管理论上还是会耗掉资源,但神龙服务器的优势显而易见。容器在神龙服务器上运行的性能,比传统物理机上高20-30%。因为在传统物理机上高密度部署容器时,由于存储网络虚拟化的资源核心和业务所占的CPU的资源,之间会互相争抢,随着整体负载率提升,它的业务的延时会迅速恶化,最后导致业务不可用。而在神龙上面,因为‍每一个容器之间的数据链路都是用芯片的硬件队列进行隔离的,不会互相影响,即便负载接近90%,延时的变化依然不大。

消除了虚拟化损耗的神龙让云超算得以实现,阿里云超级算计集群以神龙服务器作为算力底座,通过RoCE高速网络连接,加上并行存储文件系统CPFS,对外提供了完整高性能计算所需要的硬件基础设施。软件调度层面则提供了E-HPC(Elastic High Performance Computing)能够让用户自助在云上搭建自己的高性能集群系统,配置高性能服务器和大容量存储,提供软件多节点运行和高通量任务处理解决方案,直接满足药物研发人员对计算平台的需求。

新冠疫情期间,GHDDI在阿里云之上搭建了开放共享平台,使用E-HPC搭建高性能计算集群,用于药物研发的分子对接、分子动力学模拟、深度学习模型训练,同时为合作伙伴创建不同的云超算子账户,实现计算资源共享和数据共享。

阿里云资深专家何万青博士告诉动脉网,GHDDI的共享平台帮助科学家更便捷地将即时的想法转化为具有指导意义的创新探索,极大地提高了新冠肺炎相关药物、疫苗的开发效率。未来,阿里云超算将基于弹性的高性能计算能力,为更多的药物研发工作提供必要的算力支撑。

上一篇:Aliyun Linux 实测,效果竟然这么好?


下一篇:跃见游未来”游戏出海沙龙:华为AppTouch助力开发者开启全球化征程