本文介绍苏黎世联邦理工学院、Sidney Kimmel癌症中心等机构的研究者合作发表于Advanced Science的工作:作者将基于配体的分子从头设计与用于靶点预测的机器学习模型相结合,以海洋天然产物Marinopyrrole A为设计模板,自动设计生成了全新的cyclooxygenase-1(COX-1)抑制剂,展示了以天然产物启发的、AI驱动的药物设计的美好前景。特别的,这种基于规则的化合物构建策略打破了高数据量要求的深度学习方法的限制。
简介
天然产物在药物发现中极具潜力,美国FDA批准的药物中有1/3以上是天然产物或天然产物启发的药物,但由于大多天然产物的生物活性未知、具有药理活性的天然产物稀缺以及合成路线复杂等原因阻碍了其工业化。
作者提出了一个高效的计算策略,结合了用于化学结构生成(DOGS)、排序(CATS)和靶点预测(SPiDER)的机器学习模型,用于靶点识别和可合成天然产物相似物的从头设计。这种综合方法将自动化的、基于规则的分子构建与机器学习和实验验证结合,加速了药物的DMTA(design-make-test-analyze)过程。
作者以海洋天然产物Marinopyrrole A(化合物1)作为自动生成新分子的设计模板,验证了所提方法。Marinopyrrole A具有抗菌特性和抗癌活性,其已知的最短合成路线有5个步骤,总产率16%,因此本文旨在通过计算获得与Marinopyrrole A共享疾病相关的大分子靶点的新型、更容易合成的药物分子。此外,作者还分析了设计模板的生物活性在多大程度上被转移到从头设计的分子中,保证新设计是功能性而非模板的结构模拟(即“新结构,同功能”)。
图1. 受天然产品启发的分子骨架迁越
COX-1抑制剂的DMTA过程
(1)设计(design)
首先,使用DOGS(design of genuine structures)软件从200个随机选择的起始片段中从头构建新分子(de novo design)。对于虚拟产物的选择,DOGS在不超过3个线性合成步骤的分子中进行广度优先搜索。在分子构建过程中,生成分子和Marinopyrrole A的分子图相似性作为适应度函数,该相似性已被证明能在设计模板和生成分子间实现骨架迁越,识别结构不同但功能相关的化合物对。
DOGS算法仅由模板和新分子之间的分子相似度来指导,不依赖活性预测构建和选择分子,与无规则的生成式机器学习模型相比,该算法以前向合成的方式生成分子,因此能够为设计提出合成路线。最终,DOGS生成了802个从头设计,包含334个独立分子骨架。
接着,将上述分子根据与Marinopyrrole A的拓扑药效团相似性(CATS距离指标,值越低越相似)进行排序,排名前100的CATS距离均<1.8,包含38个独特骨架,最后在包含最常见的2,4,5-triphenyl骨架(图1)的设计中选出了化合物2(CATS距离=1.46)和化合物3(CATS距离=1.70)。对于这两种化合物,DOGS算法给出的合成路线十分相似(图2)。
图2. 从头设计化合物2和3的合成路线。(a)算法建议的合成路线;(b)实际化学合成。
(2)实验合成、生物活性测试以及分子机制分析
实验根据DOGS建议的合成策略(包括合成步骤以及反应条件等)合成了化合物2以及衍生物2a和2b(图1b),还得到了中间产物化合物4和化合物3。
作者使用了SPiDER靶点预测软件来确定Marinopyrrole A和其仿制化合物的大分子靶点。SPiDER通过与类似化合物和已知生物活性的集合相比较,推断查询分子的潜在生物靶点——通过两个级联的机器学习模型(自组织映射)实现,分别考虑了物理化学特性和分子药理特征方面的分子相似性。本实验中,Marinopyrrole A的靶点预测量最少(n=8),化合物3的最多(n=43)。最后,Marinopyrrole A的8个预测靶点中的7个(前列腺素受体、大麻素受体等)被建议用于所有的新化合物。
初筛中,作者对这些化合物进行了测试,以确定它们对选定靶点的活性,结果表明它们有明显的COX-1抑制活性。由于此前COX-1是否是Marinopyrrole A的靶点未知,故使用无细胞试验进一步验证,结果表示Marinopyrrole A在两位数的微摩尔范围内抑制COX-1,而化合物2、2a和4也表现出强大的COX-1抑制作用。如图3,从头设计的模拟化合物2(compound 2)可优先抑制人体血小板和单核细胞中COX-1衍生产物的合成,是强效COX-1抑制剂。
最后,作为DMTA的最后一环,作者分析了COX-1抑制剂的分子机制,包括结合模式等,对开发新COX抑制剂具有指导意义。
图3. 载体对照组(DMSO)、化合物2处理(“w/o LPS”)、先用LPS激活以诱导COX-2表达(with LPS)
总结讨论
本研究中,原配体的预测靶点量(n=8)远少于从头设计生成的新分子,表明合成衍生物有多种生物活性和更大的靶点杂交性,且作者证实了计算生成的分子至少继承了3个靶点,表明基于配体相似性进行分子从头设计的适用性,也验证了CATS距离用于天然产物化合物排序的有效性。此外,实验中Marinopyrrole A的化学结构是合成过程唯一的参考信息,说明本文方法在低数据量情况下将十分有用,其以既定的化学转化为基础,可在不需要训练数据的情况下应用。
最后,作者表示本文使用的DOGS、CATS和SPiDER等模块中每一个都可用其他解决方案替代,例如在无法使用前向合成方式时使用生成式LSTM替代DOGS进行分子设计、使用强化学习或迁移学习组合分子构建和生物活性预测的软件模块。部分可预测性是合理药物发现的基本挑战,而利用machine intelligence从天然产品中学习有望为其提供前进道路。