Commun. Biol. | 人工智能加速抗生素发现

Commun. Biol. | 人工智能加速抗生素发现

今天给大家介绍宾夕法尼亚大学佩雷尔曼医学院Cesar de la Fuente-Nunez团队发表在Nature communications biology上的文章。该文章主要介绍表示学习,性质预测和生成模型等人工智能方法在小分子抗生素和抗菌肽发现中的应用。此外,作者还分析了该领域当前的开源问题和可复现问题,讨论了未来的研究趋势和可研究方向。


1


背景


通过有效地针对入侵的生物体,抗生素参与到宿主-病原体进化军备竞赛的古老斗争中。然而,细菌因自然选择而进化出的耐药性正在削弱现有抗生素的疗效。根据美国疾病控制和预防中心估计,美国每年有280万例感染是由耐药细菌引起的,其中有3.5万人死于这种无法治疗的感染。当前处于临床试验中的抗生素大多与已经出现耐药机制的现有药物类似,这进一步强调了发现全新抗生素的必要性。


然而,抗生素研发是一个缓慢、昂贵且容易失败的过程,这一过程可能持续数十年,花费数亿美元。从2014年至2019年,只有14种新的抗生素成功研发并通过审批。在一项对超过21000种化合物的近186000项临床试验的调查中,研发的新药能够成功治疗传染病的可能性仅为25.2%。


这一挑战催生了一系列基于启发式和人工智能算法的抗生素发现方法。可用的公开数据集(表1)、计算机技术的进展以及开源机器学习库的激增极大地促进了人工智能在药物发现和抗生素发现中的应用。在这篇综述中,作者着重介绍人工智能应用于小分子抗生素和抗菌肽发现的方法。

Commun. Biol. | 人工智能加速抗生素发现

表1 抗生素发现的数据集


2


化合物表示学习


表示学习是计算药物发现流程(图1)的一个重要组成部分。为了避免浪费大量时间和金钱用于合成非活性化合物和进行实验,研究人员利用表示学习来表征候选药物并据此预测药物的性质。分子的各种性质和实验可以产生大量的信息,例如,为了描述简单的氨基酸残基,在线数据库中已经有400多个不同的测量方法;对于小分子药物,有计算和压缩量子力学推导出的描述符来表示拓扑性质的方法。然而,测量得到的数据不一定能准确地表示分子。这催生了一系列研究,将实验数据组合成简单的描述符,以尽可能少的维度来描述尽可能多的信息。


文章提到的一个典型的例子是使用图卷积网络,其利用分子的几何形状和连通性将分子转化为图,利用神经网络从化学结构中学习分子的特征。类似的,也有工作使用图神经网络的方法来表示和预测蛋白质结构。


递归神经网络(RNNs)在信号处理和自然语言处理(NLP)领域很常见,且现在已经被用于处理分子的SMILES表示。有研究人员使用长短期记忆单元(LSTM)从已知药物的SMILES学习分子特征并生成新的化合物。另外,RNN也可与强化学习结合,根据药物的SMILES生成药物的embedding特征。RNN还用于抗菌肽的表示,有研究人员利用基于ONE-HOT编码的LSTM自编码器和LSTM神经网络来学习和生成抗菌肽序列的表示,其可以用于推导蛋白质的二级结构、热稳定性、残基突变类型,甚至是突变带来的功能性影响。

Commun. Biol. | 人工智能加速抗生素发现

图1 计算抗生素发现流程


3


性质预测


抗菌小分子活性预测是机器学习运用于抗生素发现中的核心,推动了近几十年来在QSAR问题的研究并提供新的解决方案(表2)。例如,有研究人员使用逻辑回归对训练集中的分子片段进行分类。这一方法构造了一个基于分子片段的活性“词汇表”,可以将这些分子片段拼接起来作为针对革兰氏阴性菌铜绿假单胞菌有活性的新抗生素。最近也有研究人员试图寻找现有的药物作为抗生素,其利用神经网络来学习化合物的表示,然后评估其抗菌潜力。该工作还利用了集成学习,其结合模型的多个副本(具有不同的权重),并考虑了每个模型的加权投票来实现最终的预测。文章中还提到了基于支持向量机预测分子的抗菌活性;基于深度神经网络预测多肽对铜绿假单胞菌的活性;基于RNN的回归模型挑选具有抗菌活性的抗菌肽等方法。


抗菌肽被认为是解决微生物耐药性进化的新抗生素的主要来源。抗菌肽限制耐药性进化的能力与其不同的生理作用机制有关,这使得研究人员专注于多肽的分类和发现新的作用机制。例如,有研究人员提出利用DBSCAN聚类并预测抗菌肽对革兰氏阴性菌的活性,并在体外合成了有效的候选抗菌肽。此外,还有研究人员基于已知抗生素的活性和一系列同源序列训练一个广义线性模型来生成对大肠杆菌抗菌活性增加160倍的新抗菌肽。由于广义线性模型所发现的模式可以通过分析模型的权重来直接解释,因此可以直接将模型转化为抗菌肽设计的指导信息。


近几十年来,药物类药性(drug-likeness)的预测方法不断发展,其感兴趣的特征包括吸收、分布、代谢、排泄和毒性(ADMET)。基于机器学习的结合亲和力预测也可以通过确定具有更有利的药物-靶点相互作用的候选药物来加速高通量筛选和基于结构的药物先导物优化。文章提到有一系列工作分别利用神经网络、分类树、梯度增强分类器和共识模型预测抗菌肽和类抗菌肽药物的溶血活性。也有一系列研究利用随机森林、深度神经网络和深度泰勒分解用于预测候选药物的细胞毒性。


开发基于抗菌肽的抗生素的还必须考虑肽的溶解性和稳定性。已有相关工作利用神经网络、梯度增强模型、逻辑回归分类器、支持向量机和随机森林预测蛋白质溶解度。在评估抗菌肽的稳定性时,蛋白水解酶的降解作用也是一个重要因素。如果能识别抗菌肽的水解酶结合位点,那将有利于先导抗菌肽的挑选和稳定性优化。现有一系列工作利用SVM、卷积神经网络、条件随机机场分类器和逻辑回归模型,来预测水解位点。类似的,有工作利用基于注意力的图神经网络和朴素贝叶斯分类器来预测类药化合物的稳定性。


与大多数治疗方法不同,抗生素设计的目标是杀死具有耐药性进化能力的细菌。因此,抗生素药物设计需要考虑细菌耐药性进化的不可避免性。虽然当前已有基于机器学习的耐药性预测方法在临床上预测抗生素配方的耐药性,作者更希望在药物开发的实验中使用耐药性预测。作者预计流行病学和医学中的基于耐药性基因组学的机器学习方法将越来越多地专门用于药物开发,例如利用机器学习对先导化合物的耐药性实验进行预测。目前基于机器学习的抗药性预测都是基于细菌的基因组特征,而不是药物或分子靶点特征。例如,已有工作基于病原体基因组数据训练了能够预测细菌对抗生素的敏感性和耐药性表型的机器学习模型,包括肺炎克雷伯菌、大肠杆菌、P.铜绿假单胞菌、结核分枝杆菌和金黄色葡萄球菌。也有工作利用SVM预测外排介导的耐药性。


虽然“黑盒”方法可能限制机器学习用于减少耐药风险,但可解释性机器模型可以使模型能够在机体和种群规模上找出耐药性的进化原因。有研究人员结合机器学习与基因-蛋白结构图谱,以研究结核分枝杆菌耐药性进化的驱动因素,其假设赋予细菌耐药性的基因之间的相互作用表现为它们在SVM超平面的权重和符号的相关性。还有工作开发出开源软件用于基于蛋白质同源性的基因变异定位的可解释耐药性预测。

Commun. Biol. | 人工智能加速抗生素发现

表2 用于抗生素发现的机器学习模型


4


基于深度生成模型的抗生素发现


生成式深度学习可以通过多种方式来辅助抗生素的发现。作者着重介绍从头分子设计,其通常使用生成对抗网络(GANs),变分自动编码器(VAEs)相关的架构。GAN由生成模型和判别模型组成,其推断训练数据的概率分布,以便从这个分布构造新的样本。在一个极大极小博弈中,两个模型都被训练以优化判别器的错误率:生成器被训练以最小化判别器正确区分真实数据和合成数据的可能性,判别器被训练以最大化这种可能性。与经典的自编码器一样,VAEs将输入编码到隐层表示中,然后解码重构,学习能够描述训练数据的隐层变量。然而,VAEs是一种定向的概率模型,通过变分贝叶斯方法学习连续的潜在变量。本节介绍这两种模型应用于药物发现的几种变体。


深度生成模型已经被用于化学工程和蛋白质工程,包括无机物的逆向设计和基于图的神经网络模型蛋白质折叠生成。已有工作分别利用了结合深度强化学习的生成网络,深度生成对抗自动编码器,可微分强化学习和对抗训练神经网络,结合蒙特卡罗树搜索的深度神经网络,结合随机和目标指引分子设计的自动编码器GAN用于从头药物设计。鉴于对序列数据的适用性,也有工作利用接受SMILES输入的RNN模型进行药物设计。


在化学工程、蛋白质工程和整体药物开发中,人们对深度生成模型的兴趣日益浓厚,类似的技术可能会越来越多地应用于抗菌肽和小分子抗生素设计。到目前为止,GAN已被用于生成一个对大肠杆菌的最低抑制浓度明显低于氨苄青霉素的抗菌肽。基于迁移学习的LSTM生成模型表明,在对较小数据集的目标特异性生物活性分子进行微调后,可以成功生成已知的靶向金黄色葡萄球菌的分子。此外,有研究者在一个基于单向LSTM的抗菌肽设计中,观察到82%的生成肽是潜在的抗菌肽,而训练数据的氨基酸分布中只有65%的随机排列被预测为抗菌素。


5


开源和可复现性


一个确保计算可重复性的开放科学机制保证了公众可以免费访问文章(1)源代码、(2) 训练和测试数据以及(3)发表的研究结果,这有利于加速基于机器学习的抗生素发现。然而, 对400篇人工智能会议论文的分析显示,只有6%发布了代码,54%发布了伪代码,30%的发布了测试数据。在生命科学和医学的机器学习中,最近的一项综述发现,300份出版物中有50%发布了软件,而64%发布了数据。一项对511项研究的综述发现,在可复现性等多个指标上,将机器学习应用于生命健康科学领域的可复现性指标相比自然语言处理、计算机视觉和一般ML的论文表现不佳。因此,作者呼吁提高基于机器学习的抗生素发现的开源。


6


趋势和未来研究方向


为了评估机器学习对抗生素发现的发表状况,作者研究了PubMed论文的趋势。结果表明,在21世纪的头二十年里,机器学习在抗生素和癌症药物领域的应用落后于广泛药物开发领域的应用近十年。令人惊讶的是,心血管药物领域的机器学习论文数更低。不过,广泛药物开发的大量应用预计随着时间的推移将对特异性疾病群体研究产生促进影响。在21世纪的第三个十年里,机器学习促进的抗生素发现的前景将部分取决于数据的改进。随着更大数据集的公开,可以更严格地重新审视曾经遇到的问题。联邦学习可能会促进在各研究机构数据闭源的情况下扩展经验数据集。


最近的一篇综述观察到,以计算机科学、生物学和医学合作为特色的生物医学出版物具有更大的技术正确性,这表明抗生素发现可能从综合专业知识中获益。推动机器学习与体外和体内实验的结合,甚至是额外的计算方法,如分子动力学模拟,将有助于确保模型的可靠性。对于机器学习模型内部决策中普遍存在的“黑箱”问题,可解释性机器学习是生物医学计算中一个日益扩大的焦点,其被用于阐明抗生素的作用机制。


上一篇:BIB | 深度学习生物医学命名实体识别综述


下一篇:Nat. Commun. | msiPL:质谱数据分析的新工具