今天给大家介绍以色列理工学院Kira Radinsky课题组发表在CIKM会议上的一篇文章“Multi-Property Molecular Optimization using an Integrated Poly-Cycle Architecture”。分子先导优化是药物发现的一项重要任务,重点是生成类似于候选药物但具有增强属性的分子。大多数先前的工作都集中在优化单个属性上。然而,在实际环境中,作者希望产生满足多个约束条件的分子,例如,效力和安全性。同时优化这些属性是困难的,主要是由于缺乏满足所有约束的训练样本。作者在文章中提出了一种基于集成多循环架构(IPCA)的多属性分子优化新方法,该架构分别学习每个属性优化的转换,同时限制所有转换之间的潜在嵌入空间,能生成同时优化多个属性的分子。同时,作者提出了一种新的损失函数,它平衡了单独的转换并稳定了优化过程。我们评估了优化两个属性——多巴胺受体(DRD2)和药物相似性(QED)的方法,结果表明基于IPCA的多属性分子优化方法优于之前的先进方法,尤其是当满足所有约束且训练样本稀疏的情况。
1.引言
开发一种新药是一个非常昂贵的过程,需要花费长达15年的时间和投入超过20亿美元的成本。先导分子优化是一项重要任务,其中确定一种物质具有所需的特性,并改进其化学特性以创建将成为潜在候选药物的最佳物质。针对这个问题,早期无监督机器学习方法显示出低于标准的结果,但最近的工作带来了更多的希望。当前的最新技术利用一种对偶学习方法进行单性质分子优化。其他先进的方法是基于监督的,涉及获取一组配对分子即原始分子和具有更理想属性的增强分子,来训练监督的生成模型。大多数先前的工作主要集中在优化单个属性、同时保持与原始先导分子的相似性上,但在实际应用中,通常需要生成满足多种约束条件的分子,例如效力和安全性。但这项工作是具有挑战性的,因为这些方法不仅需要大量的训练集,还需要大量同时符合所有约束的分子训练样本,后者很难被满足。为了解决这个问题,作者将分子指纹提供给翻译器,保持优化分子与源分子的相似性。由于不同的属性会导致不同的优化路径,具有不同的训练复杂度,作者提出了一种新的损失函数,通过在学习过程中调整组件的系数来调整组件的相对重要性。
这项工作的贡献有三方面:
(1)作者设计了一种新颖的未配对端到端生成模型和独特的多循环训练方案,将分子指纹提供给翻译器来保持分子相似性,同时优化多个分子特性。这项工作是第一个在模型家族中使用SMILES分子表示解决多属性优化问题。
(2)作者提出了一种自适应损失函数,可以在训练期间平衡多属性优化,从而产生出色的结果。
(3)作者展示了大量数据集的实验结果,并优化了多层次的DRD2(多巴胺受体)和QED(药物相似性)属性。IPCA架构在生成具有更优属性分子的成功率方面表现出优于SOTA基线的性能,特别是当数据中只有少量满足多个属性的示例时。作者进行了消融测试,研究 IPCA在不同设置中的模型性能。
该系统目前正在部署用于个性化医学和专注于基于RNA治疗的纳米技术研究实验室,目标是使用IPCA架构来优化候选分子,以生成新的RNA载体分子。
2.方法
分子域(如高吸毒可能性)用大写字母表示,如X,从该分子域提取的分子用小写字母表示,如x。也就是说,????∈????表示????是从域????中提取的分子样本。分子域的分布由????(????)和一个从这个域中提取的分子x表示,即????∼????(????)。类似地,表示分子????的嵌入向量,表示属于????的所有嵌入分子的域,其分布为????()。用????????????????????表示分子特性。例如,如果????????????????1是QED,那么????????????????1(????)就是分子????的QED值。我们希望将具有退化特性的分子????转化为具有优化特性的分子????’。假设????是具有退化????特性的分子域,????????????????????,????∈[1...????]。作者希望将????∈????转化为????’∈????????其中????????????????????(????’)>????????????????????(????),i∈[1..????],并且????’保持与????相似。图1展示了????=2的多循环架构,该模型包含每个属性????????????????????的优化路径。因此,在双属性优化的情况下,第一个优化路径将分子从????转换为????1,第二个优化路径将分子从????转换为????2,通过共享嵌入空间实现两个属性都是最优的。
2.1分子优化路径
在本节中,作者描述了单个属性的端到端优化路径。作者对属性使用????????????????1表示法(图 1的上半部分)。图中虚线表示训练路径,实线表示推理路径。
在推理过程中,沿着从A到B1(红实线)的路径进行翻译。在离散文本SMILES表示中给出的输入分子????∈????由编码器????????????编码为连续表示,然后使用翻译器????????????1,2将其映射到具有增强属性????????????????1的连续分子空间。最后,使用解码器????????????1,2将其解码为SMILES表示。????????和????????分别是编码器和解码器GRU网络,后跟全连接层,而????是带有resnet层的卷积神经网络。
训练路径用虚线描述,上方的红色虚线形成了一个逆时针圆圈,从????到????????????、????????????1,2、????????1????和????????????,最后回到????。????????????将????∈????编码到一个潜在的嵌入空间,????????????1,2和????????1????依次将编码转换为和返回。????的分布应该与????’的分布没有区别。上方紫色虚线描述了在域????1中开始(和结束)的相同镜像循环。
图 1 N=2的多循环架构
为了提高源分子和优化分子之间的相似性,作者将分子的扩展连接指纹(????????????和????????????1)连接到其潜在表示,使得嵌入空间依赖于指纹,从而能够表示具有相似嵌入的相似分子结构的分子。
2.2多属性优化
多属性优化结合了多个优化路径,路径由共享嵌入空间(图1中的)链接,该空间受到????1和????2的约束。在这个潜在空间上应用解码器????????????1,2将产生针对????????????????1和????????????????2优化的分子。优化另一个新属性(????????????????3)将需要添加一个编码器(????????????3),翻译器(????????3????)并将它们链接到主翻译器(????????????1,2,3),从而生成嵌入空间,参见图2。这将为训练阶段贡献两个额外的周期:????????????→????????????1,2,3→????????3A→????????????(附加红色虚线路径)和????????????3→????????3????→????????????1,2,3→ ????????????1,2,3(附加紫色虚线路径)。通过相同的方式,可以简单地添加用于优化的附加属性。
图 2 具有附加属性的分子端到端架构
训练:算法1描述了模型的端到端训练。作者首先预训练所有编码器和解码器,为????、????1和????2分子域生成有效的连续分子表示。如果向翻译器提供高质量的输入,就能产生有效性更高的结果。然后,作者同时训练四个周期:????????????→????????????1,2→????????1????→????????????(第8-11行),????????????→????????????1,2→????????2????→????????????(第12-14行),????????????1→????????1????→????????????1,2→????????????1,2(第15-18行)和????????????2→????????2????→????????????1,2→????????????1,2(第19-22行)。翻译器与独特的训练技术都支持在和、和、和域中的相似分布。????????是一种从一个潜在嵌入域到另一个潜在嵌入域的翻译神经网络。例如:????????????1,2将∈映射到∈。在训练期间,????????????1,2通过两个训练周期(图1中的左上角和左下角)将∈ 转换为∈。在推理过程中,∈被解码为????’1,2∈????’1,2,这是优化分子的SMILES表示。
嵌入域之间的翻译加入分子指纹????????????、????????????1和????????????2(第8、9、12、15、16、19、20行)来保持源分子和优化分子之间的相似性。由于SMILES符号是一种离散表示,作者在解码器中使用多层GRU单元,在给定当前状态和当前输入字符的情况下,来预测SMILES表示中的下一个字符。因此,这项分类任务的正确损失是交叉熵(CE),其中????????(????’,????)表示原始????分子(SMILES字符)和重建的????’分子之间的平均CE损失。
整体损失由四个循环的交叉熵损失(CE)组成。请注意,每个循环可以很容易地形式化为最小化的目标函数,例如,对于从域????开始的左上角循环:
为了提高论文的可读性和可重复性,作者提出了上述(算法1)的算法公式。作者提出了一种新的损失函数,可以自动权衡循环????????????1→????????1????→????????????1,2→????????????1,2和????????????2→????????2????→????????????1,2→????????????1,2的交叉熵损失。损失分量系数在训练期间进行调整。
推理:在推理过程中,先导分子????∈????由????????????编码到嵌入域,由????????????1,2映射到嵌入空间并由????????B1,2解码。由于????????????1,2在训练过程中被所有循环共享,嵌入空间代表具有????????????????1和????????????????2的优化值的分子,经过解码器????????B1,2产生了具有????????????????1和????????????????2的优化值的SMILES表示。
2.3损失函数
由于模型的目标是生成具有多种增强特性的分子,因此可能存在比其他特性更难优化的特性。在这种情况下,优化可能会倾向于“易于优化”的优化。尽管在损失中设置常数系数可能会有所帮助,但是在训练期间调整这些系数会产生更平滑、更稳定的训练过程,从而提高性能。作者通过在训练期间动态调整损失分量系数来实现这一点(算法1中的????????1和????????2)。
作者初始化为????????1=1和????????2=1,并在每个验证步骤之后更新这两个系数:
其中????1和????2是初始常数值,????????????????????????????是所需的????????????????????属性值,????????????????????????????????????????????是验证过程中生成分子的平均????????????????????属性值。
2.4用于分子嵌入翻译的METN
在深度生成环境中,利用SMILES表示的模型的主要挑战之一是分子的离散表示。作者描述了一个架构组件,该组件允许将离散表示转换为连续表示,然后可以对其进行优化。作者遵循UGMMT的设计,并使用METN组件,该组件可以使用基于GRU的双向编码器和基于GRU的多层解码器进行序列到序列的转换。继Barshatski和Radinsky之后,为了提高解码器生成的分子的有效性,作者在训练期间利用教师强制方法:作者为每个GRU单元提供正确的输入字符,即使之前的GRU单元错误地预测了它。请读者注意,编码器的架构可以用更强大的架构(例如Transformer)代替。在这项工作中,作者提出了简单的GRU架构,为了强调IPCA成功的关键在于分子指纹和自适应损失组件的循环约束。
3.实验
3.1数据和基准模型
作者评估了IPCA在优化药物相似性(QED)和多巴胺受体D2(DRD2)上的性能,其中原始训练集包含122、710个分子对,测试集包含780个分子。实验采用的基准模型是HG2G和JTVAE,其中HG2G是一种多属性线索优化的监督方法,使用先导分子和增强分子的配对训练集,JTVAE是一种领先的未配对方法。作者使用有效性、平均属性值、新颖性、多样性、成功率(SR)作为性能评估指标。
3.2主要实验结果
作者研究了算法在几种不同QED和DRD2成功阈值的设置下的性能。给定一个先导分子,如果生成的分子的QED和DRD2高于其成功阈值,并且它与先导分子足够相似,则优化成功。每对阈值构成一个单独的数据集。对于每对阈值,作者进行了一项实验,研究满足所有属性的示例数量对算法性能的影响。图3显示了QED阈值为0.7和DRD2阈值为0.3的结果。使用其他阈值也获得了类似的结果(作者用(0.7,0.3)–(0.9,0.5)进行了实验,滞后为0.05)。作者观察到IPCA的性能稳定,随着满足所有条件的训练示例数量的减少而略有下降,而HG2G的性能受到很大影响。作者假设IPCA专注于优化每个属性及其对共享优化嵌入空间的贡献,而HG2G尝试同时优化所有属性。因此,只要具有一种高性能的分子存在,IPCA的性能就会稳定,而HG2G随着满足所有特性的分子数量减少而迅速恶化。与IPCA类似,JTVAE呈现稳定的结果,但成功率SR(Success rate)显著降低。这表明优化两个属性的“简单”梯度上升不足以完成多属性优化的任务。
作者现在更深入地研究自然界中的常见情况,在自然界中,满足所有待优化属性的分子很少。作者删除了QED和DRD2均高于成功阈值的训练示例。因为这会影响训练示例的数量,所以作者对多个属性阈值重复此过程。表1总结了从每个训练集中移除的示例数量。表2报告了IPCA和这些数据集上的其他基准模型的结果。
表 1 训练集大小
表 2 对DRD2和QED属性的多个数据集的评估
请注意,JTVAE生成单个分子,因此标准偏差为零。观察表2中总结的结果,作者注意到随着成功阈值的增加,即使训练示例的数量增加了,但是创建具有如此高DRD2和QED值的分子对于所有算法来说还是变得越来越具有挑战性。但是,IPCA模型的成功率始终优于 JTVAE和HG2G(无论成功阈值和训练示例数量如何)。成功率之间的差异随着阈值的降低而增加,在最低阈值时达到2倍甚至更多。请读者注意,尽管SR可能看起来普遍较低,但对于药物开发行业来说却是非常引人注目的。即使是一个成功的分子也可以使作者朝着药物方向发展。请注意,作者计算了标准偏差和Cohen的????效应大小,并确保它大于1,即作者提出的模型的SR与SOTA有很大不同。
IPCA 模型实现了更高的平均DRD2,而HG2G模型实现了更高的QED。JTVAE努力优化DRD2。这可能是由于自然界有更多具有高QED的分子,但高DRD2相对较少,因此与QED相比,DRD2的优化更具挑战性。
平均QED、DRD2和相似性值本身并不能提供完整的性能分析,因为多重优化任务要求所有属性同时存在于优化的分子中。因此,成功率指标更适合用于评估整体性能。
正如预期的那样,HG2G模型的有效性优于IPCA模型的有效性。这不是一个问题,因为作者可以为每个分子生成大量候选物,使用RDkit自动筛选出无效的分子。总体而言,结果表明IPCA方法优于其他两种监督配对方法。
图 3 成功率与满足所有属性的训练示例数量的关系
4.总结
在本文中,作者提出了基于IPCA的多性质分子先导优化方法,引入了一种新颖的集成多循环架构,其中包含每个属性的优化路径,这些优化路径由共享嵌入空间连接,可以推理出多属性优化。通过为每个附加属性添加优化路径并将其与共享嵌入空间连接,该架构可以扩展到不同数量的优化属性。IPCA的一个显著优势是它能够在训练集中没有此类示例的情况下推断出优化的分子。作者通过实验证明,就成功率而言,IPCA优于当前的SOTA架构。作者相信IPCA方法为自动算法药物发现过程奠定了坚实的基础。