J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

本文介绍的是由荷兰莱顿药物研究学术中心、西安交通大学电子与信息工程学院和莱顿高级计算机科学研究所联合发表在Journal of Cheminformatics上的研究成果。作者在之前的一项研究中提出了一种名为DrugEx的药物分子生成方法,将探索策略集成到基于RNN的强化学习中,以提高生成分子的多样性。在本文中,作者通过多目标优化扩展DrugEx算法,以生成针对多个靶标或一个特定靶标的类药物分子,同时避免脱靶(本研究中的两个腺苷受体,A1AR和A2AAR,以及钾离子通道hERG)。该模型使用RNN作为智能体(agent),机器学习预测器作为环境,agent和环境都被预先训练,然后在强化学习框架下交互。作者将进化算法的概念融合到模型中,交叉和变异操作由与agent相同的深度学习模型实现。训练期间,agent生成一批SMILES形式的分子。随后,环境提供的所有靶标的亲和力分数将用于构建生成的分子的帕累托排名,该排序采用了非支配排序算法和拥挤距离算法。作者证明了生成的化合物可以对多种靶标进行作用,并具有高效低毒的潜力。


J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

1.背景介绍

“一种药物,一个靶点,一种疾病”的模式多年来在药物发现领域占据主导地位,为药物开发和了解分子作用机制做出了巨大贡献。然而,最近的研究表明,一种药物分子平均可以与6个蛋白靶点相互作用,这证实主导模式不够严谨。药物与预期之外的非靶点结合而产生的副作用是候选药物临床失败甚至FDA批准的新药物退出的主要原因之一。然而,疾病往往是由多种遗传和/或环境因素对生物系统的扰动造成的,复杂的疾病更可能需要通过同时调节多个靶标来治疗。因此,对于多种复杂疾病,将药物发现模式转变为“多重药理学”是至关重要的。


在多重药理学中,药物与多个特异性靶点结合以增强疗效或减少耐药性形成。已有研究表明,对少量靶标的部分抑制比对单个靶标的完全抑制更有效,特别是对于复杂和多因素疾病。同时,蛋白质的常见结构和功能相似性易导致药物与非靶标结合。因此,药物需具有较高的靶蛋白选择性,以避免与不需要的靶蛋白结合。


由于首个版本的DrugEx v1证明了设计新型A2AAR配体的有效性,作者将这种方法扩展到针对多个靶点的药物设计。在该研究中,作者通过将源自进化算法的交叉和变异操作添加到强化学习框架中,将DrugEx更新到第二版 (v2)。为了评估该模型的性能,作者在多靶标和特定靶标案例研究中验证了DrugEx v2。对多靶标,所需要的分子应该对A1AR和A2AAR都有很高的亲和力。对特定靶标,要求分子只对A2AAR有高亲和力,但对A1AR有低亲和力。为了降低毒性和不良事件的风险,在这两种情况下,分子必须对hERG具有低亲和力。值得注意的是,生成的分子还应具有化学多样性,并具有与已知配体相似的物理化学性质。


2.DrugEx v2方法

数据集


作者从ChEMBL数据库(版本26)下载以SMILES形式表示的类药物分子,并对其经过电荷标准化、去除金属和小片段等数据预处理后,收集了170万个分子,命名为ChEMBL数据集。此外,作者还从ChEMBL数据库中提取了25731个配体,构建了LIGAND数据集,对人类A1AR、A2AAR和hERG蛋白靶点进行了生物活性测量。


预测模型


为了预测每个生成分子对给定靶标的pChEMBL的平均值(pX,包括pKi、pKd、pIC50或pEC50),作者使用4种不同的机器学习算法构建了QSAR回归模型,即随机森林(RF)、支持向量机(SVM)、偏最小二乘回归(PLS)和多任务深度神经网络(MT-DNN)。为了增加QSAR模型可用的化学多样性,作者纳入了没有pChEMBL值的低质量数据,标记为“Not Active”或没有定义pX值的分子。对于这些数据点,作者定义pX值为3.99(略小于4.0),以消除数据集的不平衡性,保证模型能够预测负样本。在训练过程中,低质量数据样本权重设置为0.1,pX准确的数据样本权重设置为1.0。这使得模型能够融入化学多样性,同时避免性能下降。模型输出值是基于该向量的给定化合物是否具有活性的概率。


生成模型


作者将数据集中的所有分子拆分为一系列标记,以构成一个SMILES词汇表。生成模型使用RNN进行构建,包含一层输入层、一层嵌入层、三层循环层和一层输出层。和DrugEx v1中的区别是,在循环层中,作者使用带有512个隐藏神经元的长短期记忆(LSTM)作为循环单元,而在DrugEx v1中使用的是门控循环单元(GRU)。


强化学习


对生成器进行预训练后,强化学习(RL)训练流程分为四步(如图1):(1)根据生成器计算出的概率,通过逐步采样标记生成一批SMILES;(2)有效的SMILES被解析为分子并编码为描述符,以得到预测的pXs;(3)基于Pareto优化将预测的pXs转化为单个值作为每个分子的奖励;(4)将SMILES序列及其奖励送回生成器,用策略梯度方法进行训练。

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

图1. DrugEx2利用强化学习的训练流程

RL框架下的SMILES序列构建可以看作是一系列决策步骤,生成器(G)和预测器(Q)分别被视为策略和奖励函数。在这项研究中,作者使用了多目标优化,目的是最大化每个目标,即maximizeR1, maximizeR2, ...,


maximizeRn,其中n为目标数(本研究中n=3),每个目标i的得分Ri计算如下(其中pXi是每个预测器对第i个目标给出的预测分数):

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

为了评估生成分子的性能,作者引入了有效性(Validity)、可取性(Desirability)、唯一性(Uniqueness)以及多样性(Diversity)。此外,作者还通过计算分子的SA和QED评分来进一步衡量生成分子的性能。为了协调和结合这些不同的目标,作者比较了两种不同的奖励方案:Pareto front(PF)和weighted sum(WS)。


PF方案根据不同解集之间的支配关系,确定有优势的解集。例如,给定一个问题的两个解决方案m1,m2,其解集分别为(x1,x2,…,xn)和(y1,y2,…,yn),对于∀ i∈{1,2,…,n} 都有xi≥yi 且 ∃ i∈{1,2,…,n}使 xi>yi,则称m1支配m2,m1的解集优于m2。在确定所有解集之间的优势后,利用非支配排序算法得到不同的帕累托前沿面,然后根据Tanimoto距离的平均值对分子进行排序,距离较大的分子排在最前面。最终奖励R*定义如下:

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

WS方案根据分数小于和大于阈值的生成分子数量之比来确定第i个目标的权重wi,R*定义如下:

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

算法推理


进化算法(EAs)是药物发现中比较常用的方法。例如,分子进化器(moleculare voluator)包含交叉和变异操作,可用于药物分子的从头设计;分布估计算法(estimated of distribution algorithm, EDA)是一种基于模型的方法,使用新个体的概率分布估计和抽样来代替突变和交叉操作。DrugEx也是一种基于模型的方法,利用深度学习(DL)模型估计序列决策的概率分布。作者在该实验中使用DL方法来定义基于模型的变异和交叉操作,在EDA和EA中,作者采用RL方法代替样本选择步骤来更新模型或种群。具体算法流程如图2所示。

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

图2. 进化算法的流程图比较。A:分子进化器的算法流程;B:EDA的算法流程;C:作者提出的算法流程


探索策略


作者之前的研究中,通过导入一个固定的探索网络来实现探索策略,以在训练中扩大生成分子的多样性。作者在本文中引入了代理网(GA),交叉网(GC)和变异网(GM)来实施探索策略,在模型训练过程中,通过对GA、GC和GM的参数不断更新,以生成理想的分子,这三种网络具有相同的RNN结构,如图3所示,绿色代表GA、红色代表GM,蓝色代表GC:

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

图3.探索策略模型

3.结果与讨论

预测器的性能


作者利用LIGAND数据集中的分子训练QSAR模型,然后采用五折交叉验证和独立测试集两种验证方式对不同算法的性能进行评估。如图4所示,在交叉验证中,MT-DNN模型的总体表现相对较优,但是RF在hERG靶标上性能最佳。独立测试集上,RF模型总体上达到了最高的R2(观察到的实际结果与模型构建的预测值之间的相关系数的平方)和最低的均方根误差(RMSE)。由于生成模型可能会创建大量与训练集中的分子不相似的新分子,作者考虑预测器的稳健性,最终选择RF算法构建环境,它提供最终奖励来指导RL中生成器的训练。

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

图4. 不同机器学习回归模型的性能比较

性能比较


作者比较了DrugEx v2、DrugEx v1和另外两种基于深度学习的药物设计方法(REINVENT和ORGANIC)的性能。作者把两种不同的多目标强化学习方案应用到四种算法中,分别对不同算法进行了多靶标和特定靶标的性能测试。


如表1和表2所示,在多靶标和特定靶标的实验上,WS方案可以帮助模型提高可取性,PF方案可以帮助模型实现更好的子结构的多样性。通过比较这些方法,DrugEx v2在PR和WS方案中获得了最佳的可取性,REINVENT生成的分子更容易合成,更像药物,而DrugEx v1生成的分子与配体中的分子分布更相似。


表1.不同方法在多靶标情况下的性能比较

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

表2.不同方法在特定靶标情况下的性能比较

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

化学空间的比较


关于化学空间,作者对多靶标(图 5A-H)和特定靶标(图5I-P)情况下所有分子的ECFP6描述符采用t-SNE实现可视化,其中A-D和I-L基于PF奖励方案,E-H和M-P基于WS奖励方案。在多靶标情况下,LIGAND 集中大多数所需的配体分布在图的边缘区域,PF方案比WS方案能更好地引导所有生成体覆盖化学空间。在特定靶标的情况下,LIGAND 集中所需的配体在边缘和中心区域分布的更分散,所需配体所占据的区域只有一部分与REINVENT和ORGANIC生成的分子重叠,而DrugEx v1和v2生成分子的分布与之高度吻合。与WS方案相比,DrugEx v2 使用 PF 方案显着提高了化学空间覆盖率。


图5显示了所有已知配体(橙色)和所需配体(黑色),此外还显示了由 DrugEx v1(A、E、I、M,蓝色)、DrugEx v2(B、F、J、N,红色)、ORGANIC(C、G、K、O,绿色)和 REINVENT(D、 H、L、P,紫色)生成的分子。从图中可以看出DrugEx更好地覆盖了输入数据的整个化学空间。

J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

图5. LIGAND 集和生成分子的化学空间的比较

4.总结

在这项工作中,作者提出了一种基于帕累托的多目标学习算法,用于基于不同要求的多靶标亲和力分数的多目标药物从头设计。作者将进化算法的概念(包括变异和交叉操作)引入到RL中,更新DrugEx进行多目标优化。此外,帕累托排序算法也被集成到模型中,以处理药物发现中常见的矛盾目标,并扩大化学多样性。为了证明有效性,作者测试了DrugEx v2在多靶标和特定靶标情况下的性能。该模型生成的SMILES分子具有较高的有效性和多样性,且生成的分子与已知配体有很强的相似性,几乎覆盖了已知配体占据的化学空间。


在未来的工作中,作者提出将继续使用这些新的深度学习模型来更新DrugEx,以处理不同的分子表征,如图或片段,还将会整合更多的目标(例如稳定性、可合成性等),特别是当这些目标相互矛盾时,模型允许用户为每个目标设定权重,以生成更可靠的候选配体,更好地控制生成过程。


上一篇:NeurIPS-21 | MGSSL: 基于官能团的分子属性预测图网络自监督预训练


下一篇:NeurIPS 2021 | 通过动态图评分匹配预测分子构象