人工智能和机器学习已经证明了其在预测化学性质和小分子合成设计中的潜在作用。数据驱动的合成路线设计是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)联盟开发和评估的一部分,该联盟包括MIT和13个化学和制药公司成员。他们一起写了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登于2020年4月JMC,分享了如何将预测模型整合到药物合成工作流程中,如何在MLPDS成员公司中使用预测模型以及该领域的前景。
名词
CASP
Computer Aided Synthesis Planning
计算机辅助合成路线设计
MLPDS
Machine Learning for Pharmaceutical Discovery and Synthesis
DMTA
design, make, test, analyze
ASKCOS
Automated System for Knowledge-Based Continuous Organic Synthesis
全文分为三个Section,本文主要介绍Section 2。
Section 1: CASP如何帮助药物化学发现;
Section 2: 如何在制药和化学工业中使用CASP;
Section 3:如何使CASP更好。
有很多方法可以将基于AI的CASP工具集成到药物化学工作流程中,且采用率正在上升。下面的讨论主要集中在开源ASKCOS工具的使用。研究者将其分为多步路线设计、正向反应预测和反应条件推荐。最后,研究者将简要讨论程序接口的合并如何帮助DMTA工作流程以及MLPDS成员公司对ASKCOS功能及其在组织中采用的总体反馈。
多步路线设计
许多可用的商业和学术合成路线设计软件都提供独立的图形用户界面(GUI)或基于Web的界面,用户可以在其中与建议的路线和预测进行交互。该软件的目标用户范围从对化学反应了解不多的非化学家到想要简化其合成工作流程的训练有素的专业化学家。MLPDS联盟的成员公司报告说,该软件的主要用户是专家、博士学位级别的化学家,并且报道的使用方式从冷漠到热情和日常使用不等。许多化学家将合成设计工具与已知反应的传统数据库查询并行使用,以更快地产生想法。其他用户是计算化学家和化学工程师,他们在逆合成设计中可能没有太多实践经验,但参与分子设计或工艺开发。大多数公司会试一些小规模的试验,以选择专业的化学家,他们在评估机器学习CASP工具的能力和确定关键限制方面处于优势。
完整路线设计的原理证明已经建立,但进一步的完善将需要能够客观评估逆合成预测的化学家的投入。来自MLPDS成员公司的意见已经确定了一些通用趋势,其中机器学习算法的性能良好。通常,使用ASKCOS工具与Reaxys或USPTO中发现的产物分子处于相似化学空间的靶分子往往表现良好。可以使用公认的化学方法来访问这些靶分子,并且模型可以在其适用范围内充分发挥作用。
基于机器学习的路线设计工具的“成功”涉及许多不同方面。这些程序是否能够找到路线的最简单因素之一是被认为是可商业获得的化合物数据库的覆盖范围。简而言之,较大的原材料数据库会增加搜索成功终止的几率。为了更好地了解可购买化学品的数据库如何影响树的搜索结果,葛兰素史克比较了ASKCOS的可购买化合物的库存数据库(138k)和更大的内部化合物/供应商数据库(8M)。在内部一组69个目标分子上,并使用最宽松的合成路线设计程序设置,ASKCOS通过库存数据库找到了54%的化合物,在其内部数据库中找到了67%化合物的路线。这些结果突出了合成路线设计算法对用于停止标准的数据库的依赖性。但是,由于每个软件包都使用不同的的可购买数据库,因此对可购买数据库的依赖性使比较CASP工具变得更加复杂。通过在每个CASP工具中加载和使用自定义构建模块的简单实用工具的实现,可以缓解此问题。由于所有MLPDS公司成员都在内部维护大量的构建模块,因此该要求通常很有用。
预测化学的机器学习方法的预期功能是,对专有数据进行再训练模型应使公司能够对内部使用的化学物质实现更好的预测能力。这些内部化学物质可能无法在公共或公开数据集中得到很好的体现对大多数CASP系统进行了培训。AstraZeneca和University of Bern的研究人员将工作流程用于逆合成模板的提取,训练/应用到多个公共和专有数据集,并比较了不同模型的性能。他们发现Reaxys具有最独特的反应模板,其中在研究中使用的所有数据集之间共享2%,而Reaxys及其专有ELN数据子集之间仅共享0.6%。礼来公司从批准的实验和研究性药物中鉴定出6k种目标化合物的子集,以代表公司感兴趣的化学领域。使用礼来公司的构建数据库和内部合成设计平台ChemoPrint,使用以下模板集进行逆合成扩展:1)仅礼来eLN数据,和2)礼来eLN数据加上专利数据模板。对于具有第一个模板集的6k化合物,可以找到40.1%的化合物的路线。用额外的专利模板对模板集进行补充只能使成功提供一条路线的能力提高5.8%,相当于46.9%的成功率。对于完整的路线设计,这些结果表明需要对内部和专有数据集进行进一步测试以及公司数据可能对多步路径设计产生的影响。
仍然有许多分子结构,其合成路线无法找到任何途径。MLPDS联盟成员已确定缺乏完整公司规划中的几个公司特定目标分子或反应的覆盖范围。通常无法确定的在完整路线设计中不成功的子结构是小巧,功能密集的带有或不带有多个连续的立体中心,笼罩式结构,新发现的杂环和复杂的多环化合物。使用常规模板提取程序,由于模板的高度特异性,该模型将无法概括。相反,一些目标分子的路线设计将找到许多路径,但包含许多不良的逆合成建议,这些区域可能无法适当预测区域选择性或立体选择性。为了纠正选择性问题,使用准确的正向预测模型进行进一步过滤将提供更丰富的路线建议。另一组失败归因于用于导航合成树的搜索方法的限制。由于递归逆合成扩展必须限制搜索以避免组合爆炸增长,因此大多数实现尚无法在搜索路径中导航超过15个合成步骤。如果化学家使用CASP工具来确定路线,并且路线设计无法成功导航到合成图以生成路线,则需要另一种解决方案。
当全合成路线设计失败时,化学家可能会使用单步逆向合成预测来手动构建路线。手动构建从数十个断开连接到数千个断开连接的路线是一项耗时的任务。MLPDS成员公司与MIT之间的讨论产生的路线设计函数是使用单步逆向合成预测实现交互式路线设计。交互式设计程序解决了显示各种建议并更好地控制合成设计的问题。当化学家最初开发一条路线时,离去基团的精确选择就不再那么重要了,随着路线的不断完善,将根据所需的反应性选择特定的离去基团。用于逆合成的机器学习模型通常将所有可能的反应物作为不同的选项进行处理。对于化学家来说,梳理具有相同基本脱离位置但离去基团不同的许多建议是不方便的。因此,开发了一种聚类算法,将相似的建议分组,并加快了对不同连接的探索。使用一种可视化效果可以显示多个路线,可以下载和共享。尽管基本的机器学习模型都没有更改,但是当自动合成路线设计工作失败时,专家用户会更乐于以交互方式探索路径。这项成功表明,最终用户与合成设计软件开发人员之间的紧密协作有助于采用,特别是在用户界面方面。
许多合成设计软件包的一个优点是,反应模板或规则与一组特定的文献先例相关联。MLPDS成员公司报告说,当可以轻松获取基于其预测的文献示例时,CASP工具会更频繁地使用。例如,ASKCOS提供了一种在训练数据中使用与反应示例绑定的反应ID的机制,并可以将用户引导至文献查询或内部反应条目。
正向反应预测
基于机器学习的正向反应预测的目的是验证从合成路线设计中提供的路线。正向预测不会在通过GUI进行树搜索期间自动执行,而是可以在扩展后对反应执行。实际上,正向反应预测工具主要用于识别潜在的副产物和杂质,而不是用于确定路线。与逆合成设计类似,数据的使用应通过调整用于训练和预期性预测的化学物质/反应的类型,来提高内部训练的质量。辉瑞公司和剑桥大学之间的最新研究表明,对数据进行适当重新训练以进行正向预测模型确实可以提高特定化学反应的准确性。
反应条件推荐
成员公司部署的所有MLPDS模块中,反应条件推荐使用得最少,反馈最少。先前的研究已经报告了建议将非常具体的条件限制为单个反应类别。这些重点关注的模型并不接近专家化学家所具有的整体反应性直觉,但是在非常特定的条件是必需的也可能有用。用于条件推荐的通用模型可以为反应执行提供良好的起点,这对于药物化学工作流程而言将是更可取的。但是,这些通用模型会受到训练集适用性域的限制。化学家目前可以使用ASKCOS来设计反应的一个良好起点,但是许多原因可能导致条件推荐的采用率降低。一是模型建议不够具体(浓度、时间、添加顺序等缺失)以致无法给出可行的条件。该模型提供的条件可以通过对相似转换的文献搜索获得。该机制仍然是化学工作者的首选。研究者发现化学家经常使用该模型来确认他们已经提出的某些条件,或者只是评估建议并向模型开发者提供反馈。长期而言,一旦可以提出定量建议,就有机会影响自动化实验,但是目前条件推荐的实用性受到限制。
上下文推荐模型是一种有吸引力的应用程序是帮助化学家和化学工程师在合成设计开始时就发现利用特定技术的机会。这样可以很容易地确定出符合绿色化学原理的更有效和可持续的条件。这样的一个例子是在诺华基于表面活性剂的技术中的应用,该技术试图用绿色的胶束-水表面活性剂系统代替不希望的溶剂。通过使用相关内部数据训练ASKCOS,可以设想,上下文建议模型将能够使用灵活的用户提供的“有利”定义,识别和提出更有利的条件,而不是现有文献中更为普遍的历史条件。
用于合并到公司平台中的程序接口
尽管图形用户界面是化学家使用的主要方法,但计算工具可以直接与其他计算流程集成。与内部分子设计工具的更紧密集成代表了CASP的附加价值主张,并可能带来更大的采用率。例如,用于从内部设计模块向路线设计软件发送请求的程序化界面可以自动运行合成逆向扩展,并积累必要的数据,以便对目标分子进行优先排序。
礼来公司设计了一个名为Kernel的内部工作流程,该流程可自动提交化学家的目标化合物或筛选结果,并对其进行优先排序。Kernel识别出优先化合物后,利用ChemoPrint API和礼来(Lilly)构建基块集合对所有分子执行完整的合成路线设计,然后添加到化合物列表中;通过电子邮件将结果通知团队成员。
巴斯夫开发了一个集成平台,用于将文献参考和内部电子实验室笔记本链接到合成反应模板推荐,并将内部化合物原料数据库集成到递归路线设计中,以优化内部资源的使用。在合成路线中使用的分子与内部用于预测物理和毒理学性质的工具套件相连,从而能够在进行实验室工作之前对反应的可行性和安全性进行计算机评估。
可以预见的是,编程接口也可以用于从头分子生成。化学家对从头方法的普遍抱怨是,这些分子不能通过合成获得。计算出的SA分数具有速度优势,但是使用完整的递归路线设计对生成分子施加偏见将确保确实存在到生成分子的路径。当然,这限制了生成模型的化学空间,但是可合成性的改进可能值得权衡。
自动化合成平台
合成设计是全自动反应平台的关键组成部分。对自动合成平台的研究仅限于相对较小的反应,并且在学术界和工业界都基本上处于概念验证阶段。当前的自动化平台仍然需要大量的人员设置和计划,但是随着预测化学工具的集成,该过程可能会变得更加简化。使用ASKCOS合成路线设计软件演示了一个机会,该软件已与机器人流程合成平台耦合。尽管仍然需要完善(例如,指定浓度和反应时间)路线和条件建议并优化(例如,适用于流动化学)在机器人平台上执行之前。在这种情况下,与批量化学结果的流行相比,手动干预的需求部分归因于自动化学训练数据的缺乏,但可以通过使用更传统的批量方法或基于平行板的方法来规避。自动化系统的其他选项包括使用环流的闭环DMTA循环,自动化实验室和超高通量实验。
一些制药公司目前正在将逆合成设计软件集成到闭环自动化中。礼来公司,ChemoPrint已成功集成到用于化学合成的自动化平台中。礼来公司已经证明过这一概念验证,即整个DMTA周期可以自动化,并且在专家化学家的最少干预下即可执行。目前,这些示例仅限于单一步骤的合成计划,并且在最初的文献报告中并未对项目的推动产生太大影响。作为概念的证明,该实验证明了将CASP和自动化耦合以驱动DMTA周期的可行性。尽管对于多步合成尚未完全实现闭环导联优化,但学术界和工业界研究人员都在迅速进步。
用户采用
2017年,要求在三家制药公司接受调查的一小群化学家定义合成设计平台的最重要特征,以鼓励采用。对受访者而言,最重要的6个重要功能是:1)易于使用且直观的界面,可与路线进行交互;2)探索与路线推荐相关的文献先例的方法;3)用户可以定义自己想要打破的纽带以进行指导搜索; 4)路线以可购买的起始原料;5)官能团不相容和不稳定的化合物被鉴定,并提出了保护基团策略以绕过这些复杂性,6)实施了评分系统对路线进行排名。根据研究者的经验,这些愿望已被大多数组织的最终用户共享。在所有重要功能中,ASKCOS软件包和许多公司内部工具都在不同程度上实现了许多重要功能。
如前所述,用户的范围从非专业化学家到从业化学家。公司的许多早期评估人员都是计算化学家和信息专家,他们正在决定将正确的方法集成到工作流中的方法。专业合成化学家的自然趋势是将喜欢的目标化合物输入完整的路线搜索中,并寻找熟悉的路线。如果已知/已发布的路线未显示或在*建议附近排名,则可能使用户无法使用该工具。如果为化学家提供基础培训,使他们在软件背后介绍理论以及如何有效使用每个软件包中不同模块的示例,则采用率会更高。重要的是,这种培训应该传达出数据驱动程序的一个目标是超越对已知路线的查找。建议的路线是基于对已知反应数据进行概括的预测。已经注意到有关模型如何工作,方法的目标是什么,模型的局限性以及如何更改输入以获得有用信息的说明,从而大大提高了化学家的参与度。