人工智能和机器学习已经证明了其在预测化学性质和小分子合成设计中的潜在作用。数据驱动的合成路线设计是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)联盟开发和评估的一部分,该联盟包括MIT和13个化学和制药公司成员。他们一起写了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登于2020年4月JMC,分享了如何将预测模型整合到药物合成工作流程中,如何在MLPDS成员公司中使用预测模型以及该领域的前景。
名词
CASP
Computer Aided Synthesis Planning
计算机辅助合成路线设计
MLPDS
Machine Learning for Pharmaceutical Discovery and Synthesis
DMTA
design, make, test, analyze
ASKCOS
Automated System for Knowledge-Based Continuous Organic Synthesis
全文分为三个Section,本文主要介绍Section 3。
Section 1: CASP如何帮助药物化学发现;
Section 2: 如何在制药和化学工业中使用CASP;
Section 3:如何使CASP更好。
将CASP集成到药物化学工作流程中的工作正在进行中,但是在实践中开发和部署机器学习CASP工具仍然存在许多挑战。综合规划软件的采用正在获得发展势头,并且通过促进“制造”部分而开始对DMTA周期产生影响。尽管更多的化学家正在使用CASP工具,但是许多小组在未将其代码开源或根据要求提供代码的情况下发布了合成计划方面的进展,从而阻碍了进步和可重复性。此外,度量标准的标准化应与可公开获得的数据集达成共识,因为礼节性数据通常不会或无法共享。
建立成功指标
评估单步逆合成模型性能的最常用指标是top-k精度。使用已知的单步反应的测试集评估该度量,并基于预测的前k位中真实断开的精确匹配进行计算。尽管top-1准确性对于模型开发很有用,但它是一个很差的指标,因为总是存在多个可以在实验室中成功执行的逆合成断开连接。使用小k(1-3)的top-k精度进行模型评估意味着,实际上逆合成是一个模糊的预测,因此,已发表的方法是“正确答案”之一。尽管没有在数据库中记录多个答案,但可能有许多正确的事实,因此诸如top10精度(或更大的k)之类的指标更合适,但也会提高精度,这可能无法正确反映模型的性能。一个简单的例子是,如果一个程序选择了溴和氯作为离去基团,以便进行简单的取代;根据尝试的反应,两者都可能在实验中成功。
另一个重要但很少报道的指标是预测的多样性。从大多数化学家的角度来看,top-k精度可能不一定总是选择逆合成工具的最重要因素。对于合成路线设计,尚未考虑的关键断开与建议的可行性同等重要。在开发模型时需要权衡一些建议,这些建议必须可行,有用且可行。有时对于想法的产生不是很明显。一个高度可行,无用但很明显的建议示例是在不建立复杂性的情况下进行简单的功能团互转。相反,一种不可行,非常有用且不明显的建议是在没有已知化学方法实际进行反应的情况下建议破坏键。使用top-k准确性对单步预测进行评分可以获得可行的建议,同时采用启发式方法将模型引向有用的断开连接。权衡只能由能够对许多建议进行分类的专业化学家进行评估,尽管化学家的评分是主观的,并且经常偏向于他们所熟悉的化学。为社区广泛采用而定义“理想”指标的困难在于平衡准确模型的开发和提供各种建议的模型之间的平衡。
类似于为单步逆向合成预测定义指标,开发全路线设计算法的主要障碍是评估预测路线的困难。可以按照上述方法评估每个单独的逆合成步骤,并将路径搜索的效率作为附加标准。有时会使用简单的指标来评估路线设计软件,但无法完全反映出不同类型化学家的许多需求的复杂性。人们可能会问的一个问题是,这些模型是否能够提出先前已发布的路线。人们不希望只建议发布的路线,因为查找就足够了。由于存在许多断开连接的选项组合空间,因此不希望仅根据文献中出现的建议来惩罚路线设计。路线设计的另一个问题是模型是否能够提出化学上可行的路线。由于可行性评分尚未得到定量解决,并且存在其自身的错误和局限性,因此基于合成可行性评估不同的CASP软件包非常困难。
路线设计的主要要求是路线的多样性,但就完整路线而言,多样性仍不确定。路线多样性不仅取决于单步建议,还取决于导航全合成树的方法。多样性可能意味着许多路线的暗示,其中有些非常相似,但在所有途径中,有一些途径截然不同。与单步建议类似,如果可行,则没有必要提出多种路线建议,目前唯一可行的验证方法就是进行建议的综合。路线设计的最重要因素是速度,速度取决于用于搜索的停止标准以及一种被视为可购买的化学原料。通常会在速度和路线质量之间进行权衡,但这可以调整为用户的需求。
药物化学家可能希望看到共享共同中间体的途径,这些中间体可以加以详细说明。这提供了导致靶分子最高多样性的通用途径,但可能不是通向任何单个化合物的最佳途径。另一方面,过程化学家可能希望看到高度收敛的路线,但希望以可视化的方式提出许多多样的路线建议,因为他们将拥有计算模型无法捕获的更复杂的考虑因素。最后,需要快速获得结果以提供比传统数据库搜索和手动路线设计更大的价值。逆合成算法的平衡计分,包括评估模型性能的准确性,满足化学应用的多样性以及收敛性,是一个困难的多目标优化问题。
数据、通用基准和评估方法
当然,机器学习模型被认为受益于数量更多,数据更丰富。公司和大学用于捕获和报告数据的机制对于进一步发展合成设计中数据驱动方法的发展至关重要。在数据库中不经常记录的数据示例是替代反应或条件,这些条件或条件已在测试新化合物或天然产物的过程中进行了测试。有关路线演变的讨论记录在文献报告中,但是当翻译成数据库条目时并不会总是被捕获。该信息对于化学家确定合成路线的策略非常有用,但在构建模型时不会捕获。另一个考虑因素是,记录文献报告的数据库通常仅包含具有较高收率的正面数据。大多数反应预测变量都受过成功反应的训练,因此无法预测反应是否具有较低的转化率。另外,由于与鉴定所有化学种类有关的时间和费用高,因此通常不公开反应混合物中副产物或副产物的完整表征。这限制了构建反应性预测模型的能力。最终,存在未被捕获的数据,例如未发布的催化剂筛选活动。但是,数据捕获正日益成为许多公司关注的话题,并且它们的报告有望进入公共数据集。与使用统计学习的方法相比,使用专家编码规则的CASP方法对数据可用性更不敏感,因为人类可以促进将少量反应先例推广到更广泛的规则。尽管如此,这些方法仍将受益于更丰富的数据,因为对规则进行编码的专家将对反应有更好的了解。
所有MLPDS成员公司尚未对基于公司数据的机器学习模型进行再训练。如前所述,礼来公司在训练逆合成模型时仅发现将USPTO包含在其内部数据中的好处不多。这些结果表明,内部反应数据集可能包含药物化学程序中最常使用的主要“主力”反应的足够代表性示例。这就提出了一个问题:对公司数据进行再训练的模型会不会仅仅给出可以增强最受欢迎的化学物质的建议?答案取决于可以使用CASP工具的化学设置。
药物化学程序中,需要访问与当前分子不同的化学空间,因此新的反应类型对于合成非传统的,日益复杂的目标分子可能是必不可少的。但是,如果可以通过可靠的化学方法合成靶标分子,则CASP建议采用化学方法已确立的方法,而不是具有许多未知数的创造性方法。通过使用通用化学方法识别路线,药用化学家还可以通过优先考虑可以外包的合成物和需要在内部执行的合成物,更准确地预测到目标时间表。尽管如此,CASP工具的用户还是希望看到更多具有创造性的建议,特别是那些在过程化学部门工作的建议。这通常是因为如上所述,对路径最佳性的考虑比工具能够处理的更为复杂或主观。
此外,如果将CASP工具与自动合成平台结合使用,则加强反应的问题可能并不那么重要。对于自动合成,如果CASP系统推荐了公司内部经常使用的简单而坚固的化学方法,则可以避免化学家必须设计或执行简单化学方法的负担。即使药物化学程序中的一小部分反应可以实现自动化,也可能会对访问新靶标分子的时间表产生重大影响。这使化学家有更多时间专注于稀有化学方法,这是建立复杂性的关键步骤,从而有助于向新化学领域的扩展。随着新化学方法的发展,它们可用于进一步训练和完善CASP模型。存在不同的合成设计方法,并且不同模型之间的比较目前尚未标准化。尽管目前对完整合成途径进行评分的指标并不完善,但仍需要开发开放访问共享的基准测试平台或数据集,以便研究人员可以比较合成软件和算法。为研究人员提供通用的测试集以对其系统进行基准测试是一项艰巨的任务。随着领域的发展,提供给测试集的分子将不得不进化,因为随着时间的流逝,它们将被包含在数据库中进行训练。训练数据的基本分布也会随着时间而变化,因此,由于训练数据中新的反应和结构的表示形式较高,因此较新模型上的通用测试集的指标看起来可能会更好。更好的办法是还提供一个开放的训练数据集,以使训练和测试集对于每个发布的数据驱动模型都是通用的。由于某些系统在其算法中纳入了专家编码的规则,因此基准化后合成软件也变得很复杂。这意味着这些编码规则与测试集之间可能存在重叠,而纯数据驱动的方法则在训练数据和测试数据之间有明确的区别。即使采用了更好或更标准化的指标,化学家最终仍将使用适合他们的程序。在他们所操作的化学范围内定义有用的化合物,并通过建议在实验室中成功的途径来证明其实用性。
CASP的其他机会
尽管讨论的重点是评估和基准化当前合成设计工具的难度,但许多其他预测性任务的进展可能会对药物化学合成工作流程产生重大影响。例如,条件推荐系统通常集中于以已知或可能唯一的组合来预测已知试剂。催化反应的数据非常有限,因为经证明成功的独特催化剂/配体通常较少。为了应对药物发现中存在的许多低数据环境,必须改进机器学习模型。可以设想将类似于从头分子设计的原理应用于独特的催化剂/配体结构的产生,这可能会增加给定转化成功的可能性。材料科学中的大型催化体系设计方面的进展已有报道,但在合成小分子有机化合物的催化中所公开的内容很少。催化反应的化学空间通常非常受限制,这对于用于分子生成的数据集的生成提出了问题。与药物化学中的许多预测任务一样,可以从受约束的小型数据集中学习的模型进一步开发至关重要,并且可能需要使用新的输入表示形式来获取对分子结构的更丰富描述。存在预测立体选择反应中配体的其他机会,但将需要开发新的3D表示形式。从头开始设计催化剂/配体的最终复杂因素是,新催化剂/配体的合成和表征通常会消耗大量时间。在大多数药物化学程序中,仅为催化剂/配体添加多步合成将是禁止的,但高度关注于优化反应顺序的每个步骤的学术化学家或过程化学家可能会感兴趣。
所有合成有机研究的一个耗时步骤是对产物,副产物进行表征,并明确确定最终目标分子的结构。目标结构的错误分配会导致数据错误,从而无法进一步优化结构/活性,甚至可能导致专利纠纷。一种简单的结构分配方法是使用正向预测模型来识别反应中可能的副产物。这些预测可以用质谱(MS)或IR验证,以确认反应混合物中的副产物。但是,该方法不能区分结构异构体或非对映异构体化合物,这限制了其用途仅限于产生定义明确的异构体产物的反应。阐明小分子有机结构所需的标准数据,以及发表所需的标准数据,包括MS,1H-NMR和13C-NMR,通常可能需要使用二维NMR实验或其他NMR实验的进一步确定。当所有这些数据组合在一起时,可以确定结构特征,并且训练模型以根据其光谱预测结构是可行的。学习不同数据之间的复杂非线性模式是机器学习的理想应用。但是,包含所有这些实验的数据集很少。不太常见的分析方法往往对结构确定更有用。
最后,对数据、模型和代码的发布的前景和标准化的讨论可能会对朝着完全自动的合成方向发展的整个流程产生重大影响。最近的评论指出,需要在数据/软件和硬件方面进行改进以实现自主化学合成的许多领域。其中,讨论了数据有效和可解释模型的开发。模型的可解释性对于许多用户而言很重要,因为他们想了解为什么机器学习模型会做出某些预测。借助自动实验可以生成的大量数据,使用该数据构建具有较低计算开销和较短时间来产生结果的预测模型的能力将使构建能够最有效地达到目标的实验。对于合成设计和自动化实验中的机器学习而言,另一个重要的考虑因素是不确定性估计的改进,尤其是在数据量较低的情况下。主动学习中不确定性估计的改进将产生更丰富的实验,从而减少时间和成本。最后,需要建立和标准化针对自动化合成目标的评估指标,这些指标可以集中于测试模型和硬件达到新化学空间能力的分子。
总结
MLPDS联盟内外的公司目前正在将用于预测化学的机器学习模型集成到DMTA循环中。公司已经开始将ASKCOS集成到工作流中,并且计算开发人员正在与合成化学家紧密合作,以寻找新的研究将产生最大影响的新兴领域。为了加快基于ML的CASP研究的步伐,需要使用通用的基准测试方案建立标准化的指标和共享数据集。对于更强大的基于ML的合成工具而言,表示性、低数据场景下的鲁棒性和通用性的根本性进步将非常重要。对混合机器学习和专家编码的CASP工具的进一步研究可能能够利用每种方法最有用的方面。在一些公司中已经观察到基于机器学习的预测化学的影响,并且化学家的采用正在增加。随着研究人员和预测模型用户之间的协作不断增强,预计在开发更好的模型以及提高化学家工作流程的生产率方面将取得更大的进步。
开发了许多当前的CASP工具,以使用可靠的可重复化学方法设计合成路线。这些工具的目的不是仅建议经验丰富的化学家无法识别的转化。相反,特别是对于当前基于ML的CASP工具,其目的是使化学家们减轻合成设计的认知负担。随着用于合成设计的机器学习模型的不断开发以及化学家对使用CASP减轻工作量的接受程度的提高,工具将得到改进,以适应化学不同领域的需求并应对合成的挑战。