Selective UMLS knowledge infusion for biomedical question answering
Selective UMLS knowledge infusion for biomedical question answering | Scientific Reports
韩国首尔国立大学研究生院生物工程跨学科项目
问题
如何高效地将生物医学知识注入预训练语言模型,以提升生物医学问答任务的性能,同时解决知识图谱语义注入时面临的计算成本和时间消耗问题,以及模型对生物医学概念和关系理解不够深入的问题。
挑战
- 计算资源消耗:将大规模知识图谱的所有语义转移到整个模型中需要大量参数,导致计算成本和时间增加。
- 模型理解能力有限:预训练语言模型在学习过程中未充分利用实体语义或实体间关系等知识上下文,难以理解生物医学领域中概念之间的关系,例如对否定含义的理解不足,过于依赖实体名称的表面形式。
- 数据不平衡:生物医学问答数据集(如 BioASQ7b 和 PubMedQA)存在类别不平衡问题,这使得评估指标的选择和模型性能的准确评估变得复杂。
- 知识注入与微调任务差异:知识注入的预训练任务(如实体预测)和微调任务(如 yes/no/maybe 或多选分类)之间的差异,导致难以深入理解模型的预测过程,模型解释性不足。
创新点
- 选择性知识注入策略:通过适配器将统一医学语言系统(UMLS)知识有选择地注入预训练语言模型,提出了基于语义分组(SG)和语义类型集合(SC)的分区策略,与传统的基于边数的 METIS 分区方法不同,更注重语义类型和关系分布,提高了知识注入的效率。
- 灵活的分组处理方法:针对语义分区后组大小不平衡的问题,实验了合并或丢弃不频繁组(基于概念唯一标识符 CUI 数量)的方法,并发现对于小数据集(如 BioASQ7b、PubMedQA 和采样的 MedQA),丢弃不频繁组效果更好;对于大数据集(如 MedQA),合并不频繁组更优,这为不同规模数据集的知识注入提供了适应性策略。
- 适配器融合机制改进:在微调阶段使用 AdapterFusion 组件,根据问题和给定段落激活相关适配器,通过注意力机制动态整合不同适配器的知识,使模型能更好地适应不同问题对知识的需求,提升了模型性能。
贡献
- 提出新方法:引入一种更高效地将 UMLS 知识注入预训练语言模型的方法,用于生物医学问答任务,并详细阐述了该方法在不同数据集上的表现和优势。
- 改进实验设置:重新实现了基准方法 MoP,并在实验设置上进行了改进,如增加训练轮数、使用固定随机种子、调整学习率和批量大小等,使实验结果更具可靠性和可重复性。
- 深入分析研究:对模型在不同数据集上的性能进行了全面评估,包括准确率、宏精确率、宏召回率和宏 F1 分数等指标;通过案例研究分析了模型错误答案的原因,揭示了模型在处理否定表达和不同语义表达相同含义时的弱点;探讨了语义组适配器对模型性能的影响,以及不同问题类型对适配器注意力权重的差异。
提出的方法
-
总体训练方案
- 基于预训练的 PubMedBERT 模型,为其每个 Transformer 层添加适配器(遵循 Pfeiffer 配置)。适配器通过将特征下投影到较小维度、应用非线性变换后再上投影回原始维度来工作。
- 在预训练阶段,使用实体预测任务对每个分区子组上的适配器进行预训练,即给定头实体和关系预测尾实体,同时冻结 PubMedBERT 权重,仅学习适配器和预测头的权重。
- 在微调阶段,通过 AdapterFusion 组件整合适配器,根据问题和段落激活相关适配器,使模型能够动态选择和利用不同适配器中的知识,此时更新整个模型(包括适配器、PubMedBERT 和预测头)的参数,以适应生物医学问答任务。
-
基线方法(MoP)
- 利用 METIS 软件包根据知识图谱顶点间的边数对 UMLS 知识图谱进行分区,生成两个版本的分区组:Sfull - METIS - 20(使用所有 229 种关系)和 S20Rel - METIS - 20(仅使用最频繁的 20 种关系),默认设置为 20 个分区组。
-
语义分区方法
- 语义分组(SG):将 UMLS 的语义类型分组为 15 个更高层次的类别,基于语义有效性、简约性、完整性、排他性、自然性和效用性等原则。根据实体的概念唯一标识符(CUI)和语义类型标识符(TUI)将实体匹配到 SG 组,然后根据 CUI 数量对组进行处理,包括使用所有组、合并或丢弃不频繁组(基于不同阈值,如 1000 或组内平均 CUI 数量)。
- 语义类型集合(SC):将具有相同关系集的语义类型分组,共 28 个组。通过手动匹配将实体的 TUI 与 SC 组名对应,根据 CUI 数量对不频繁组进行删除或与父组合并(基于不同阈值)。【这里的语义是词语本身的分类,比如:人、药。关系是词语之间的联系,如:影响、治疗。】
指标
- BioASQ7b 和 PubMedQA 数据集:由于是 yes/no 和 yes/no/maybe 分类任务,评估指标包括准确率、宏精确率、宏召回率和宏 F1 分数,其中宏 F1 分数在数据集不平衡时更可靠。
- MedQA 数据集:用于多选分类任务,评估指标为准确率。
模型结构
基于 Transformer 架构的 PubMedBERT 模型,在每个 Transformer 层中添加适配器结构。适配器包含下投影、非线性变换和上投影操作,用于在不改变原始模型权重太多的情况下注入知识。在预训练阶段,适配器通过实体预测任务学习知识;在微调阶段,通过 AdapterFusion 组件根据输入的问题和段落,利用注意力机制动态融合不同适配器的知识,以生成最终的问答预测。
结论
- 使用语义分区组预训练适配器在评估指标、所需参数和时间方面比 METIS 组更高效。
- 对于小的微调数据集(BioASQ7b、PubMedQA 和小样本 MedQA),丢弃不频繁组比合并更好;对于大数据集 MedQA,合并不频繁组更优。
- 适配器方法对组的构成不太敏感,即语义分组方式对指标得分影响较小,但对计算参数和时间有显著影响,表明在将大知识图谱注入适配器时,无需使用整个图谱,合理分组可提高效率。
剩余挑战和未来工作
-
数据相关挑战
- 训练数据量小时(如 BioASQ7b、PubMedQA 等),合并不频繁组可能导致语义混淆,而丢弃不频繁组可能使模型无法回答相关问题;对于数据量大但语义混合的 MedQA 数据集,虽合并不频繁组效果较好,但仍需更多针对大规模生物医学问答数据集的研究。
-
模型可解释性问题
- 知识注入预训练任务(实体预测)与微调任务(分类)的差异,导致难以理解模型预测过程,未来可使用 BioASQ 事实性或列表问题(答案为实体)或生成理想答案(相关片段摘要)来提高模型解释性,还可超越分类任务,探索如何通过适配器理解模型预测。
-
知识增强方向
- 进一步研究选择具有相关知识的适配器来增强模型,以提升生物医学问答系统在实际应用中的性能,例如更准确地在文档中查找答案和生成高质量答案。
抽象的
知识密集型问答是生物医学领域的人工智能应用之一。由于领域专业知识在这一领域尤为重要,我们提出了一种将生物医学知识有效地注入预训练语言模型的方法,最终目标是生物医学问答。将大型知识图谱的所有语义转移到整个模型中需要太多参数,增加了计算成本和时间。我们研究了一种利用适配器将统一医学语言系统知识注入预训练语言模型的有效方法,并质疑是否需要使用知识图谱中的所有语义。本研究重点研究了对知识图谱进行分区以及丢弃或合并一些知识以实现更高效的预训练的策略。根据三个生物医学问答微调数据集的结果,在语义分区组上预训练的适配器在评估指标、所需参数和时间方面表现出更高效的性能。结果还表明,对于小数据集,丢弃概念较少的组是更好的方向,而对于大数据集,合并这些组更好。此外,度量结果显示出略微的改善,表明适配器方法对群体公式不太敏感。
随着人工智能在所有领域的使用增加,医疗领域正在引入许多应用系统。医学中的应用之一是问答(QA),用于寻求诊断或治疗的临床证据的医生,或用于普通公众查找有关其健康状况的信息 1。QA 是一项不仅需要理解上下文,还需要了解主题的任务。特别是,生物医学 QA 需要准确性和专业知识,因为它与患者安全问题密切相关 2。使用知识库的生物医学 QA 研究已经得到发展,但仍有改进的空间 1。在这项研究中,我们介绍了一种方法,将统一医学语言系统(UMLS)知识更有效地注入到生物医学 QA 的预训练语言模型中,并讨论其效果。
预训练的语言模型应充分利用其获得的上下文信息来处理知识密集型任务,例如 QA、事实检查和对话任务 3。生物医学领域与任何其他领域一样,需要相关知识来解决问题。为了回答生物医学问题,了解 “通气不足(概念)、原因(关系)、呼吸性酸中毒(概念)” 等概念之间的关系是很重要的。预训练的语言模型使用自我注意机制在上下文中学习信息,但它们没有利用实体语义学或实体之间的关系等知识上下文 4。最近的研究表明,使用蒙面语言建模训练的模型很难捕捉丰富的事实知识 5。BERT 过度依赖实体名称的表面形式 6,并且大多没有学习否定的含义 7。由于我们的目标是生物医学 QA,因此语言模型不应该仅仅依赖生物医学概念或关系的表面形式。
知识库有助于通过将节点识别为概念和边识别为关系来提取语义知识 8。利用知识库显着提高了知识密集型任务的性能 4。通用领域的知识库包括 ConceptNet9、WordNet10 和机器通用图集 11。UMLS 是生物医学领域著名的知识库之一 12。
一些研究已经检查了将知识注入大型预训练语言模型,如 BERT13、RoBERTa14 等。大多数模型与蒙面语言建模和知识注入目标 15-21 联合预训练。由于预训练在计算成本和时间方面很昂贵,一些研究只通过结构修改微调了他们的模型,例如合并知识层 22 或使用选择性注意机制 4。另一种方法,参数高效的预训练和微调可以利用多个适配器来注入各种类型的知识。K-Adapter 模型 5 是具有两个适配器的 RoBERTa:一个使用关系分类任务预训练的事实适配器和一个使用依赖关系预测预训练的语言适配器。mixture-of-partition(MoP)方法 23 将 UMLS 知识库划分为子图,并为每组预训练连接到生物医学 BERT 的适配器。然后可以集成预训练的适配器以进行微调。
本研究探讨了将知识注入适配器时需要使用知识图谱中的所有语义学。我们的工作是 MoP 方法的扩展,但在分组大型 UMLS 知识库和选择子组以进行更有效的预训练的策略上有所不同,如图 1 所示。原始 MoP 使用 METIS 软件包 24 根据顶点之间的边数来划分知识图谱,从而产生大小相似的组。相比之下,我们利用语义组(SG)和语义类型集合(SC)根据语义类型的关系来组织组。由于组大小不成比例,我们尝试了选择子组的方法。在 BioASQ7b25、PubMedQA26 和 MedQA27 这三个生物医学 QA 数据集中,在语义分区组上预训练的适配器表现出更有效的性能。对于小型微调数据集,如 BioASQ7b,PubMedQA 和采样的 MedQA,最好丢弃具有少量概念唯一标识符(CUI)的组,而对于 MedQA 这样的大型数据集,最好合并这些组。由于特定领域的 QA 数据集相对较小,因此删除具有较少概念的组似乎是一种有效的方法,而不会显着影响度量分数。在一般领域的情况下,QA 数据集和知识图更大,需要更多的研究来合并概念较少的组而不是丢弃它们,以实现高效的训练。此外,自动分区 METIS 算法和语义分区合并或丢弃概念较少的组显示出相似的性能,而没有统计上的显着差异。这反而表明方适法论对组公式相当不敏感。换句话说,当将来自 UMLS 的知识注入适配器时,图如何分组对度量的影响很小,但它减少了计算参数和时间。由于大多数概念较少的组与 QA 数据集的相关性较低,合并或删除它们减少了模型必须引用的组的数量。
方法
整体训练方案。变压器适配器 28,29 是一种轻量级微调方法,只需要用少量的模型参数进行训练。使用的 PubMedBERT30 模型有 12 个变压器层,每个变压器层都有一个额外的适配器部分,如图 2 预训练阶段所示。变压器适配器可以有各种定制选项,如可学习权重、剩余连接和瓶颈大小的放置 31。
我们的模型基于具有多个适配器的预训练 PubMedBERT30,每个适配器都遵循 Pfeiffer 配置 31,如图 2 所示。适配器向下投射特征到更小的维度,应用非线性,然后向上投射到原始维度。为了注入知识,每个适配器使用实体预测任务在每个分区子组上进行预训练;预测尾部实体,给定头部实体和关系。在预训练期间,PubMedBERT 权重被冻结,只有适配器和预测头部权重与实体预测任务一起学习。然后将注入的知识适配器用于微调 QA 任务。在微调时,AdapterFusion29 通过激活与问题和给定段落相关的适配器来集成适配器。如图 2 所示,查询向量是前馈层的输出,键和值向量是适配器的输出。类似于注意力机制,如果查询和关键向量相似,这些向量的点积会更高,导致更高的注意力分数。注意力分数是值向量的权重,权重越高表明适配器越活跃。在本研究中,我们研究了使用整个 UMLS 知识图谱和更有效知识注入的组制定方法的必要性。
基线方法。UMLS 三元组包含头实体、关系和尾实体。要生成三元组,请从 MRCONSO. RRF 文件中获取概念唯一标识符(CUI)和概念字符串(STR),并获取关系(RELA)来自 MRREL. RRF 文件的两个 CUI 之间。【知识图谱构建方法】当时获得最佳性能的基线 MoP 方法 23 使用 METIS 对 SNOMED CT(美国版 2020AA)的 UMLS 知识图谱进行分区。METIS 算法考虑顶点之间的边数,不考虑关系。应用了三个阶段:粗化、初始分区和取消粗化。我们在实验设置中重新实现了 MoP,以获得两个版本的分区组:Sful-METIS-20 和 S20Rel-METIS-20。Sful-METIS-20 使用所有 229 个关系,而 S20Rel-METIS-20 仅使用前 20 个最频繁的关系。由于之前的工作 23 使用 5、10、20、40 和 60 个分区组的知识图谱进行测试,有 20 个组的知识图谱表现出最佳性能,我们将 20 个组设置为两个实验的默认设置。
图 1. 划分、选择组和预训练适配器的概述。对 UMLS 知识图谱进行划分和选择组的策略产生了 K 个子组。SG 表示语义组,SC 表示语义类型集合,划分标准在括号中。每个组的知识由实体预测任务注入到每个适配器中。
图 2. 预训练和微调阶段的概述。预训练任务是预测尾部实体,给定一个头部实体和一个关系作为输入。在预训练期间,PubMedBERT 权重是固定的,只学习适配器和预测头部权重。所有参数在 QA 微调阶段更新,并给定问题和段落作为输入,模型预测答案(是 / 否 / 可能)。在微调时,AdapterFusion 组件将适配器与子组的知识集成在一起。
语义划分方法。UMLS 提供了一个由 133 种语义类型组成的语义网络 32,这些语义类型是广泛的实体类别和 54 种语义关系。由于 133 种语义类型仍然难以理解知识,一些研究试图创建更小、更粗糙的组 33-36。我们使用了 UMLS 的两个语义划分组:语义组(SG)36 和语义类型集合(SC)34。SG 是将语义类型分组为 15 个更高级别类别的结果。SG 的六项分组原则是语义有效性(组内的语义一致性)、简约性(最小化组的数量)、完整性(涵盖整个领域)、排他性(每个概念必须只在一个组中)、自然性(领域专家可以接受)和效用(对特定目的有用)36。SC 共有 28 个组,将具有完全相同关系集的语义类型分组,换句话说,将结构相同且语义接近的语义类型分组 34。
【54种语义,两种划分方法,SG,15种,更高级别;SC:28种,关系集相同的语义类型在一组】
由于 Sful 由从 UMLS 生成的三元组(实体 1 - 关系 - 实体 2)组成,我们必须将实体与 SG 和 SC 组进行匹配。首先,从 UMLS MRCONSO. RRF 文件中获取每个实体的 CUI,从语义网络的 MRSTY.RRF 文件中匹配每个 CUI 的类型唯一标识符(TUI),并从 SRDEF 文件中获取 TUI 的完整语义类型名称。结果,以下所有信息都与三元组匹配:实体 1、关系、实体 2、CUI 1(实体 1 的 CUI)、CUI 2(实体 2 的 CUI)、TUI 1(CUI 1 的 TUI)、TUI 2(CUI 2 的 TUI)。然后,使用 UMLS SemGroups.txt 文件将 SG 组名称与 TUI 匹配。对于每个 SC,我们通过参考论文 34 手动将 SC 组名称与相应的 TUI 匹配。图 3 说明了每组 CUI 数量的分布。使用 METIS 算法,20 个组在 CUI 上的分布相对均匀,而由于语义划分,SG 和 SC 在组之间的 CUI 数量上表现出很大的不平衡。
因此,我们尝试合并或丢弃子组,因为语义分区的组大小高度不平衡。在 SG 中,组内 CUI 的最小数量为 18,最大值为 140,058,平均值为 20,155。在 SC 中,组内 CUI 的最小数量为 15,最大值为 63,842,平均值为 10,797。本文中不常见的组是 CUI 少于阈值的组。该阈值设置在两种情况下。首先,在进行实验以训练具有各种数据数量的适配器时,通常使用 1000 作为最小数字 37,38,因此阈值设置为 1000,并且小于 1000 CUI 的组被合并或删除。在第二种情况下,阈值是组之间 CUI 的平均数量,SG 设置为 20,155,SC 设置为 10,797。对于 SG,根据组中 CUI 的数量简单地合并或删除不经常组。Sful-SG-15 使用所有 15 个组,Sful-SG-11 合并 CUI 少于 1000 个的组,Sful-SG-10 删除这些组。Sful-SG-5 合并 CUI 少于 CUI 平均值的组(20,155 个),Sful-SG-4 消除这些组。对于 SC,根据论文 34 中的 SC 层次结构,不经常组要么被删除,要么与其父组合并。Sful-SC-28 使用所有 28 个组,Sful-SC-20 和 Sful-SC-16 处理 CUI 少于 1000 个的组,而 Sful-SC-12 和 Sful-SC-7 处理 CUI 少于平均值的组(10,797 个)。补充图 S1 显示了用于每个知识图的 CUI 的百分比。Sful-METIS-20、Sful-SG-15、Sful-SC-28 共 302,332 个 CUI,非频繁组合并案例 Sful-SG-11、Sful-SG-5、Sful-SC-20、Sful-SC-12 也有 302,332 个 CUI,对于非频繁组丢弃的案例,Sful-SG-10 有 301,517 个 CUI(99.73%),Sful-SG-4 包含 282,913 个 CUI(93.58%),Sful-SC-16 包含 297,996 个 CUI(98.56%),Sful-SC-7 有 255,085 个 CUI(84.37%)。
在划分和选择组之后,下一步是预训练适配器。为了注入知识,每个适配器通过使用三元组的实体预测任务在每个分区的子组上进行预训练;给定一个头实体(CUI)和一个关系,预测一个尾实体(CUI)。在预训练期间,PubMedBERT 权重被冻结,只学习适配器和预测头权重。然后将知识注入的适配器用于微调 QA 任务。
微调阶段。将知识注入适配器后,通过更新包括适配器、PubMedBERT 和预测头在内的所有模型参数,对整个模型在生物医学 QA 数据集上进行微调。BioASQ7b 数据集有四种类型的问题:factoid、yes/no、摘要和列表。与之前的工作 23 一样,我们只使用了 885 个是 / 否问题,例如 “Baloxavir 对流感有效吗?”。PubMed 摘要中的每个问题和句子都带有答案注释(是 / 否)。PubMedQA 标记的数据集有 1000 个由文章标题、不包括结论的摘要以及是 / 否 / 可能答案生成的问题实例。由于 BioASQ7b 和 PubMedQA 数据集很小,我们运行了 10 次微调实验并对结果进行了平均。MedQA 数据集有 12,723 个问题,其中包含从专业医学委员会考试中生成的多项选择题答案。表 1 列出了数据集的详细信息。
原始 MoP 和重新实现 MoP 之间的微调有几个区别。由于 QA 数据集中的类不平衡,f1 分数比准确性更可靠。虽然原始 MoP 仅基于准确性进行测试,但我们也使用宏精度、宏召回和宏 f1 分数进行评估。微调后,应使用最佳训练步骤的模型进行评估。原始 MoP 以准确性为标准,但对于本实验,我们选择了 f1 分数最高的模型。原始和重新实现 MoP 之间的统计比较如补充表 S1 所示。对于 BioASQ7b 数据集,我们的重新实现精度在统计上高于原始精度。对于 PubMedQA 数据集,我们的重新实现精度与原始精度之间没有统计上的显著差异。
实验设置。所有实验都使用两个 3090 RTX GPU 进行。原始 MoP 使用随机种子对适配器进行了一两个时期的预训练,而我们对模型进行了十个时期的预训练,并使用了 42 个固定种子,结果略有不同。在预训练期间,学习率为 1e−4,批量大小为 256,使用 AdamW 优化器,权重衰减为 0.01。在微调期间,学习率为 1e−5,批量大小为 8,总纪元为 25,模型使用提前停止,耐心为 5。与 MedQA 微调的唯一区别是数据集大小很大;因此,批量大小设置为 2。此外,BioASQ7b 和 PubMedQA 实验使用由十个固定种子(42、64、128、256、512、1024、2048、4096、8192、16,384)组成的种子列表重复十次,而原始 MoP 使用具有十个随机种子的种子列表。由于 MedQA 是一个大型数据集,我们只使用固定种子 42 进行了一次重现性实验。实体预测任务的预训练目标是交叉熵损失,生物医学 QA 任务的微调目标是交叉熵损失。
结果
度量评估。由于 BioASQ7b 和 PubMedQA 分别提供是 / 否和是 / 否 / 可能分类任务,评估指标包括准确性、宏精度、宏召回和宏 f1 分数。此外,由于两个数据集都不平衡,宏 f1 分数更可靠。对于 MedQA,准确性用于多项选择分类。与之前的研究相反,当适配器被预训练十个时期时,Sful 知识图谱在所有数据集中显示出比 S20Rel 更高的分数。在 BioASQ7b 和 PubMedQA 数据集中,当适配器被语义组而不是 METIS 组预训练时,性能通常会提高,并且所需的参数和时间减少。对于 MedQA 数据集,当使用语义组时,与 METIS 组相比,使用减少的参数和及时地完成了有效的训练,但性能是可比的。
表 2 显示了 BioASQ7b 数据集的微调结果,对于该数据集,适配器名称的格式使用图 - 分区方法 - 组数。如果仅对 PubMedBERT 进行微调,则宏 - f1 分数为 0.8493,在使用没有知识灌输的适配器时为 0.8719,在使用与整个 METIS 组预训练的适配器时为 0.8921。最好的 SG 预训练适配器是 Sful-SG-4,在减少参数和学习时间的同时,其性能略好于 Sful-METIS-20。使用 SC 预训练的最好的适配器是 Sful-SC-12,其宏 - f1 分数低于 Sful-METIS-20,但减少了所需的参数和时间。在大多数情况下,根据每组 CUI 的数量删除组比合并更好。
表 3 显示了使用 PubMedQA 数据集的结果。根据宏 f1 评分,使用 SG 和 SC 优于使用 METIS,但没有统计学上的显著性差异。仅微调 PubMedBERT 导致宏 f1 评分为 0.4336,在没有知识注入的情况下使用适配器时为 0.4394,使用与完整 METIS 组预训练的适配器为 0.4402。最好的适配器是 Sful-SG-10 和 SfullSC-16,它们丢弃了小于 1000 个 CUI 的组。同样,对于 CUI 平均频率下的组,消除方法比合并表现更好。对于 PubMedQA,利用语义组导致更高的宏 f1 分数和更少的参数和训练时间。
由于 BioASQ7b 和 PubMedQA 的结果表明,SG 显示出比 SC 更好的性能,只有 SG 与 MedQA 数据集一起使用;表 4 显示了获得的结果。与仅微调 PubMedBERT 和使用没有知识灌输的适配器相比,使用适配器显着提高了性能。Sful-METIS-20 和 Sful-SG-5 适配器的准确性并列最佳得分,但使用 SG 显着减少了参数和时间。与其他数据集的趋势略有不同,不频繁组合并方法优于丢弃方法。由于 MedQA 的数据比 BioASQ7b 或 PubMedQA 都多,这意味着有更多的问题需要更多样的知识,因此合并所有知识可能会更好,即使含义可能是混合的。为了支持这一点,我们进一步实验了从 MedQA 训练数据中随机采样的 509 个实例,因为 BioASQ 中有 670 个样本,PubMedQA 中有 450 个实例。结果表明,最佳适配器是 Sful-SG-4,删除了不常见的组,如表 5 所示。这表明对于小数据集,最好删除不常见的组,对于大数据集,最好合并它们。此外,对于大多数数据集中的指标,我们的语义分区组模型显示出比 METIS 组略好的改进,但没有统计上的显著差异。与没有适配器的 PubMedBERT 相比,Sful-METIS-20、S20Rel-METIS-20、SFul-SG-4 和 SFul-SC-12 在 BioASQ7b 上有统计上的显著差异,只有 Sful-SG-10 在
这个结果断言 UMLS 注入到适配器中,尽管语义分组对度量几乎没有影响,但它确实在计算参数和时间方面显示出很多好处。
讨论
语义组适配器的影响。由于划分的组基于语义学,我们对每个适配器的性能进行了实验,以检查每个组的贡献。补充图 S2 显示了 Sful-SG-4 和 Sful-SG-10 中每个适配器的宏 f1 分数,Sful-SG-4 在 BioASQ7b 测试数据集上表现最好,Sful-SG-10 在 PubMedQA 测试数据集上取得了最高的性能。Sful-SG-4 有四个适配器:化学品和药物、解剖学、疾病和程序。化学品和药物组包括与化学(蛋白质、酶等)、临床药物和药理学物质相关的实体。解剖组包含解剖结构(身体、器官、组织、细胞等)和身体物质(细胞外物质)。疾病组包括异常、疾病、症状、发现和功能障碍的实体。在程序组中,有与诊断、检查、治疗、基因研究等的程序、方法或技术相关的实体,研究活动,以及患者护理等医疗保健活动。如补充图 S2 所示,程序组贡献最多,障碍组最少。由于 BioASQ7b 中的大多数是 / 否问题不会询问一个实体,而是询问特定治疗如何影响疾病,因此包括程序、方法、技术和研究内容的程序语义组可能影响最大。在 PubMedQA 的情况下,生理组贡献最多,障碍组最少。生理组包括细胞、基因、分子、生物体、器官和组织的生理功能、临床和组织属性以及心理过程。对于 Sful-SG-10,去除的组是地理区域组、职业组、组织组、基因和分子序列组以及活动和行为组。由于这些组中的大多数与 BioASQ7b 和 PubMedQA 的相关性较小,因此去除它们将产生更有效的训练。然而,根据概念的数量去除基因和分子序列组是一个值得关注的问题,因此需要进一步研究使用其他知识图(如 GenomicKB39)来增强组。
要根据输入问题找出哪些适配器贡献更多,在补充表 S2 中有一些例子。适配器融合的注意力权重是哪个适配器集中的分数。问题 1 是关于阿尔茨海默病候选药物 Semagacestat 的效果,问题 2 询问了胰腺癌的小分子酪氨酸激酶抑制剂 Axitinib,因此可以看出临床和药物适配器和障碍适配器的权重相对高于其他问题。由于问题 3 询问了外泌体标记,它是体内的细胞外物质,问题 4 是关于胰腺星状细胞的激活剂,两者对解剖学适配器的权重都高于其他问题。问题 5 询问米勒 - 迪克尔综合征与 1 号染色体异常的关联,问题 6 询问鼻窦炎的并发症,因此具有异常和疾病信息的障碍组的注意力权重更高。最后,查看程序组中注意力权重高的问题,问题 7 是关于听觉功能的基因治疗,问题 8 询问 FDA 批准即活动。因此,可以观察到每个问题需要不同的知识,为了回答这个问题,来自适当语义组适配器的知识应该通过不同的注意力权重来整合。
案例研究(不正确的答案)。对于 140 BioASQ 测试数据集,当所有组都在不合并或丢弃的情况下使用时,所有使用 Sful-METIS、Sful-SG-15 和 Sful-SC-28 的模型在三个案例中都是错误的。否定表达式未被识别或具有相同含义的不同表达式,如 “不可用” 和 “还没有来” 未被识别为等效的。在只有 Sful-SG-15 错误的三个案例中,问题的给定段落很长,因此有可能模型没有抓住相关部分。此外,“Tocilizumab 是抗 TNF 抗体,是还是不是?” 问题的答案是 “否”,但模型似乎预测 “是”,因为这两个概念经常一起出现在段落中。Sful-SC-28 在两个案例中是错误的。“Lucatumumab 是否与 CD140 结合?” 问题的答案是 “否”,但文章说 Lucatumumab 与 CD40 结合,导致模型预测为 “是”,这可能表明理解数字的弱点。Sful-METIS-20 在五个案例中是错误的,即使答案在文章中很明显,也有一些案例的答案是不正确的。此外,如果问题提到 Gepotidacin,但文章有不同的名称,GSK2140944,则模型无法识别两者的含义相同。
综上所述,当使用 METIS 组时,即使文章中有明确的答案,也存在预测错误的情况,但语义分组的 SG 或 SC 没有这种情况。所有模型的弱点是它们容易受到否定表达式或相同含义的不同表达式的影响。如果有医学术语的同义词,可以通过将它们添加到知识图谱中来补充模型。
局限性。当使用少量数据进行训练时,例如 BioASQ7b,PubMedQA 和采样的 MedQA,合并不常见的组会混淆含义并混淆模型。另一方面,丢弃不常见的组可能会阻止模型回答与这些组相关的问题。与其他数据集的趋势略有不同,对于数据繁重的 MedQA,即使语义学混合,合并也是更好的方式。尽管丢弃方法对于医学应用来说是一个更好的方向,因为该领域的数据集通常很小,但需要对 MedQA 等大规模生物医学 QA 数据集进行更多研究。
知识注入预训练任务(实体预测)和微调任务(是 / 否 / 也许或多选分类)之间的差异使得很难深入理解模型是如何预测的。为了解释能力,使用 BioASQ factoid 或列出答案为实体的问题,或生成 BioASQ 的理想答案(相关片段的摘要)可以是进一步的研究方向。如果模型在给定文本中找到答案或生成答案,我们可以推断为什么模型做出了错误的预测,但简单地说
分类是 / 否 / 可能会导致解释力弱。由于适配器可用于任何基于变压器的模型,未来的研究可以超越分类任务来理解模型预测。
结论
预训练语言模型可以从知识注入的适配器中受益,本研究质疑使用整个 UMLS 知识图谱和组制定方法的必要性。我们比较了划分策略,其中 METIS 专注于边的数量,而 SG 和 SC 分别考虑关系的语义类型和分布。使用语义分区组预训练适配器在评估指标、所需参数和时间方面比 METIS 组表现出更有效的性能。丢弃不常见组的方法比在小型微调数据集中合并更可取:BioASQ7b、PubMedQA 和小样本 MedQA。相反,对于数据丰富的 MedQA,即使义语学混合,合并也是更好的方法。尽管大规模生物医学 QA 方法需要更多的研究,但丢弃方法是医学应用的更好方向,因为该领域的微调数据集通常很小。综上所述,为了有效地将大型知识图注入适配器,不需要使用整个知识图,组制定的方式对度量分数影响不大,但确实会影响计算参数和时间。适配器可以用于任何基于变压器的模型;因此,未来的研究可以改进其他 QA 类型,例如在文档中找到答案和生成答案。此外,更多地研究选择具有相关知识的适配器可能是增强模型的另一个方向。
数据可用性
本研究中使用的三个数据集已经公开可用。我们计划将在语义分区 UMLS 知识上预训练的适配器上传到 AdapterHub 以便于使用。
收到:2023 年 2 月 3 日;接受:2023 年 8 月 26 日
这篇文章提到的SC、SG分组方式挺有意思的,分别对应文献36、34
3. McCray, A. T., Burgun, A. & Bodenreider, O. Aggregating UMLS semantic types for reducing conceptual complexity. Stud. Health
Technol. Inf. 84(1), 216–220 (2001).
34. Chen, Z., Perl, Y., Halper, M., Geller, J. & Gu, H. Partitioning the UMLS semantic network. IEEE Trans. Inf. Technol. Biomed. 6(2),
102–108 (2002).
35. Geller, J., Perl, Y., Halper, M., Chen, Z. & Gu, H. Evaluation and application of a semantic network partition. IEEE Trans. Inf.
Technol. Biomed. 6(2), 109–115 (2002).
36. McCray, A. T., Burgun, A. & Bodenreider, O. Aggregating umls semantic types for reducing conceptual complexity. Stud. Health
Technol. Inf. 84(01), 216–220 (2001)