今天给大家介绍我们湖南大学DrugAI课题组发表在Briefings in Bioinformatics上发表的一篇综述。这篇综述从“单一神经网络、多任务学习、迁移学习和混合模型”这4个方面,介绍了近年来深度学习如何从生物医学文献文中挖掘命名实体以及相关数据集。作者挑选了几个有代表性的方法,在6个常用的数据集上进行了实验比较。结果发现,深度学习的方法要普遍优于传统方法,并且不同的方法和数据集之间也有较大的差异。最后,作者总结了生物医学命名实体(BioNER)存在的一些挑战和未来的发展。
1
介绍
随着生物医学的广泛发展,人们获取电子生物医学文献越来越方便。尤其是在新冠肺炎疫情爆发之后,生物医学类的文献增长更为迅速。如此大的增长量,导致专业人员很难从中获取自己所需要的信息,因此如何从大量的生物医学文献中挖掘出有用的信息就显得十分重要。为了解决生物医学文献增长如此迅速的问题,研究者提出了许多文本挖掘任务,而生物医学命名实体识别(BioNER)就是其中一项最基础的任务。它的目的是从大量的非结构化医学文本中找出基因、疾病、蛋白质等相应的医学实体边界,然后再经过标准化映射到受控词汇表中,从而方便进行文献挖掘的下游任务。
相较于普通领域的命名实体识别,生物医学实体(BioNEs)通常由很长的词汇组成,例如:“遗传性非息肉性结直肠癌综合征”。而且一个实体有多个变体名称,如:“Zolmitriptan, Zomig and Zomigon”,这三个名词都是表示同一实体。除此之外,生物医学实体通常由数字和字母缩写组成,有时相同的字母可能表示不同的意思。因此,BioNER比普通领域NER要困难的多。而深度学习有一系列强大的特征提取器,可以有效地捕捉原始数据中包含的特征和规则。因此逐渐成为BioNER的主流方法。
在这篇文章中我们按照模型使用的数量和结合方式,从基于单一神经网络、基于多任务、基于迁移学习和基于混合模型的方法这4个方面对现有的生物医学实体命名识别进行了综述。旨在帮助不同的研究者,从多个方面系统地了解生物医学命名实体识别。此外我们还总结了生物医学命名实体识别常用的数据集和其来源,方便研究者快速地获取所需要的数据集。接着我们从这些常用的BioNER模型中选出了几个具有代表性的方法进行了性能比较,并分析了比较结果。最后对文章提到的方法进行了分析总结,概述了Bio-NER面临的一些挑战和机遇。
2
深度学习BioNER结构
从生物医学文本中识别相应实体大致分为三个步骤:(i)准备合适的数据集(ii)提取实体特征和(iii)候选实体的分类(图1)。
数据集的大小和质量严重影响着最终的识别效果。深度学习需要大量的高质量的已标注的数据集,并从这些数据集中进行端到端的自主学习。黄金标准的数据集具有较少的噪声,但其数量通常较少。白银标准的数据集数量较大,但通常噪声也很多。因此如何充分地选择和利用数据集是BioNER任务的关键步骤。
深度学习通常不需要人工标记的特征,它们自主地从数据集学习有用的特征。用于自然语言处理的深层神经网络。深度学习的方法是将文本转换成embedding信息,然后从这些信息中提取有用的特征用于生物医学实体识别。提取特征的方式以及特征的组合影响着最后的结果,因此深度学习模型特征提取是BioNER最重要的一步。
当神经网络自动提取到数据实体特征后,需要根据学到的特征判断是否是实体,这个实体应该属于哪一类别哪一部分。而BioNER的最终目的是找到实体的边界,因此我们需要用一个特定的规则,结合神经网络学习到的特征对文本中的每个词做出判断,进而找出最终的生物医学实体。这个分类的过程可以是机器学习的方法,也可以是神经网络模型。
图1 BioNER的大致步骤
3
深度学习的方法
我们根据模型的数量与结合方式,把这些方法分成4个类别,分别是:基于神经网络、基于多任务、基于迁移学习、基于混合模型的方法。表1总结了现有的BioNER方法,并评估了这些方法的可用性。
单一神经网络模型是只用神经网络模型识别指定任务的BioNEs的方法。该方法只使用深度学习模型从词嵌入和字符嵌入中学习相应的实体特征表示。由于这种模型只需要使用神经网络,且只针对一个任务,实现起来比较简单,因此是近年来使用最多的方法。目前最常用的神经网络模型主要是卷积神经网络(CNN)和长短时记忆网络(LSTM)。有时候这两个模型会结合其他神经网络模型或者在它们的基础上进行微调改进以获得更好的BioNER性能。
多任务学习是一种归纳学习的方法。它同时在多个任务上训练不同的模型,然后共享不同任务模型之间的参数,例如使用多个BiLSTM同时识别细菌实体和基因实体,使得bacteria NER和gene NER性能都有提高。与神经网络模型不同的是,多任务学习结合了不同的任务,使用了更多的数据信息,因此近年来BioNER更倾向于使用MTL代替神经网络模型。
迁移学习是将某个领域或任务上学习到的知识或模式应用到其他相关的领域或问题中的方法。迁移学习通常在源域上训练模型,然后将学到的特征,参数等迁移到目标领域并微调。与多任务学习相比,迁移学习在源领域和目标领域学习的过程是依次进行的,当源数据发生改变时,目标数据也能做出适当调整,适用于数据变化的情况。
混合模型是神经网络模型、多任务学习、迁移学习和传统BioNER方法其中的两种或多种组合而成的一种模型。与前几个方法不同,混合模型是针对同一任务使用不同的模型,并将这些模型线性结合起来,提高单一任务的性能。在混合模型中,通常使用传统的方法预先处理部分数据,然后神经网络模型从预先处理的这部分数据中学习相应的特征。这种方法能预先处理大量的低质量数据,因此被经常用在弱监督或无监督的学习中。
4
数据集
我们收集了以前工作中提到的可用于BioNER的所有数据集。它们的具体信息以及来源如表2所示。
5
结果
在这篇文章中我们评估和比较了CRF、GRAM-CNN、Layered-BiLSTM-CRF、MTM-CW和BioBERT模型在数据集JNLPBA、BC2GM、NCBI disease、BC5CDR、BC4CHEMD、LINNAEUS这6数据集上的性能。同时分析了导致这些结果的可能原因与改进后可能得到的结果。实验结果如表3所示:
一般来说,这几个模型在这6个数据集上都表现良好,但同一模型在不同的数据集上仍然存在很大的差异。模型在JNLPBA和LINNAEUS数据集上的表现明显不如其他4个数据集。GRAM-CNN和MTM-CW在BC5CDR数据集上的F1-sorce是最高的,其次是BC4CHEMD,它在JNLPBA数据集上的性能最低。而BioBERT在BC4CHEMD数据集上的F1是最高的。这三个模型在BC5CDR和BC4CHEMD两个数据集上的实验结果相差不大。Layered-BiLSTM-CRF在BC4CHEMD数据集上的F1-sorce最高。
对于相同的数据集,BioBERT模型性能基本优于MTM-CW。MTM-CW模型的性能始终优于GRAM-CNN和Layered-BiLSTM-CRF模型,而GRAM-CNN的性能又高于Layered-BiLSTM-CRF。总的来说深度学习模型效果基本优于CRF模型。
6
挑战与展望
虽然实验证明了这些方法在BioNER任务中的有效性。但目前仍然存在许多问题需要解决。
(1)目前相同类型的BioNER的数据集很多,但这些数据集之间的标注标注存在很大差异,因此需要制定统一的数据集标注标准。(2)此外,深度学习需要大量的注释的训练数据,而且训练数据的数量与质量与最后的实验效果密切相关。因此需要构建大规模高质量语料库。(3)生物医学文献的增长也为我们提供了大量的无标签数据信息,这些无标签的数据同样含有丰富的信息。因此在未来可以考虑元学习策略,将这些已标记和未标记的数据充分利用起来,使得实验模型不再受样本数量的限制。(4)BioNER是近几年才逐渐发展起来的NER任务的一个子领域,与NER有着异曲同工之妙,但它的方法还远不如NER方法成熟。因此迁移其他领域的知识或方法也是未来的可行方案之一。