《Neural Architectures for Nested NER through Linearization》

《Neural Architectures for Nested NER through Linearization》
论文链接:Neural Architectures for Nested NER through Linearization
模型代码:Github

Abstract

  我们提出了两种用于嵌套命名实体识别(NER)的神经网络架构,在该架构的设置中命名实体可以重叠,也可以被多个标签标记。我们使用线性化方案编码嵌套的标签。在我们提出的第一种方法中,嵌套标签被建模为多标签,对应于标准LSTM-CRF结构中嵌套标签的笛卡尔积。在第二种方法中,嵌套命名实体识别被看作是一个Seq2Seq问题,在这个问题中,输入序列由Tokens组成,输出序列由标签组成,并对正在预测标签的单词使用硬注意力(Hard Attention)。在ACE-2004、ACE-2005、GENIA和Czech CNEC四个语料库上,我们所提出的方法优于当前嵌套命名实体识别的最先进技术。我们还通过最近发布的上下文嵌入技术(ELMo, BERT和Flair)来丰富我们的架构,并进一步改进了四个嵌套实体语料。此外,我们在CoNLL-2002荷兰语和西班牙语以及CoNLL-2003英语数据集上取得了常规命名实体识别的最优结果。

1 Introduction

  在嵌套命名实体识别中,实体可以重叠并可以被标记为多个标签,例如在"The Florida Supreme Court"中包含两个重叠的命名实体"The Florida Supreme Court"和"Florida"。
  最近发表的关于嵌套命名实体识别的文章涉及堆叠LSTM-CRF命名实体识别器(Ju et al., 2018),或者一个特殊结构的构造,该结构能够显式地捕获嵌套实体,如成分句法分析(Finkel and Manning, 2009)或者有向超图的各种变体(Lu and Roth, 2015; Katiyar and Cardie, 2018; Wang and Lu, 2018)。
  我们为嵌套命名实体识别提出了两种完全依赖神经网络的体系结构,它们不显式地构建或建模任何结构,而是隐式地推断嵌套实体之间的关系:

  • 在第一个模型中,我们将嵌套实体的多个标签连接成一个多标签,然后使用标准的LSTM-CRF (Lample et al., 2016)模型进行预测。该模型的优点是简单和有效,因为可以重用现有的命名实体识别技术来对嵌套实体进行建模。但有一个明显的缺点是命名实体的类别将指数级增长。
  • 在第二个模型中,嵌套实体被编码成一个序列,然后可以被视为一个Seq2Seq任务,其中输入序列是Tokens (forms),输出序列是标签。解码器预测每个Token的标签,直到一个特殊标签“<eow>”(单词结束)被预测,解码器移动到下一个Token。

  模型的表达性依赖于嵌套实体结构的非模糊编码。我们的编码方法使用4.1节中描述的增强 B I L O U BILOU BILOU方案。
  本文提出的模型在四个嵌套实体语料库(ACE-2004, ACE-2005, GENIA和Czech CNEC)上超过了当前嵌套命名实体识别的最先进水平。当最近提出的上下文嵌入技术(ELMo (Peters et al., 2018), BERT (Devlin et al., 2018) and Flair (Akbik et al., 2018))被加入到我们的模型中,我们对上面提到的嵌套实体语料库进行了进一步的改进,并超过了目前在CoNLL-2002荷兰语和西班牙语以及CoNLL-2003英语语料库上最先进的命名实体识别水平。

2 Related Work

  Finkel and Manning(2009)显式地将嵌套结构建模为一个句法成分树。
  只要预测到至少一个嵌套实体(从最内层到最外层实体),Ju et al., (2018)就运行堆叠LSTM-CRF命名实体识别器。
  Wang and Lu(2018)构建了一个超图来捕捉句子中所有可能的实体。
  Katiyar and Cardie(2018)将嵌套实体建模为有向超图,它类似于Lu and Roth(2015)使用RNN对边缘概率进行建模。
  我们提出的体系结构与这些工作不同,因为它没有显式地构建任何结构来建模嵌套实体。在我们的方法中,嵌套实体结构被编码成标签序列,人工神经网络隐式地对命名实体之间的结构关系进行建模。
  (Liu and Zhang, 2017)使用了一种类似于我们方法的Seq2Seq结构来预测成分的层次,以便为 Shift-reduce Constituency Parser提取前向特征。

3 Datasets

  我们在以下四个嵌套命名实体语料库上评估了模型:

  • English ACE-2004, (Doddington et al., 2004)。我们重用了以前大多数作者使用的训练/开发/测试划分(Lu and Roth, 2015; Muis and Lu, 2017; Wang and Lu, 2018)。
  • English ACE-2005。数据集划分方式同上。
  • English GENIA, (Kim et al., 2003)。我们使用了之前文章使用的90%作为训练集,10%作为测试集的划分方式 (Finkel and Manning, 2009; Lu and Roth, 2015; Muis and Lu, 2017; Wang and Lu, 2018)。
  • Czech CNEC – Czech Named Entity Corpus 1.0。如之前的作者(Strakov et al., 2016),我们从第一轮注释中预测了42种细粒度命名实体类型和4个容器(Containers)。

  我们在以下四种语言中评估常规命名实体识别任务:CoNLL-2003 English and German (Tjong Kim Sang and De Meulder, 2003) and CoNLL-2002 Dutch and Spanish (Tjong Kim Sang, 2002).
  在上述所有情况下,我们使用训练集(Train)进行训练,使用开发集(Dev)进行超参数调优,并且我们按照(Ratinov and Roth, 2009; Lample et al.,2016)的训练方式给出了模型的最终结果,即模型在训练+开发集(Train+Dev)上训练并在测试集(Test)上评估。
  我们的评估是十分严格的:只有当实体跨度(Span)和类别(Class)都是正确的时候,每个实体才被认为是正确的。

4 Methods

4.1 Nested NE BILOU Encoding

  我们的目标是将嵌套的实体结构编码成类似CONLL语料中的,每个Token拥有一个 B I L O U BILOU BILOU标签的形式。< B I L O U BILOU BILOU标注体系:B- (beginning), I- (inside), U- (unit-length entity), L- (last) or O (outside) labels (Ratinov and Roth, 2009)> 例如在句子“in the US Federal District Court of New Mexico.”中:
《Neural Architectures for Nested NER through Linearization》

  从Token到多标签的映射由以下两个规则定义:(1)较早开始的实体优先级高于较晚开始的实体;(2)对于同时开始的实体,较长的实体优先级高于较短的实体。一个单词的标签是所有交叉实体的标签的连接,从最高优先级到最低优先级。
  另一种更形式化的 B I L O U BILOU BILOU编码是展开有向超图的 B I L O U BILOU BILOU编码,它类似于Katiyar和Cardie(2018)论文中提到的,其*享实体标签没有折叠,并且 O O O仅用于实体之外的Tokens。
  在解码过程中,我们使用一种简单的启发式算法,它仅按照顺序匹配连续单词的标签。因此,一个 I − I- I−或 L − L- L−标签会与前面的一个 B − B- B−或 I − I- I−标签合并,如果他们出现在邻近多标签的相同位置并且具有相同的类型。

4.2 Neural Models for Nested NER

  我们的两个模型都是encoder-decoder架构:
  LSTM-CRF:编码器采用双向LSTM,解码器采用CRF(Lample et al., 2016),按照4.1节的方法建模多标签。
  Sequence-to-sequence (seq2seq):编码器采用双向LSTM,解码器采用LSTM。Tokens被视为输入序列,解码器将一个接一个地预测编码后的标签,直到解码器输出“<eow>”(词尾),标签才移动到下一个Token。我们对标签正在被预测的单词使用Hard Attention,并按照章节4.1中定义的顺序,从最高优先级到最低优先级来预测一个单词的标签。
  我们使用Adam优化器的惰性变量(Kingma and Ba, 2014)来训练网络,它只更新当前批处理过程中出现的变量的累加,其中 β 1 = 0.9 , β 2 = 0.98 \beta _1=0.9, \beta _2=0.98 β1​=0.9,β2​=0.98。我们使用的小批次大小为8。作为一种正则化,我们将dropout rate设置为0.5,word dropout使用未知Tokens替换20%的单词来强迫网络更多地关注上下文。我们没有执行任何复杂的超参数搜索。
  在我们的基线版本中,我们使用以下单词级和字符级的词嵌入模型:

  • Pretrained word embeddings:对于英语,我们在English Gigaword Fifth Edition上使用word2vec训练自己的维数为300的词嵌入模型。对于其它语言(德语、荷兰语、西班牙语和捷克语),我们使用FastText模型(Bojanowski et al., 2017)。
  • End-to-end word embeddings:We embed the input forms and lemmas (256 dimensions) and POS tags (one-hot)。
  • Character-level word embeddings:我们使用了和Ling等人(2015)一致的128维的双向GRUs(Cho et al., 2014; Graves and Schmidhuber, 2005):我们使用一个128维向量来表示每一个Unicode字符,并连接GRU的输出以获取正向和反向单词字符。

  我们进一步将上下文词嵌入技术添加到基线版本中:

  • +ELMo(Peters et al., 2018):512 维的英语预训练上下文词嵌入模型。
  • +BERT(Devlin et al., 2018):1024维的英语和768维的其它语言预训练词嵌入模型。对于每个Token,我们通过对最后四层中的所有BERT子词嵌入进行平均,而不进行微调来生成上下文词嵌入。
  • +Flair(Akbik et al., 2018):4096维的预训练词嵌入模型(除西班牙语外的所有语言)。

  我们使用Akbik等人(2018)提供的实现来生成Flair和ELMo。
  我们没有在我们的模型中使用任何手工制作的分类特征。

5 Results

  表1显示了嵌套命名实体识别的 F 1 F1 F1值,表2显示了常规命名实体识别的 F 1 F1 F1值。

《Neural Architectures for Nested NER through Linearization》
表1 在ACE-2004, ACE-2005, GENIA和CNEC 1.0 (Czech)语料库上嵌套命名实体识别的F1值。粗体表示最佳结果,斜体结果高于最先进水平,灰色表示主要贡献。*在ACE-2005中使用不同的数据分割。* *非神经网络模型。
《Neural Architectures for Nested NER through Linearization》
表2 在CoNLL-2002和CoNLL-2003语料库上常规命名实体识别的F1值。粗体表示最佳结果,斜体结果高于最先进水平。

  当将基线模型中嵌套命名实体识别的结果(没有添加上下文词嵌入技术)与先前文献中的结果进行比较时,我们可以看到LSTM-CRF在四个嵌套命名实体语料库中有三个达到了可比较的,但不是最优的结果,而Seq2Seq明显比所有已知方法的性能要好得多。我们假设Seq2Seq,虽然更复杂(系统必须预测每个Token的多个标签,包括特殊标签“<eow>”),但更适合于更复杂的语料库。这种优势在ACE-2004和ACE-2005中最为明显,因为它们包含了非常长的命名实体,并且嵌套级别比其他嵌套语料库中的更高。根据Wang和Lu(2018),在ACE-2004中有39%的训练语句包含重叠Mentions,而在GENIA中只有22%训练语句包含重叠Mentions。对于实体更短、重叠更少的语料库,比如在GENIA中,以及常规命名实体语料库中,LSTM-CRF的简单性胜过了Seq2Seq。
  我们还发现在所有语言和语料中,当最近发表的上下文嵌入技术(ELMo, BERT, Flair)作为预先训练的单词嵌入添加到输入时, F 1 F1 F1值会大幅增加,尽管在CoNLL-2003 German的情况下,我们的结果仍然落后于Akbik等人(2018)。

6 Conclusions

  我们提出了两种用于嵌套命名实体的神经结构和一个简单的编码算法,以允许在一个增强 B I L O U BILOU BILOU方案中建模多个命名实体标签。LSTM-CRF模型更适合较少嵌套和常规语料库,而Seq2Seq架构更适合捕获嵌套和复杂命名实体之间更复杂的关系,并在四个嵌套命名实体语料库上超越了当前最先进水平。我们还报告了当在嵌套和常规命名实体语料库上把上下文词嵌入技术加入到当前模型中,也产生了最优的结果。

上一篇:全球与中国聚合丁苯橡胶(SSBR)发展格局与前景动态分析报告2022~2028年


下一篇:【渝粤教育】国家开放大学2018年春季 8643-22T数据库基础与应用 参考试题