一. 介绍
Motivation
基于字符的中文NER中,同一个字符可能属于多个lexicon word,存在 overlapping ambiguity 的现象, 这会对最终标注结果造成误导。例如图1中, “河流” 也可属于 "流经" 两个词中,都含有同一个"流"字。
Ma等人于2014年提出,想解决overlapping across strings的问题,需要引入「整个句子中的上下文」以及「来自高层的信息」;然而,现有的基于RNN的序列模型,不能让字符收到序列方向上 remain characters 的信息;
Proposed Model
基于以上问题,本文提出一种基于 lexicon信息的图网络 lexicon-based Graph Neural Networks (LGN):
图结构能够打破 RNN 序列结构的限制,使 character 和 lexicon word 间有更充分的联系。
基于 lexicon word 将相关的字符连接起来,能够捕捉局部的构成信息
设计一个全局的中继节点来捕捉「长距离依赖」和「高层次的特征信息」
LGN 将通过节点的"入边"和全局中继节点,对邻居节点进行聚合(正是由于这种多轮的聚合,使得全局上下文信息可以用来对模糊的词语进行区分);
Contributions
本文提出基于** lexicon 信息来构建图网络**,并将中文NER问题建模为「图中的节点分类」问题;
本文模型能够捕捉到「全局的上下文信息」和「局部的构成信息」,通过迭代聚合机制来解决中文中「词语边界模糊」的问题;
实验结果证明了本文模型的有效性。
二. 相关工作
Related works包括两部分:
一是介绍了「现有的基于字符的中文NER工作」,并指出「现有的方法难以利用到全局信息」;
二是介绍了「图神经网络」及其在NLP中的应用,并指出「目前的工作中,很少有通过中文字符间联系进行构图的」;
三. 模型
构图与聚合
构图
关于构图的示意如图2所示,主要包括以下要点:
每个句子被转化为一个「有向图」
每个「字符」被作为图中的「一个节点」, 在每个lexicon word的第一个和最后一个字符间构建「一条边」, 每条边代表了「潜在的可能存在词语(即lexicon word)的特征」
构建一个「全局的中继节点」,它与图中的每个边和点都相连, 用来「汇聚所有边和点的信息」,从而消除词语之间的边界模糊;
由于全局中继节点的存在,图中任意两个不邻接的节点之间都是彼此的二阶邻居,可以通过两次节点更新来接收彼此的非局部的信息;
另外,对以上的图结构进行转置得到一个所有边都反向后的「反向图」,将「反向图」与「原图」中得到的字符表示进行拼接,作为最终的字符表示;
局部聚合
局部聚合包括对节点的聚合和对边的聚合。
-
节点:
全局聚合
为了捕获「长距离依赖」和「高层次的特征」,通过全局节点对每条边和节点的表示进行聚合(Figure3-c所示)。
经过这样多轮的信息交换后, 能够包含「全局的特征信息」,而 包含了局部的字符信息。
Recurrent-based Update Module
节点更新
通过如下公式进行节点更新:其中,
表示 context window 范围内邻接向量的拼接操作,本文中 context_window 窗口大小为 2. (因为根据相关文献,bigram的字符操作对序列标注问题是非常有用的)
三个门结构 三个门结构用来控制「全局特征向字符表示 c_i^t 的信息流动,从而调节lexicon的attn权值,缓解序列上边界模糊的问题」
为了更好地利用 字符、lexicon word与句子间的关系, 本文还类似地设计了「边更新模块」和「全局节点更新模块」
Edge Update
边更新通过如下公式进行
Global Relay Node Update
全局节点更新通过如下公式进行, 目的在于将有用的信息分享到上下文:
Decode
最后,图中节点的表示即每个字符的表示。通过「CRF」对字符对应标签进行解码。
四. 实验设置
主要介绍了数据集、用于比较的 baseline models 等。
五. 实验分析
作者首先展示了LGN模型在不同数据集上的实验结果,然后从不同方面对LGN模型进行了分析。
-
研究图结构上消息传递步数对结果的影响
- 结论: 随着更新步数的增加,LGN能捕获到更多有用的信息;
-
去掉 全局节点
- 结论:全局连接在图结构中是非常有用的
-
去掉 lexicon words 信息
- 对于字符级别的中文NER任务,lexicon words 信息是非常重要的
与 Lattice-LSTM 做对比,分别去掉 LGN 和 Lattice-LSTM 的双向结 以及CRF层,结果显示 LGN 可以取得更好的效果,因此认为 LGN 具有对句子建模的更强的能力。
-
研究句子长度对实验结果的影响
- 随着句子长度的增加,Lattice-LSTM 的accuracy 下降明显,而 LGB不仅对短句效果较好,而且对句子长度超过80个字符时仍旧有效。
Case Study: 通过对 Lattice-LSTM、LGN-global, LGN-1step 和 LGN 的标注结果进行对比,展示 LGN 处理 word ambiguity problme 的能力。
记得备注呦