论文地址:https://aclanthology.org/2021.acl-long.121.pdf
代码地址:https://github.com/CoderMusou/MECT4CNER
Abstract
近年来,在中文命名实体识别(NER)中,词语增强已成为一种非常流行的方法,它可以减少切分错误,增加中文词语的语义和边界信息。然而,这些方法在整合了词汇信息之后,往往忽略了汉字结构的信息。汉字自古以来就是从象形文字演变而来的,它们的结构往往反映了更多关于汉字的信息。本文提出了一种新的基于多元数据Embedding的CrossTransformer(MECT),利用汉字的结构信息来提高汉字的性能。具体来说,我们在一个两流转换器two-stream transformer中使用多元数据嵌入来集成汉字特征和部首级嵌入。MECT结合汉字的结构特点,能够更好地捕捉汉字的语义信息,为NER提供信息支持。在几个著名的基准测试数据集上的实验结果证明了所提出的MECT方法的优点和优越性。
1 Introduction
汉字也有一种类似于英语词根和词缀的结构。根据表1中的例子,我们可以看到汉字的结构有不同的分解方法,包括汉字的部首(CR)、头尾(HT)和结构成分(SC)。汉字自古以来就是由象形文字演变而来的,它们的结构往往反映了更多的信息。
表2中有一些例子。字形结构可以丰富汉字的语义,提高NER的性能。例如,BiLSTM-CRF方法(Dong et al.,2016)首先通过汉字结构的分解来获得字符级嵌入,以提高NER的性能。然而,LSTM基于时间序列建模,每个单元的输入取决于前一个单元的输出。因此,基于LSTM的模型比较复杂,并行能力有限。
为了解决上述问题,我们利用了扁平晶格变换器(Flat Lattice Transformer,FLAT)(Li et al.,2020)在高效并行计算和优秀词汇学习方面的优势,并在此基础上引入了部首流radical stream作为扩展。通过结合基本信息,我们提出了一种基于多元数据嵌入的CrossTransformer(MECT)。MECT具有格流和部首流lattice- and radical-streams,不仅具有FLAT的词边界和语义学习能力,而且增加了汉字部首的结构信息。这对于NER任务非常有效,并且改进了不同基准上的基线方法。拟议方法的主要贡献包括:
·The use of multi-metadata feature embedding of Chinese characters in Chinese NER.利用多元数据特征嵌入汉字在中文NER中的应用。
·提出了一种新的两流模型,该模型结合了汉字的部首、字符和单词the radicals, characters and words,提高了MECT方法的性能。
·在几个著名的中国NER基准数据集上对所提出的方法进行了评估,证明了所提出的方法相对于最先进的方法的优点和优越性。
2 Related Work
提出的MECT方法的关键是利用汉字的部首信息来增强汉字NER模型。因此,我们将重点放在文献中主流的信息增强方法上。汉语NER增强方法主要有词汇信息融合和字形结构信息融合两种lexical information fusion and glyph-structural information fusion.。
Lexical Enhancement词汇强化
在中文NER中,最近的许多研究使用词匹配方法来增强基于字符的模型。一种典型的方法是Lattice LSTM模型(Zhang和Yang,2018),该模型通过编码和匹配词典中的单词来提高NER性能。最近,一些词汇增强方法被提出使用CNN模型,如LR-CNN(Gui等人,2019a),CAN-NER(Zhu和Wang,2019)。图形网络也被用于词法增强。典型的是LGN(Gui等人,2019b)。此外,还有基于变换器的词汇增强方法,如PLT(Xue et al.,2019)和FLAT。SoftLexicon(Ma et al.,2020)通过标签和概率方法在字符表示层引入词汇信息。
Glyph-structural Enhancement字形结构增强
一些研究也使用了汉字中的字形结构信息。例如,Dong等人(2016年)率先研究了部首级信息在汉语NER中的应用。他们使用Bi LSTM提取部首级嵌入,然后将其与字符嵌入连接起来作为最终输入。Bi LSTM中使用的基本信息是结构组件(SC),如表1所示,它在MSRA数据集上实现了最先进的性能。Glyce(Meng et al.,2019)模型使用汉字图像提取汉字的笔划和结构等特征,从而在汉字识别中取得了良好的性能。其他一些方法(Xu等人,2019年;Song等人,2020年)也建议使用部首信息和腾讯预训练embedding来提高性能。在这些作品中,汉字的结构成分被证明能够丰富汉字的语义,从而产生更好的表现。
3 Background
该方法基于Flat-Lattice Transformer(Flat)模型。因此,我们首先简要介绍FLAT,它通过添加单词格信息(包括语义和位置边界信息)来改进Transformer的编码器结构。这些词格是通过字典匹配得到的。
图1显示了FLAT的输入和输出。它使用由头部和尾部位置转换的相对位置编码来拟合单词的边界信息。相对位置编码$R_{ij}$的计算如下:
$\begin{aligned} \boldsymbol{R}_{i j} &=\operatorname{ReLU}\left(\boldsymbol{W}_{r}\left(\boldsymbol{p}_{h_{i}-h_{j}} \oplus \boldsymbol{p}_{h_{i}-t_{j}}\right.\right.\\ &\left.\left.\oplus \boldsymbol{p}_{t_{i}-h_{j}} \oplus \boldsymbol{p}_{t_{i}-t_{j}}\right)\right) \end{aligned}$
其中$W_r$是一个可学习的参数,$h_i$ and $t_i$ 表示第$i$个字符的头部位置和尾部位置,⊕表示串联操作,$p_{span}$作为inVaswani等人(2017年)获得:
$\begin{aligned} \boldsymbol{p}_{\text {span }}^{(2 k)} &=\sin \left(\frac{\text { span }}{10000^{2 k / d_{\text {model }}}}\right) \\ \boldsymbol{p}_{\text {span }}^{(2 k+1)} &=\cos \left(\frac{\text { span }}{10000^{2 k / d_{\text {model }}}}\right) \end{aligned}$
where $p_{span}$ corresponds topin Eq. (1), and span denotes $h_i−h_j$,$h_i−t_j$,$t_i−h_j$ and $t_i−t_j$. Then the scaled dot-product attention is obtained by:
$\operatorname{Att}(\boldsymbol{A}, \boldsymbol{V})=\operatorname{softmax}(\boldsymbol{A}) \boldsymbol{V}$
$\boldsymbol{A}_{i j}=\left(\boldsymbol{Q}_{i}+\boldsymbol{u}\right)^{\top} \boldsymbol{K}_{j}+\left(\boldsymbol{Q}_{i}+\boldsymbol{v}\right)^{\top} \boldsymbol{R}_{i j}^{*}$
$[\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}]=E_{x}\left[\boldsymbol{W}_{q}, \boldsymbol{W}_{k}, \boldsymbol{W}_{v}\right]$
where $\boldsymbol{R}_{i j}^{*}=\boldsymbol{R}_{i j} \cdot \boldsymbol{W}_{R} \cdot \boldsymbol{u}$,$v$ and $W$ are learnable parameters
4 The Proposed MECT Method
为了更好地整合汉字组件的信息,我们使用汉字结构作为另一种元数据,并设计了一种两流形式的多元数据嵌入网络。拟议网络的架构如图2a所示。该方法基于Transformer的编码器结构和FLAT方法,综合了汉语单词的语义和边界信息。提出的两流模型使用了一个类似于自注意结构的交叉变换模块来融合汉字成分的信息。在我们的方法中,我们还使用了在视觉语言任务中广泛使用的多模式协作注意方法(Lu等人,2019)。不同之处在于,我们添加了一个随机初始化的注意矩阵来计算这两种元数据嵌入的注意偏差。
4.1 CNN for Radical-level Embedding
汉字以象形文字为基础,其意义以物体的形状表达。在这种情况下,汉字的结构对NER有一定的有用信息。例如,诸如艹’ (草)和'木’ (木材)通常代表植物,提高了对中药实体的认识。再比如说,月’ (身体)代表人体部位或器官,以及疒’ (疾病)代表疾病,这有利于中国医疗领域。此外,中国人在命名方面有自己的文化和信仰。激进分子钅’ (金属),'木’ (木头),'氵’ (水),火’ (火灾),以及土’ 以五行学说为代表的地球常被用作人名或公司名。但是锈’ (锈迹),杀’ (杀死),'污’ (土)"灾’ (灾难)和堕’ (fall)通常不作为名称使用,即使它们包含了吴兴理论的某些元素。这是因为其他部首成分也决定了汉字的语义。通常出现负面或与中国文化信仰冲突的部首通常不用于命名。
因此,我们选择表1中信息量较大的结构成分(SC)作为汉字的径向特征,并使用卷积神经网络(CNN)提取汉字特征。CNN网络的结构图如图3所示。我们首先将汉字分解成SC,然后将部首输入CNN。最后,利用最大池和全连通层实现汉字部首级的特征嵌入。
4.2 The Cross-Transformer Module
在字根特征提取之后,我们提出了一种交叉变换网络来获取汉字结构的补充语义信息。它还利用上下文和词汇信息来丰富汉字的语义。交叉变压器网络如图2b所示。与Transformer中的自关注方法不同,我们使用两个Transformer编码器来交叉汉字的格和根信息。We use two Transformer encoders to cross the lattice and radical information of Chinese characters
输入$\boldsymbol{Q}_{L}\left(\boldsymbol{Q}_{R}\right), \boldsymbol{K}_{L}\left(\boldsymbol{K}_{R}\right), \boldsymbol{V}_{L}\left(\boldsymbol{V}_{R}\right)$通过晶格的线性变换the linear transformation of lattice 和偏旁级特征嵌入radical-level feature embedding得到:
$\left[\begin{array}{c}\boldsymbol{Q}_{L(R), i} \\ \boldsymbol{K}_{L(R), i} \\ \boldsymbol{V}_{L(R), i}\end{array}\right]^{\top}=\boldsymbol{E}_{L(R), i}\left[\begin{array}{c}\boldsymbol{W}_{L(R), Q} \\ \boldsymbol{I} \\ \boldsymbol{W}_{L(R), V}\end{array}\right]^{\top}$
where $E_L$ and $E_R$ are lattice embedding and radical-level embedding,$I$ is the identity matrix, and each $W$ is a learnable parameter. Then we use the relative position encoding in FLAT to represent the boundary information of a word and calculate the attention score in our Cross-Transformer:
$\operatorname{Att}_{L}\left(\boldsymbol{A}_{R}, \boldsymbol{V}_{L}\right)=\operatorname{Softmax}\left(\boldsymbol{A}_{R}\right) \boldsymbol{V}_{L}$,
$\operatorname{Att}_{R}\left(\boldsymbol{A}_{L}, \boldsymbol{V}_{R}\right)=\operatorname{Softmax}\left(\boldsymbol{A}_{L}\right) \boldsymbol{V}_{R}$,
$\boldsymbol{A}_{L(R), i j}=\left(\boldsymbol{Q}_{L(R), i}+\boldsymbol{u}_{L(R)}\right)^{\top} \boldsymbol{E}_{R(L), j}$
$+\left(\boldsymbol{Q}_{L(R), i}+\boldsymbol{v}_{L(R)}\right)^{\top} \boldsymbol{R}_{L(R), i j}^{*}$,
where $u$ and $v$ are learnable parameters for attention bias in Eq. (10),$A_L$ is the lattice attention score, and $A_R$ denotes the radical attention score. And $R^{∗}_{ij}=R_{ij}·W_R$.$W_R$ are learnable parameters. The relative position encoding,$R_{ij}$, is calculated as follows:
$\boldsymbol{R}_{i j}=\operatorname{ReLU}\left(\boldsymbol{W}_{r}\left(\boldsymbol{p}_{h_{i}-h_{j}} \oplus \boldsymbol{p}_{t_{i}-t_{j}}\right)\right)$
4.3 Random Attention
我们实证发现,在Cross-Transformer中使用随机注意可以提高所提出方法的性能。这可能是由于格子和根特征嵌入lattice and radical feature embedding对注意偏向的要求,能更好地适应两个子空间的得分。Random attention是一个随机初始化的参数矩阵$\boldsymbol{B}^{\text {max_len } \times \text { max_len }}$,添加到先前的注意分数中,以获得总注意分数:
$\boldsymbol{V}_{L}^{*}=\operatorname{Softmax}\left(\boldsymbol{A}_{R}+\boldsymbol{B}\right) \boldsymbol{V}_{L}$
$\boldsymbol{V}_{R}^{*}=\operatorname{Softmax}\left(\boldsymbol{A}_{L}+\boldsymbol{B}\right) \boldsymbol{V}_{R}$
4.4 The Fusion Method
为了减少信息损失,我们直接将晶格和偏旁特征 lattice and radical features连接起来,并将它们输入到一个完全连接的层中进行信息融合:
Fusion $\left(\boldsymbol{V}_{L}^{*}, \boldsymbol{V}_{R}^{*}\right)=\left(\boldsymbol{V}_{R}^{*} \oplus \boldsymbol{V}_{L}^{*}\right) \boldsymbol{W}^{o}+\boldsymbol{b}$
where $⊕$ denotes the concatenation operation,$W_o$ and $b$ are learnable parameters.
After the fusion step, we mask the word part and pass the fused feature to a Conditional Random Field (CRF) (Lafferty et al.,2001) module.