论文地址:https://www.aclweb.org/anthology/2020.coling-main.114/
代码地址:https://github.com/nobu-g/cohesion-analysis
Demo演示:https://lotus.kuee.kyoto-u.ac.jp/~ueda/demo/cohesion-analysis-demo/public/
基于BERT的日语语篇衔接分析
Abstract
自然语言文本的意义是由各种实体之间的衔接所支撑的,这些实体包括共指关系、谓语论元结构和桥接回指关系coreference relations, predicate-argument structures, and bridging anaphora relations。然而,关于名词性谓语的谓语论元结构和衔接回指关系predicate-argument structures for nominal predicates and bridging anaphora relations的研究还不够深入,对它们的分析还很困难。神经网络的最新进展,特别是基于自我训练的语言模型,包括Bert(Devlinetal.,2019),极大地改进了许多自然语言处理任务,使我们有可能深入研究整个文本中的衔接分析。在本研究中,我们对日语语篇的衔接进行了综合分析。我们的研究结果在每项任务上都显著优于现有的研究,特别是在零回指和共指消解zero anaphora and coreference resolution方面都提高了10到20个百分点。此外,我们还证明了共指消解与其他任务在本质上是不同的,应该特别对待。
1 Introduce
自然语言文本的意义是由各种实体之间的衔接所支撑的。这种衔接包括共指关系、谓语论元结构和衔接回指关系。例如,在图1的日语文本(两句话)中,实体之间存在各种关系。弄清这些关系对于计算机理解自然语言文本是必不可少的。
图1:日语语义关系的一个例子。它的英文翻译是“我认识这本小说的作者。他在我上次访问时给我看了他的手稿,“上面的边代表依赖关系。下缘表示动词和名词性谓词论元结构、桥接回指关系和共指关系。”NOM、ACC和dat分别代表主格、宾格和与格。
在这些关系中,动词的共指关系和谓词论元结构一直是研究的热点。然而,关于名词性谓语的谓语论元结构和衔接回指关系的研究还不够深入,对它们的分析还很困难。神经网络的最新进展,特别是基于自训练的语言模型,包括BERT(Devlin et al,2019),显著改善了许多自然语言处理(NLP)任务。通过使用这些技术,现在可以深入研究整个语篇的衔接分析,包括名词性谓语论元结构和衔接回指关系。在本研究中,我们对日语语篇的衔接进行了综合分析。据我们所知,还没有一项研究集中于对语篇衔接的综合分析。
首先,我们解释了日语文本中各种关系的特点。共指关系是指同一实体的名词之间的关系,揭示这种关系的任务称为共指消解(coreference resolution,CR)。在图1中,“作者”和“他”指的是同一个实体。CR中没有日本特有的现象。There is no Japanese specific phenomenon in CR.
谓词参数结构predicate-argument structure由一个谓词及其填充谓词每个大小写的参数组成,例如who do/did what to whom。阐明这些关系的任务称为谓词结构分析predicateargument structure analysis(PAS分析)。在日语中,一个论点通常由一个案例制造者标记,例如が” (ga),”を” (wo)和“に” (ni),分别大致对应主格nominative (NOM)、宾格accusative (ACC)和与格dative (DA T)。当一个参数被一个case标记标记并且与一个谓词有依赖关系时,就像图1中“$author_{-ACC}$”和“$know$”的情况一样,它们的关系是公开的$overt$。另一方面,即使一个参数和一个谓词有依赖关系,例如,当一个主题生成器附加到参数时a topic maker is attached to the argument,case标记有时是隐藏的。在这种情况下,我们需要澄清它们之间的关系:NOM、ACC或DAT,如图1中“I_{-TOP}”和“know”之间的NOM关系。我们称之为案例分析。
长期以来,日语自然语言处理一直受到零回指消解zero anaphora resolution的困扰,因为在日语文本中,理据arguments常常被省略。例如,在图1中,第二句中省略了“show”的DAT参数,第一句中的“I”应该被引用。the DAT argument of “show” is omitted in the second sentence, and “I” in the first sentence should be referred to.
这项研究不处理公开的情况This study does not handle overt situations,因为它可以分析95%或更高的准确率基于最近的精确解析技术。在与相关研究进行比较时,我们分别讨论了案例分析和零回指消解zero anaphora resolution separately。当我们考虑一个集成的内聚模型integrated cohesion model时,我们展示了它们的组合精度。
PAS通常用于动词谓词(动词谓词的PAS分析在下文中称为VPA)。事件性名词是句法上的名词,但它需要论据arguments,而且论据arguments通常出现在上下文中。这样的事件名词eventive nouns被称为名词谓词$nominal predicates$。本研究还考虑了名词性谓词$nominal predicates$的PAS分析,称之为名词性谓词论元结构分析nominal predicate-argument structure analysis (NPA)。NPA没有明显的情况。即使一个参数和一个名词性谓词有一个类似“visit of me”的依赖关系,我们也必须进行案例分析来检测NOM。在大多数情况下,如图1中的“visit”,我们需要在没有依赖关系的实体之间进行零回指解析zero anaphora resolution。
衔接回指关系A bridging anaphora relation是指回指an anaphor 与其先行词之间的回指关系an anaphoric relation,先行词弥补了回指的语义不足。例如,“屋顶”是建筑物的屋顶,“价格”是产品的价格,“作者”是作品的作者。在图1中,“作者”的先行词是“小说”,而“原稿”的先行词又是“小说”。衔接回指消解Bridging anaphora resolution (BAR)并没有对回指与其前因的关系进行分类,只是判断它们之间是否存在联系。正因为如此,如果他们有像图1中的“作者的小说novel-of author”这样的依赖性,他们被认为是公开的,而不是像VPA的公开情况那样被本研究分析或评估。另一方面,从零回指消解的角度分析了“手稿”与“小说”的关系。they are considered as overt and are not analyzed or evaluated by this study, like an overt situation of VPA. On the other hand, the relation between “manuscript” and “novel” are analyzed like zero anaphora resolution.
考虑到这些任务之间的关系,VPA和NPA是非常相似的,BAR也是相似的,因为这三个任务都考虑了不同实体之间的重要关系。另一方面,共指是同一实体之间的关系,与VPA/NPA/BAR有本质区别。考虑到这一差异,本文提出了完整的粘聚力分析模型,并对其性能进行了实验研究。
本研究的贡献有三个方面:
•我们提出了一个框架来分析包含在衔接中的多种语义关系。
• We propose a framework for analyzing multiple semantic relations included in cohesion all together.
•通过使用BERT,我们在没有输入特征的情况下大大提高了这些任务的性能。
• We improve the performance of these tasks greatly without input features by using BERT.
•我们着重讨论了共指消解与其他语义任务的区别,并证明了对共指消解进行特殊处理是有效的。
• We focus on the differences of coreference resolution from other semantic tasks and demonstrated that it is effective to treat CR specially.
2 Related Work
尽管许多研究集中在日本VPA(Omori和Komachi,2019;Shibata和Kurohashi,2018年;Kurita等人,2018年;松下和因纽伊,2017年;Ouchi等人,2017年;Matsubayashi和Inui,2018),很少有研究同时解决其他相关任务。Shibata和Kurohashi(2018)引入了一种称为实体缓冲区的机制来捕获文档中实体的显著性,并对VPA和CR进行了多任务学习,结果表明,尽管CR和VPA是异构任务,但通过执行VPA可以提高CR。这是因为VPA捕获了实体的显著性,并改进了实体缓冲区的表示,因为VPA引用的实体越多,就越显著。Omori和Komachi(2019)不仅治疗了VPA,而且同时治疗了NPA,结果表明双方都有收益。然而,没有一项研究同时进行CR和NPA。在这项研究中,我们同时进行VPA,NPA,BAR和CR。
在英语中,语义角色标注(SRL)是一项类似于日语VPA的任务。Li等人(2020年)使用RoBERTa在SRL中获得了88.03的F1分数(Liu等人,2019年)。与英语不同的是,日语中经常出现理据省略argument omission,因此日语VPA难度更大。在Shibata和Kurohashi(2018)中,零回指消解zero anaphora resolution的表现为58.1%(F1得分),而案例分析case analysis,即寻找与案例相关的论点的任务,F1得分为89.5%。
关于日语中衔接回指消解和共指消解的研究并不多。对于BAR,Sasano等人(2004)构建了一个类似“Aの B”的表达式词典(“B of A ” or “A ’s B”)从一个大的原始语料库,并使用这本词典进行分析。由于BAR是一项非常困难的任务,他们的 BAR 表现是F1得分42.7。
在英语中,BAR和CR采用基于跨度的方法(Hou,2020;吴等,2020;Yu和Poesio,2020),而在日语中,它们是在基于依赖关系的方法中执行的。尽管由于这个原因不能直接与我们的研究相比较,但Hou(2020)和Wu et al.(2020)通过采用QA框架提高了BAR和CR的准确性。Yu和Poesio(2020)证明了CR和BAR多任务学习的有效性。虽然两者都是不同的任务,但在英语中都有一个共同点:它们都需要首先提取与提及相对应的跨度。与CR相比,英语条的语料库规模非常小。因此,神经网络不能准确地进行跨度提取。CR的多任务学习提高了杆件的精度,部分原因是CR为杆件提供了良好的跨度表示。
3 Proposed Method
在这项研究中,我们使用BERT同时执行VPA、NPA、BAR和CR。这个模型被称为内聚分析模型Cohesion Analysis Model (CAModel)。在本节中,我们首先描述仅执行VPA的基本模型,然后描述用于所有四个任务的多任务学习的CAModel。最后,我们描述了CorefCAModel(CorefCAModel),它专门处理CR。
3.1 Base Model
我们使用BERT的基本模型如图2所示。此图显示了VPA中谓词$t_i$的主格(NOM)分析。根据Shibata和Kurohashi(2018)以及Kurita等人(2018),通过参数选择方法argument selection method进行预测。当谓语$t_i$是目标词时,该模型计算出一个词成为文档中所有其他词的主格变元nominative argument$t_i$的概率。其中概率最大的一个作为$t_i$的主格the nominative argument。这个计算是针对所有其他情况进行的,例如宾格accusative(ACC)和与格dative (DAT),以及文档中的所有谓词。
3.1.1 Input Representation
文档的切分包括三个步骤:句子切分、单词切分和子单词切分。在语料库中对句子和分词进行注释。对于子词切分,我们使用BPE(Sennrich et al.,2016),遵循预训练阶段使用的切分方法。根据Devlin等人(2019),我们在文档的开头和结尾分别插入[CLS]和[SEP]标记。此外,我们在输入序列的末尾插入五个特殊标记:[author]、[reader]、[unspecified person]、[NULL]和[NA][author]、[reader]和[unspecified person]用于外隐语解析。在回指消解anaphora resolution中,回指有时是指文档中没有出现的实体。这种现象被称为外隐斜视exophora。在这项研究中,作者author,读者reader和unspecified:person 作为代理目标 taken into consideration as the targets of exophora,我们使用[author]、[reader]和[unspecified person]作为exophora外隐语的的代理目标as proxy-targets for exophora.。[NULL]和[NA]分别表示谓词不接受参数,并且a mention has no other coreferring mentions, respectively.
3.1.2 Output Layer
我们将多层感知器(MLP)放在BERT的上面作为输出层。该MLP利用BERT的输出计算概率。具体地说,对应于参数候选者的子词$t_j$是对应于谓词的子词$t_i$的c-case参数的概率计算如下:
$P(t_j|t_i,c)=\frac{exp(s_c(t_j,t_i))}{\sum_kexp(s_c(t_k,t_i))}$
$s_c(t_j,t_i)=v^Ttanh(W_ct_j+U_ct_i)$
其中$W_C$和$U_c$是每个关系的权重矩阵,$v$是跨关系共享的权重向量。与子单词$t_i$and$t_j$相对应的BERT最后一层的隐藏向量。
需要注意的是,该模型的预测是基于子词单位的,而在日语中,一个由一个内容词和零个或多个虚词组成的基本短语是四个任务的基本单位。因此,我们采用基本短语中内容词的首子词作为基本短语的代表。
3.2 Cohesion Analysis Model粘聚力分析模型
除了VPA,我们还同时执行NPA、BAR和CR。这个模型被称为内聚分析模型(CAModel)。所有这些分析都是以与基础模型相同的方式通过参数选择方法进行的。对于CR,当我们为VPA中的目标谓词选择主格参数时,我们选择共享目标名词实体的提及。对于BAR,我们选择了一个与目标名词有衔接回指关系的名词。当CR和BAR在与VPA不同的网络上执行时,NPA在与VPA相同的网络上执行,因为要分析的关系集与VPA的关系集相同。
3.3 Coreference-aware Cohesion Analysis Model共指感知的内聚分析模型
CR在性质上与其他任务不同。基于这个原因,在简单的多任务学习中,CR不期望对学习效果有贡献。我们将在第4节通过实验来证明这一点。为了有效地利用CR信息,我们提出了CorefCAModel(CorefCAModel),该模型专门处理CR信息。此模型的概述如图3所示。
CorefCAModel的预测包括两个步骤。在第一步中它只执行CR,在第二步中它使用在前一步中获得的CR结果作为特征来分析所有任务。具体而言,CorefCAModel $P^{′}(t_j | t_i,c)$的概率计算如下:
$P^{'}(t_j|t_i,c)=\frac{exp(s_c^{'}(t_j,t_i))}{\sum_kexp(s_c^{'}(a_k,t_i))}$
$s_c^{'}(t_j,t_i)=v^Ttanh(h_{i,j,c})$
$h_{i,j,c}=W_ct_j+U_ct_i+h_j^{coref}$
$h_j^{coref}=\sum_kP_{coref}(t_k|t_j)Vt_k$
其中$V$是在关系之间共享的权重矩阵,以及对应于子词$t_i$、$t_j$和$t_k$的BERT的最后一层的$t_i$、$t_j$和$t_k$ denote隐藏向量。$P_{coref}(t_k | t_j)$是第一步的输出,表示$t_j$与$t_k$之间存在共指关系的概率。其计算方法与基本模型相同,如下所示:
$P_{coref}(t_k|t_j)=\frac{exp(s_{coref}^{'}(t_k,t_j))}{\sum_lexp(s_{coref}^{'}(t_l,t_j))}$
$s_{coref}^{'}(t_k,t_j)=v^Ttanh(W_{coref}t_k+U_{coref}t_i)$
4 Experiments
4.1 Experimental Settings
在我们的实验中,我们使用了CAModel和CorefCAModel。CAModel接受了各种任务组合的训练。我们根据Devlin等人(2019年)的研究,利用交叉熵损失对4个时期的两个模型进行了微调。由于CorefCAModel无法在训练的早期阶段以足够高的精度执行CR,我们将黄金参考数据与第一阶段预测混合,并在计划取样的启发下逐渐降低黄金比率(Bengio et al.,2015)。
我们在实验中使用了两种数据集。一个是京都大学网络文献导语语料库(网络语料库)(Hangyo et al.,2012),另一个是京都大学文本语料库(新闻语料库)(Kawahara et al.,2002)。两个语料库中的动词谓词论元关系、名词谓词论元关系、共指关系和桥接回指关系都是人工标注的。表1列出了每个语料库中的句子数。在我们的实验中,对两个语料库进行混合训练,并对每个语料库进行评估。【在我们的初步实验中,我们已经证实混合语料库比单独使用语料库有更好的性能。】
我们使用NICT-BERT日语预训练模型(带BPE)【https://alaginrc.nict.go.jp/nict-bert/index.html】。该模型在使用日语Wikipedia全文进行形态学和子词切分后训练约100万步。在微调阶段,我们将最大序列长度设置为128。网络语料库的最大序列长度小于128。在新闻语料库中,有许多文档的序列长度超过128个,一个文档被分成多个部分进行训练。为此,我们划分了一个文档,使其具有尽可能多的先前上下文。
对于VPA,我们提取了一个文档中的所有谓词,并根据NOM、ACC、DAT和NOM2【在日语中,一个谓语有时有两个主格参数,所以我们用namignive2(NOM2)case来区分它们。】四种情况对它们进行了分析。4谓词提取使用了日语依赖解析器KNP(Kurohashi和Nagao,1994)。对于NPA,我们分析了KNP判断为有参数的名词。对于VPA和NPA,我们都使用有大小写关系的参数进行训练和评估【在我们的初步实验中,一起解决公开的论点稍微恶化了零回指解决的性能。】。BAR和CR是在名词上进行的。继Shibata和Kurohashi(2018年)之后,我们将作者、读者和未指明的人作为外隐语的目标,并使用金共指链放松了对VPA、NPA、BAR和CR的评估。
4.1 Experimental Results
表2显示了与现有研究的比较。括号中显示了五次不同随机种子运行结果的95%置信区间。我们的模型极大地提高了被认为特别困难的零回指消解和共指消解的性能。案例分析的效果比现有的研究要差。这可能是因为我们的研究,不像现有的研究,没有使用特征,如依赖结构的输入句子和选择偏好。下文中,案例分析和零回指消解统称为VPA。
表3、4、5和6分别显示了VPA、NPA、BAR和CR的结果。括号中的VPA、NPA、BAR和CR表示在培训阶段执行的任务。
首先,我们关注VPA在多任务学习中的作用。关于NPA(表4),使用VPA的多任务学习提高了性能。这也适用于表5中的BAR。接下来,我们重点研究了NPA在多任务学习中的作用。
表3显示,在四项任务中,NPA对VPA的贡献最大。另一方面,在表5中我们可以看到,解决NPA稍微恶化了BAR的性能。【由于NPA的研究还不多,可能会出现标注质量问题。】
接下来,我们重点讨论了BAR在多任务学习中的作用。在表3中,比较CAModel(VPA+NPA)和CAModel(VPA+NPA+BAR),除了VPA和NPA之外,解算BAR稍微提高了VPA的性能。BAR对NPA几乎没有影响(表4)。
最后,我们重点研究了认知反应在多任务学习中的作用。关于VPA(表3),虽然NPA和BAR有助于VPA的表现,但同时解决CR会降低分数。CAModel(VPA+CR)得分低于CAModel(VPA),CAModel(VPA+NPA+BAR+CR)得分也低于CAModel(VPA+NPA+BAR)。CR也恶化了BAR的性能(表5)。表6显示VPA、NPA和BAR对CR的性能没有贡献,单独求解CR在CAModel中是最好的。
CorefCAModel在CR中的表现优于大多数其他模型。在其他任务中,CorefCAModel的表现略差于其他模型。
4.3 Discussion
结果表明,VPA、NPA和BAR在多任务学习中通常是互利的,而CR则不是。CR降低了VPA和BAR的F1分,对其他任务的多任务学习没有好处。VPA、NPA和BAR是分析实体(或谓词)之间关系的任务,而CR是查找相同实体的任务。我们的实验结果证实了CR与其他任务在性质上是不同的。
因此,CR应与VPA、NPA和BAR区别对待。在这项研究中,我们提出了一个CorefCAModel,它只首先执行CR,并将其结果作为所有任务的特征。我们证实CorefCAModel比CAModel更能解决CR问题,CAModel只是简单地执行多任务学习。但是,CorefCAModel在其他任务中的性能比CAModel差。CR信息有可能对其他任务有所帮助,我们未来的工作是考虑四个任务的更好的组合模型。
图4显示了Web语料库中文档的分析示例。在这个例子中,大多数VPA、BAR和CR的关系都得到了正确的分析。“学习”和“担心”的正确名词论点是“女孩”,而被分析为“我”。这是因为第一句中的主题是带有主题标记的“I”,但在第二句中被“girl”取代。这种话语结构在目前的模式下是无法捕捉的。图5显示了新闻语料库中文档的分析示例。该模型正确地分析了“ChinaNOM-aid”和“base-ACC-construction”等名词性谓词论元结构,这些结构可以通过相对局部的衔接来预测。另一方面,“海军中国”和“缅甸DAT建设”没有得到正确的分析。捕捉这些关系需要对文档有更深入的理解。例如,如果使用“基地建设”和“海军基地”等其他关系的信息,就可以正确分析“海军中国”。今后,我们计划利用其他关系的信息作为分析对象。
图4:来自Web语料库的内聚分析示例。英文翻译是“当我在医院的时候,我和一个15岁的女孩成了朋友。她非常担心自己的学习,“下边缘代表系统输出。虚线表示系统输出不正确。上边缘表示系统无法正确预测的黄金数据。
图5:来自新闻语料库的衔接分析示例。英文翻译是“(他们)分析说,中国援助缅甸的意图是为印度洋海军扩张建设一个海军基地。”下边缘代表系统输出。虚线表示系统输出不正确。上边缘表示系统无法正确预测的黄金数据。
5 Conclusion
我们提出了衔接分析的多任务学习方法,包括动词谓语论元结构分析、名词谓语论元结构分析、共指消解和桥接回指消解,并利用BERT研究了每项任务对多任务学习的影响。我们的模型在每项任务上都显著优于现有的研究,特别是在零回指消解和共指消解上都提高了10到20个百分点。此外,我们还证明了共指消解与其他任务在本质上是不同的,应该特别对待。在将来,基于这个事实,我们希望创建一个模型,可以更好地利用协同引用信息进行其他任务。
A Hyper parameters