原文链接:https://www.aclweb.org/anthology/P16-1123.pdf
代码实现:https://github.com/dgai91/pytorch-acnn-model
关系抽取中我们会遇到很多表达同一种关系的不同方式。这种具有挑战性的变异性在本质上可以是词汇的lexical、语法的syntactic,甚至是语用pragmatic的。一个有效的解决方案需要能够考虑到有用的语义semantic和句法特征syntactic,不仅要考虑目标实体在词汇层面lexical的意义,而且要考虑它们的直接上下文immediate和整个句子结构sentence structure。
因此,人们提出了大量基于特征numerous feature和内核kernal-based的方法也就不足为奇了,其中许多方法都依赖于一个成熟的NLP堆栈stack,包括POS标记、形态分析morphological analysis、依赖解析dependency parsing,偶尔还有语义分析semantic analysis,以及捕捉词法lexical和语义特征semantic feature的知识资源。近年来,我们已经看到了深入架构的发展,它能够学习相关的表示和特性,而不需要大量的手工特性工程或使用外部资源。大量的卷积神经网络(CNN)、递归神经网络(RNN)等神经结构被提出用于关系分类(Zeng et al.2014; dos Santos et al., 2015; Xu et al., 2015b)尽管如此,这些模型常常不能识别关键线索,其中许多模型仍然需要外部依赖解析器。
提出了一个新的CNN架构,解决了以前方法的一些缺点。我们的主要贡献如下:
1. 我们的CNN架构依赖于一种新颖的多级注意机制来捕获特定于实体的注意entity-specific attention(在输入层针对于target entities的attention)和特定于关系池化的注意relation-specific pooling attention(针对于target relations的attention)。尽管输入句子的结构heterogeneous structure各不相同,但这使它能够检测到更微妙的线索,使它能够自动学习哪些部分与给定的分类相关。
2.我们介绍了一种新的pair-wise margin-based objective function并证明优于标准损失函数standrad loss functions。
3.我们在SemEval 2010 Task 8数据集上获得了最新的关系分类结果,F1得分为88.0%,优于依赖于更丰富先验知识的方法。
These kernels methods thus all depend either on carefully handcrafted features, often chosen on a trial-and-error basis(通常是在试错的基础上选择的), or on elaborately designed kernels, which in turn are often derived from other pre-trained NLP tools or lexical and semantic resources. Although such approaches can benefit from the external NLP tools to discover the discrete structure of a sentence, syntactic parsing is error-prone and relying on its success may also impede performance 但句法分析是容易出错的,依赖于它的成功也可能会阻碍性能(Bach and Badaskar, 2007). Further downsides include their limited lexical generalization abilities for unseen words and their lack of robustness when applied to new domains, genres,or languages.
理想情况下,我们需要一个简单而有效的体系结构,它不需要依赖解析或训练多个模型。我们在第4节的实验表明,我们确实可以做到这一点,同时也获得了F1得分方面的实质性改进。
3 The Proposed Model
由于唯一的输入是一个带有两个标记的原始句子,因此获得做出准确预测所需的所有词汇、语义和句法线索是非常重要的。(作者出发点太理想了,不借助除实体标记以外的其他外部特征)模型图如图:
配合作者给的符号说明表食用:
输入句子首先使用词向量表示进行编码,利用上下文context和位置编码来更好地捕捉词序。输入层attention基于对角线矩阵diagonal matrices来捕获单词相对于目标实体的相关性relevance。然后,对结果输出矩阵应用卷积操作convolution operation,以捕获上下文信息,例如relevant n-grams,然后跟一个最大池化max-pooling。第二个attention pooling layer用于根据注意池化矩阵attention pooling matrix从输出中确定最有用的卷积特征用于关系分类。
3.1 Classification Objective
关系分类体系结构的自顶向下设计考虑开始。句子$S$,network最终输出$\vec{w}^O$,对于每个输出关系$y∈\gamma$,我们都假设有一个相应的network自动学习的output embedding$W_y^L$,设计了一个新的距离函数$\delta_{\theta}(S)$来测量预测network输出$w^O$与一个候选关系y的接近度:
$\delta_{\theta}(S,y)=||\frac{\vec{w}^O}{\vec{w}^O}-W_y^L||$
相减前均使用$L_2$正则化(注意$W_y^L$已经normalized),再次距离函数的基础上,设计了a margin-based pairwise loss function L:
$L=[\delta_{\theta}(S,y)+(1-\delta_{\theta}(S,\hat{y}^-))]+\beta||\theta||^2=[1+||\frac{\vec{w}^O}{\vec{w}^O}-W_y^L||-||\frac{\vec{w}^O}{\vec{w}^O}-W_{\hat{y}^-}^L||]+\beta||\theta||^2$