论文·Neural Relation Extraction with Selective Attention over Instances

摘要:

远程监督关系提取已广泛用于从文本中查找新颖的关系事实。 但是,远程监管不可避免地会伴随错误的标签问题,并且这些嘈杂的数据将严重损害关系提取的性能。 为了缓解此问题,我们提出了一种基于句子的基于注意力的关系提取模型。 在这个模型中,我们使用卷积神经网络来嵌入句子的语义。 之后,我们在多个实例上建立句子级别的注意力,这有望动态减少这些嘈杂实例的权重。 在现实世界的数据集上的实验结果表明,我们的模型可以充分利用所有翔实的句子,并有效地减少了错误标记实例的影响。 与基线相比,我们的模型在关系提取方面实现了显着且一致的改进。 本文的源代码可以从https://github.com/thunlp/NRE获得。

1.introduction

在本文中,我们提出了一种基于句子的基于注意力的卷积神经网络(CNN),用于远距离监督关系提取。
如图1所示,我们使用CNN嵌入句子的语义。 然后,为了利用所有翔实的句子,我们将这种关系表示为句子嵌入的语义组成。 为了解决错误的标签问题,我们在多个实例上建立了句子级别的注意力,这有望动态减少这些嘈杂实例的权重。 最后,我们提取了具有句子句子注意权重的关系向量的关系。 在关系提取任务中,我们在真实数据集上评估我们的模型。 实验结果表明,与最新方法相比,我们的模型在关系提取方面实现了显着且一致的改进。

论文·Neural Relation Extraction with Selective Attention over Instances
图1:基于句子级别关注度的CNN的体系结构,其中xi和xi表示实体对的原始句子及其对应的句子表示形式,αi是句子级别关注度给出的权重,而s表示 句子集。
•与现有的神经关系提取模型相比,我们的模型可以充分利用每个实体对的所有信息句。
•为了解决远程监管中的错误标签问题,我们建议选择性注意以减少对那些嘈杂实例的重视。
•在实验中,我们表明选择性注意在关系提取任务中对两种CNN模型有利

3.Methodolgy

给定一组句子{x1 ,x2, …, xn}和两个对应的实体,我们的模型测量每个关系r的概率。 在本节中,我们将在两个主要部分中介绍我们的模型。
•句子编码器。 给定一个句子x和两个目标实体,使用卷积神经网络(CNN)构造句子的分布式表示x。
•对实例的选择性注意。 当学习了所有句子的分布式矢量表示时,我们使用句子级别的注意力来选择真正表达对应关系的句子。

3.1 Sentence Encoder

如图2所示,我们通过CNN将句子x转换为它的分布式表示x。
首先,将句子中的单词转换为密集的实值特征向量。 接下来,使用卷积层,最大池化层和非线性变换层来构建句子的分布式表示,即x
论文·Neural Relation Extraction with Selective Attention over Instances
图2:用于句子编码器的CNN / PCNN的体系结构。

3.1.1 Input Representation

词嵌入:词嵌入的目的是将词转换为可捕获词的句法和语义含义的分布式表示形式。 给定一个由m个单词组成的句子x={w1,w2,…,wm},每个词wi由实数值向量表示。 单词表示由嵌入矩阵中的列向量编码,其中V是固定大小的词汇
位置嵌入: 在关系提取的任务中,靠近目标实体的单词通常有助于确定实体之间的关系。 与(Zeng et al.,2014)相似,我们使用实体对指定的位置嵌入。
它可以帮助CNN跟踪每个单词与头或尾实体之间的距离。 它定义为从当前单词到头部或尾部实体的相对距离的组合。 例如,在“Bill Gates is the founder of Microsoft.”一句中,从“founder”到主实体"Bill Gates"的相对距离是3,尾部微软是2。

3.1.2 Convolution, Max-pooling and Non-linear Layers

在关系提取中,主要挑战是句子的长度是可变的,并且重要信息可以出现在句子的任何区域。 因此,我们应该利用所有局部特征并全局执行关系预测。 在这里,我们使用卷积层来合并所有这些功能。 卷积层首先在句子上提取一个长度为l的滑动窗口的局部特征。 在图2所示的示例中,我们假设滑动窗口的长度为3。然后,它通过最大合并操作组合了所有局部特征,从而获得了输入句子的固定大小的向量。

3.2 Selective Attention over Instances

假设有一个集合S包含n个针对实体对(head,tail)的句子,即S ={x1;x2 ··· xn}
然后,将集合向量s计算为这些句子向量xi的加权和:论文·Neural Relation Extraction with Selective Attention over Instances
(1)Average:我们假设集合X中的所有句子对集合的表示具有相同的贡献。 这意味着集合S的嵌入是所有句子向量的平均值
论文·Neural Relation Extraction with Selective Attention over Instances
(2)Selective Attention:但是,不可避免地会出现错误的标签问题。 因此,如果我们对每个句子一视同仁,那么错误的标记句子将在训练和测试过程中带来巨大的噪音。 因此,我们使用选择性注意来淡化嘈杂的句子。
因此,αi进一步定义为
论文·Neural Relation Extraction with Selective Attention over Instances
其中ei称为基于查询的函数,可对输入句子xi和预测关系r的匹配程度进行评分。 我们选择双线性形式,该形式在不同的选择中均能达到最佳性能
论文·Neural Relation Extraction with Selective Attention over Instances
其中A是加权对角矩阵,r是与关系r相关联的查询向量,指示关系r的表示,最后,我们通过softmax层定义条件概率p(r|S,θ),如下所示:
论文·Neural Relation Extraction with Selective Attention over Instances
其中nr是关系的总数,o是神经网络的最终输出,其对应于与所有关系类型相关的分数,其定义如下其中d 是偏差矢量,M是关系的表示矩阵。
论文·Neural Relation Extraction with Selective Attention over Instances

上一篇:多厂商***系列之十七:华为AR系列路由器 实现l2tp over ipsec ***【包括华为软件


下一篇:FlinkSql中窗口(window)的使用