【论文阅读】Entity and Evidence Guided Relation Extraction for DocRED[2020]

2024-03-02 16:50:58

论文地址：https://arxiv.org/abs/2008.12283

论文地址：未找到

我读的第二篇利用Evidence特征的论文。今天是除夕，文章没全弄明白，顺便祝大家身体健康，万事如意。

Abstract

我们提出了一个联合训练框架E2GRE（实体和证据引导的关系提取）(Entity and Evidence Guided Relation Extraction)。首先，我们引入实体引导序列entity-guided sequences作为预训练语言模型（如BERT，RoBERTa）的输入。这些实体引导序列有助于预先训练的语言模型language model（LM）将重点放在文档中与实体相关的区域。第二，我们利用预训练语言模型的内部注意概率作为证据预测的附加特征来指导预训练语言模型的微调we guide the fine-tuning of the pretrained language model by using its internal attention probabilities as additional features for evidence prediction.。我们的新方法鼓励预先训练的语言模型关注实体和支持/证据句。我们在DocRED上评估了E2GRE方法，DocRED是最近发布的用于关系提取的大规模数据集。我们的方法能够在所有指标的公共排行榜上取得最先进的结果，表明我们的E2GRE在关系提取和证据预测方面既有效又协同。

1 Introduction

图1显示了DocRED数据集的一个示例（Yao et al.，2019a），它需要对三个证据句进行推理，以预测“塞尔达传奇”是“链接”的发布者这一相关事实。

解决这个问题的一个自然尝试是对大型预训练语言模型（LMs）进行微调（例如，GPT（Radford et al.，2019），BERT（Devlin et al.，2019a），XLnet（Yang et al.，2019），RoBERTa（Yinhan Liu，2020）），这是一个已被证明在许多NLP任务中非常成功的范例。例如，最近关于DocRED的所有论文都使用BERT作为编码器来获得最新的结果（Tang et al，2020；Nan et al，2020）。然而，单纯地将预训练LMs应用于文档级，又面临着一个限制其性能的关键问题。由于给定文档的长度，文档级关系抽取中具有有意义关系的实体对多于句内关系抽取中的实体对。一个预训练的LM必须同时对所有实体对的信息进行编码，以进行关系提取。因此，与句内RE相比，预训练LM对所有标记的注意值对于文档级RE更为一致Therefore,attention values that the pretrained LM gives over all the tokens are more uniform for document-level RE compared to intra-sentence RE.。具有更统一注意值的问题限制了模型从文档的相关标记中提取信息的能力，从而限制了预训练LM的有效性。

为了缓解这个问题，我们提出了一种新的实体和证据引导关系抽取（E2GRE）。对于文档中的每个实体，我们通过将实体附加到文档的开头appending the entity to the beginning of a document来生成一个新的输入序列，然后将其输入到预训练的LM中。因此，对于每一个有实体的文档，我们生成一个实体引导的输入序列用于训练。通过引入这些新的训练输入，我们鼓励预训练的LM关注文档开头所附加的实体。我们通过直接使用内部注意概率作为证据预测的附加特征，进一步利用预训练LM。关系抽取和证据预测的联合训练有助于模型定位关系抽取所需的正确语义。这两种思想都充分利用了预训练LMs的优点，以充分利用预训练LMs来完成任务。我们的主要贡献是提出E2GRE方法，该方法由以下两个主要成分组成：

1.对于每个文档，我们生成多个新的输入以输入到预先训练的语言模型中：我们将每个实体与文档连接起来，并将其作为输入序列输入到语言模型中。这使得从预先训练的LM中对内部表示的微调由实体引导。

2.我们进一步建议使用internal BERT注意概率作为证据预测的附加特征。这使得预训练的LM的内部表征的微调也可以由证据/支持句来指导。We further propose to use internal BERT attention probabilities as additional features for the evidence prediction. This allows the finetuning of the internal representations from the pretrained LM to be also guided by evidence/supporting sentences.

2.2 Pretrained Language Models

预训练语言模型（LMs）是近年来出现的一种强有力的工具。最近的预训练LMs（Radford et al.，2019；Devlin et al.，2019a；Yang et al.，2019；Yinhan Liu，2020）是基于Transformer的（V aswani et al.，2017），并使用大量数据进行训练。（Devlin等人，2019b）是第一个发布的基于大型预训练变压器的LM，并立即在许多NLP任务上获得最先进的性能。新的预训练LM模型，如XLNet（Yang et al.，2019）和RoBERTa（Yinhan Liu，2020）进一步提高了大多数NLP任务的性能。

为了利用这些模型看到的大量文本，我们对模型中的所有权重进行了微调。对大型预训练LMs的微调已被证明对关系提取有效（Wadden et al.，2019）。一般来说，大型预训练LMs用于编码序列，然后生成头/尾实体对的表示以学习分类（Eberts and Ulges，2019；Y ao et al.，2019b）。Baldini Soares et al.（2019）引入了一个类似于BERT的新概念，称为“匹配黑色matching-the-black”，并对关系学习的Transformer式模型进行了预训练pretrained a Transformer-like model for relation learning。这些模型在SemEval-2010任务8上进行了微调，TACRED获得了最先进的结果。我们的方法旨在提高预训练LMs的有效性，并用实体和证据引导的方法直接影响预训练LMs的微调。

3 Methods

介绍E2GRE方法。我们首先在第3.1节中描述如何生成实体引导entity-guided的输入。然后，我们在第3.2节中介绍了实体引导entity-guided的关系抽取。最后，我们在第3.3节中描述了实体和证据引导的RE联合训练。我们使用BERT作为预训练LM的一个embodiment ，并且在描述我们的方法时使用BERT。

3.1 Entity-Guided Input Sequences

我们设计了实体引导输入，以便在微调时对实体提供更多的引导。每个训练输入都是通过将第一次提及的单个实体的标记（named Concatenated Head Entity）与文档标记D连接起来，形成：“[CLS]”“+H+”[SEP]”“+D+”[SEP]”，然后输入BERT。我们为给定文档中的每个实体生成这样的输入序列。因此，对于具有$N_e$实体的文档，生成$N_e$个新的实体引导输入序列，并将其分别送入BERT。

由于BERT的512个标记的序列长度限制，如果训练输入的长度大于512，我们在文档上使用滑动窗口方法：我们将输入分离成多个序列。第一个序列是原始输入序列，最多512个令牌。第二个序列与第一个序列相同，与文档有一个偏移量，以便文档可以到达末尾。显示为“[CLS]”+H+“[SEP]”+D[offset:end]+“[SEP]”。我们将这两个输入序列结合在我们的模型中，通过平均嵌入，并在模型中计算两次令牌的BERT注意概率。

3.2 Entity-Guided Relation Extraction

对于给定的训练输入，我们有一个头部实体，与输入中的串联实体concatenated entity H相对应，以及位于文档$D$中的$N_e-1$个不同的尾部实体，我们的方法预测每个训练输入的$N_e−1$个不同关系，对应于$N_e−1$头部/尾部实体对。

将训练输入传递给BERT后，从BERT输出中提取出头部实体embedding和尾部实体embedding。我们对连接的头实体令牌上的嵌入concatenated head entity tokens进行平均，以获得头实体embedding $h$ 。This is shown as the Head Extraction in Fig. 2.In order to extract the k-th tail entity embedding $t_k$, we locate the indices of the tokens of k-th tail entity, average the output embeddings of BERT at these indices to get $t_k$(i.e., Tail Extraction in Fig. 2).在获得实体引导序列中的头实体嵌入$h∈R^d$和所有尾实体嵌入$\{t_k|t_k∈R^d\}$后，其中$1≤k≤N_e−1$，我们用sigmoid激活函数将它们送入一个双线性层，以预测头实体$h$和第$k$个尾实体$t_k$之间的第$i$个关系的概率，表示为$\hat{y}_{ik}$，如下:

$\hat{y}_{ik}=\delta(h^TW_it_k+b_i)$

where $δ$ is the sigmoid function, $W_i$ and $b_i$ are the learnable parameters corresponding to i-th relation, where $1 ≤ i ≤ N_r$, and $N_r$ is the number of relations.

Finally, we finetune BERT with a multi-label cross-entropy loss as follow:

$L_{RE}=-\frac{1}{N_r}\frac{1}{N_e-1}\sum_{k=1}^{N_e-1}\sum_{i=1}^{N_r}(y_{ik}log(\hat{y}_{ik})+(1-y_{ik})log(1-\hat{y}_{ik}))$

在推理过程中，关系抽取的目标是预测文档中每对头/尾实体的关系。对于给定的实体引导输入序列“[CLS]”+entity+“[SEP]”+document+“[SEP]”，我们模型的输出是一组$N_e-1$关系预测。我们将来自同一文档和不同头实体的每个序列的预测进行组合，以获得文档上的所有关系预测。

3.3 Evidence Guided Relation Extraction

3.3.1 Evidence Prediction

证据/支持句是包含重要支持事实的句子，用于预测头和尾实体之间的正确关系。因此，证据预测是关系抽取的一个很好的辅助任务，也为模型提供了解释性。

证据预测的目的是预测一个给定的句子是否是一个给定关系的证据/支持句。$N_s$为文档中的句子数。我们首先通过平均$s$中所有单词的嵌入得到句子嵌入$s∈R^{N_S×d}$(i.e., Sentence Extraction in Fig. 2).These word embeddings are derived from the BERT output embeddings.

设$r_i∈R^d$为第$i$个关系$（1≤i≤N_r）$的关系嵌入，该关系在我们的模型中是随机初始化且可学习的。我们采用一个带有sigmoid激活函数的双线性层来预测第$j$个句子成为第$i$个关系$r_i$支持句的概率:

$f_{jk}^i=s_jW_i^rr_i+b_i^r$

$\hat{y}_{jk}^i=\delta (f_{jk}^iW_o^r+b_o^r)$(3)

其中$s_j$表示第$j$个句子的嵌入，$W^r_i/b^r_i$和$W^r_o/b^r_o$表示第i-th关系可学习参数。在给定的第i个关系下，我们将证据丢失预测定义如下：

$L_{Evi}=-\frac{1}{N_t}\frac{1}{N_s}\sum_{k=1}^{N_t}\sum_{j=1}^{N_s}(y_{jk}^ilog(\hat{y}_{jk}^i)+(1-y_{jk}^i)log(1-\hat{y}_{jk}^i))$

where $y^j_{ik}∈ {0,1}$, and $y^j_{ik}= 1$ means that sentence $j$ is an evidence for inferring i-th relation. It should be noted that in the training stage, we use the embedding of true relation in Eq. 3. In testing/inference stage, we use the embedding of the relation predicted by the relation extraction model in Section 3.2需要注意的是，在训练阶段，我们在公式3中使用了真关系的嵌入。在测试/推理阶段，我们使用第3.2节中关系抽取模型预测的关系的嵌入

3.3.2 Evidence-guided Finetuning with BERT Attention Probabilities

BERT模型的内部注意概率有助于定位文档中BERT模型关注的区域。因此，这些概率可以引导语言模型将注意力集中在文档的相关区域以进行关系提取（参见第4.5节中的注意力可视化）。事实上，我们发现注意力值较高的区域通常来自支持句。因此，我们相信这些注意概率有助于证据预测。对于每对头$h$和尾$t_k$，我们利用从最后$l$个内部BERT层中提取的注意概率进行证据预测。

Let $Q ∈ R^{N_h×L×(d/N_h)}$ be the query and $K ∈ R^{N_h×L×(d/N_h)}$ be the key of the multi-head self attention layer, $N_h$ be the number of attention heads as described in (Vaswani et al., 2017), $L$ be the length of the input sequence (i.e., the length of entity-guided sequence defined in Section 3.2) and $d$ being the embedding dimension. We first extract the output of multi-headed self attention (MHSA) $A ∈ R^{N_h×L×L}$ from a given layer in BERT as follows. These extraction outputs are shown as “Attention Extractor” in Fig. 2.

$Attention=softmax(\frac{QK^T}{\sqrt{d/N_h}})$

$Att-head_i=Attention(QW_i^Q,KW_i^K)$

$A=Concat(Att-head_i,...,Att-head_n)$(7)

For a given pair of head $h$ and tail $t_k$, we extract the attention probabilities corresponding to head and tail tokens to help relation extraction. Specifically, we concatenate the MHSAs for the last $l$ BERT layers extracted by Eq. 7 to form an attention probability tensor as:$\tilde{A}_k∈ R^{l×N_h×L×L}$.

然后，我们计算每个句子在给定的头尾实体对下的注意概率表示，如下所示。

1. We first apply maximum pooling layer along the attention head dimension (i.e., second dimension) over$\tilde{A}_k$. The max values are helpful to show where a specific attention head might be looking at最大值有助于显示特定注意头可能在看什么。. Afterwards we apply mean pooling over the last $l$ layers. We obtain $\tilde{A}_s= \frac{1}{l}\sum_{i=1}^lmaxpool(\tilde{A}_{ki})$,$\tilde{A}_s∈ R^{L×L}$ from these two steps.

2. 然后，根据在文档中的起始和结束位置，从头部和尾部实体令牌中提取注意概率张量。我们对所有头部和尾部嵌入标记的注意概率进行平均，得到$\tilde{A}_{sk}\in R^L$。

3.最后，我们通过对文档中给定句子中每个tokens的注意进行平均，从$\tilde{A}_{sk}$生成句子表示，以获得$a_{sk}\in R^{N_s}$

一旦我们得到注意概率$a_{sk}$，我们将$a_{sk}$与来自等式3的句子$s$的证据预测结果$\hat{y|^s_{ik}$结合，形成新的句子表示，并将其输入到具有sigmoid的双线性层中，用于证据句子预测，如下所示：

$\hat{y}_k^{ia}=\delta(a_skW_i^af_k^i+b_i^a)$(8)

其中$f_k^i$是给定头/尾实体对的句子嵌入和关系嵌入的融合fused表示向量。

Finally, we define the loss of evidence prediction under a given i-th relation based on attention probability representation as follows:

$L_{Evi}^a=-\frac{1}{N_t}\frac{1}{N_s}\sum_{k=1}^{N_t}\sum_{j=1}^{N_s}(y_{jk}^{ia}log(\hat{y}_{jk}^{ia})+(1-y_{jk}^{ia})log(1-\hat{y}_{jk}^{ia}))$

where $\hat{y}_{jk}^{ia}$ is the j-th value of $\hat{y}_{k}^{ia}$ computed by Eq. 8

3.3.3 Joint Training with Evidence Prediction

我们将关系提取损失和注意概率引导的证据预测损失结合起来作为联合训练的最终目标函数：

$Loss=L_{RE}+\lambda_1*L_{Evi}^a$

where $λ1> 0$ is the weight factor to make tradeoffs between two losses, which is data dependent.

4 Experiments

Dataset:DocRED

4.2 Experimental Setup

The implementation is based on the PyTorch (Paszke et al., 2017) implementation of BERT https://github.com/huggingface/pytorch-pretrained-BERT

我们在一个V100 GPU上运行我们的模型60个时代，结果大约需要一天的训练。

4.3 Main Results

•与HIN模型和BERT+LSR模型相比，我们的方法更直观，设计更简单。此外，我们的方法提供了可解释的关系提取和支持证据预测。

•我们的方法也优于Ign RE F1度量的所有其他模型。这表明我们的模型不记忆实体之间的关系事实，而是检查文档中的相关区域以生成正确的关系抽取。

与原始的BERT基线相比，由于多个新的实体引导输入序列，我们的训练时间稍长。我们研究了基于每个头部和尾部实体对生成新序列的思想，但是这种方法会随着文档中实体的数量二次缩放scale quadratically。使用我们的实体指导方法可以在性能和训练时间之间取得平衡。

4.4 Ablation Study

Analysis of Method Components

Analysis of Number of BERT Layers

4.5 Attention Visualizations

图3显示了天真地应用BERT进行关系提取的注意热图。这张热图显示了“塞尔达传说”和“链接”中每个单词的注意力。我们观察到，该模型能够定位“链接”和“塞尔达系列传奇”的相关区域，但与文档其余部分相比，注意值非常小。因此，该模型很难提取出文档中的信息来生成正确的关系预测。

相比之下，图4显示我们的E2GRE模型突出了证据句，特别是在发现相关信息的领域。与“链接”和“塞尔达系列传奇”相关的短语被赋予更高的权重。将这些短语连接在一起的词语（如“主角”或“涉及”）也具有很高的权重。此外，与基线相比，E2GRE的注意概率范围也要大得多。所有这些短语和衔接词都位于证据句中，这也使得我们的模型在证据预测方面做得更好。

5 Conclusion

为了更有效地利用预训练LMs进行文档级RE，我们提出了一种新的方法E2GRE（实体和证据引导的关系抽取）。我们首先生成新的实体引导序列，将其输入到LM中，将模型集中在文档中的相关区域。然后，我们利用从最后一个l层提取的内部注意来帮助引导LM关注文档的相关区域。我们的E2GRE方法在DocRED数据集上提高了RE和证据预测的性能，在DocRED公众排行榜上达到了最先进的性能。

在未来的工作中，我们计划将注意力引导的多任务学习方法应用到其他具有证据句的自然语言处理任务中。将我们的方法与基于图的NLP任务模型相结合是另一个有趣的探索方向。

码农公寓

相关文章