An Improved Baseline for Sentence-level Relation Extraction

Abstract & Contribution



  1. 关系实例包含多个方面的实体信息,如实体名字、范围、类型;已有的模型并没有将其作为输入。
  2. 由于预定义的知识本体还具有一定的限制,所以不可避免地有一些关系并不在知识本体中并被标注为NA类别,但是实际上他们可能有更多样的语义关系。


  1. 使用typed marker1提高对于实体表达的效果;
  2. 对被分类为NA的实例,使用confidence-based classification2进行分类,设定一个置信程度,如果最终的分数低于置信度再归类为NA类别。


Model for RE

本文的RE模型主要是扩展了之前的 基于tranformer3的关系抽取4

实体表示Entity Representation

针对实体表示的多个问题,本文对比了多个实体表示方法,包括Entity mask5、Entity marker6、Entity marker (punct) 7、Typed entity marker8、Typed entity marker (punct)(本文提出的):

An Improved Baseline for Sentence-level Relation Extraction


  1. 本文提出的实体标注方法表现非常好,F1值达到了74.5%;
  2. 引入特殊的符号标记,让RoBERTa模型的效果更差;

另一方面,对于新实体的推理方面。之前的工作9表明:实体名字可能对关系类型缺乏启发性,并且只用实体对作为输入能达到更高的效果,因此建议RE分类器不使用entity mark可能对未遇见地实体不具有较好适用性。

但是,使用entity mask又会导致缺失实体信息,无法将实体信息更好学习101112;如果不考虑实体的名字,那么任务不能通过外部知识库进行优化提高。

因此本文提出一个过滤评价(Filtered evaluation setting):对测试及进行筛选,筛选出其实体在训练集没出现过的的测试数据作为过滤测试集(Filtered test set)。然后评估结果如下图:An Improved Baseline for Sentence-level Relation Extraction

结论是:Typed Entity Marker(OURS)的效果依然比Entity Mask.

NA instances



本文方法:使用基于置信度的分类模型,如果一个样本有对应类别关系,就给与较高的置信分,低于置信分的样本则被分为NA类别。本文方法类似于Bendale和Dhamija的开放数据集的分类1314 和Liang的OOV检测15.我们给定一个句子 x x x,计算出每个类别的分类概率 p ∈ R ∣ R ∣ p \in \mathbb {R}^{|\mathcal R|} p∈R∣R∣和置信分数 c = m a x r ∈ R p r c= max_{r \in\mathbb {R}}p_r c=maxr∈R​pr​,通过最大的分类概率确定对应的类别。


  1. NA类别足够低分;
  2. 其他类别足够高分;



c s u p = ∑ r ∈ R p r 2 c_{sup} = \sum_{r \in \mathcal R} p^2_r csup​=r∈R∑​pr2​

L c o n f = l o g ( 1 − c s u p ) \mathcal{L} _{conf} = log (1-c_{sup}) Lconf​=log(1−csup​)

其中,根据高数的知识得出 c = m a x r ∈ R p r ⩽ c s u p c= max_{r \in\mathbb {R}}p_r \leqslant \sqrt{c_{sup}} c=maxr∈R​pr​⩽csup​ ​,最小化上述函数就相当于最小化c,这回使得训练更加稳定。然后用上述函数对关系 r r r的逻辑 l r l_r lr​进行求导得到:

∂ L c o n f l r = − 2 p r ( p r − ∑ r ∈ R p r 2 ) 1 − ∑ r ∈ R p r 2 \frac {\partial \mathcal{L} _{conf}} {l_r}= - \frac {2p_r(p_r - \sum_{r \in \mathcal R}p^2_r)} {1- \sum_{r \in \mathcal R}p^2_r} lr​∂Lconf​​=−1−∑r∈R​pr2​2pr​(pr​−∑r∈R​pr2​)​


  1. 当 p r = 1 ∣ R ∣ p_r = \frac {1}{| \mathcal{R}|} pr​=∣R∣1​时,置信分取最小值,也就是概率分布是平均分布的时候;
  2. 置信函数通过 1 1 − ∑ r ∈ R p r 2 \frac {1}{1- \sum_{r \in \mathcal R}p^2_r} 1−∑r∈R​pr2​1​,自动对训练实例进行加权。让拥有高置信分数的NA类别样本拥有更高的权重。


  • 训练语料:TACRED 和 SemEval 2010
  • 学习率:3e-5,采用线性衰减的预热学习率的方式,参考资料Warmup预热学习率
  • Batch size:64
  • Epoch:5(TACRED) and 10(SemEval)


An Improved Baseline for Sentence-level Relation Extraction

An Improved Baseline for Sentence-level Relation Extraction


