[论文阅读]Three Sentences Are All Y ou Need: Local Path Enhanced Document Relation Extraction

论文地址:https://arxiv.org/abs/2106.01793
代码地址:https://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need
数据集:DocRED,CDR,GDA


问题:对于文档级关系抽取,给定一个实体对,需要多少句子来确定它们之间的关系?
本文方法简单,作者认为比图卷积效果强
发现人类注释者经常使用少量句子来提取文档级别的实体关系。这促使我们思考哪些句子对文档重建至关重要。我们仔细设计了启发式规则,从整个文档中选择信息路径集,这些规则可以进一步与简单的BiLSTM结合,在基准数据集上实现有竞争力的性能。
[论文阅读]Three Sentences Are All Y ou Need: Local Path Enhanced Document Relation Extraction
三种启发式规则来从文档中提取一小部分路径(这可以看作是支持证据的近似):
1)头实体与尾实体在上下文不超过3句的范围内,视为一条路径
2)如图中第三个关系所示,句子[1]与句子[6]中同时出现了The Espoo Cathedral,两个句子之间的线路就组成了多跳路径
3)当上述两个规则都不适用时,我们收集所有句子对,其中一个包含head实体,另一个包含tail实体作为默认路径。


通过将我们的路径集与人类注释的支持证据进行比较,我们发现高达87.5%的支持证据可以被我们的启发式选择路径完全覆盖。换句话说,我们简单易懂的规则可以有效地从文件中选择支持证据。我们进一步将我们选择的路径反馈给一个简单的神经网络模型,并在DocRED上获得了令人惊讶的良好性能,这表明我们选择的证据可以从整个文档中保留足够的信息,以支持文档级关系提取。


[论文阅读]Three Sentences Are All Y ou Need: Local Path Enhanced Document Relation Extraction
Sent:平均句子数 支持证据大小不同的实例所占比例
分析了DocRED中提供的支持证据。关系实例的支持证据指的是可用于确定该关系是否存在于实体对之间的所有句子,这些实体对由人类注释者标记(Yao等人,2019年)。表1显示了不同支持句数的实体关系实例的比例。可以看出,超过96%的记录实例与最多3个支持证据有关。因为文档的平均长度是8句话,所以它们只占文档的37.5%。这意味着读取文档的一小部分就足以识别实体关系实例。


如何选择足以识别实体关系实例的支持句。直觉上,支持证据应该是在一对实体之间建立联系的句子。因此,我们的目标是提取从头部实体到尾部实体的句子路径来描述它们是如何连接的。至于最简单的情况,如果有一个句子同时包含头实体和尾实体,那么这个句子本身可以被视为一条路径(句内情况)。对于头部和尾部实体不同时出现在一个句子中的更复杂的情况,我们定义了以下三种类型的路径,它们表明头部和尾部实体在上下文中可能是如何关联的。图2显示了三种类型的路径。
[论文阅读]Three Sentences Are All Y ou Need: Local Path Enhanced Document Relation Extraction


与Annotated Evidence相比

路径的并集有望成为支持证据的超集。我们使用支持证据的覆盖率来衡量路径集的充分性,它代表支持证据完全被路径的并集覆盖的实例的百分比。
[论文阅读]Three Sentences Are All Y ou Need: Local Path Enhanced Document Relation Extraction
Path和Sent是所有路径并集中的平均路径数和平均句子数。
上表显示了通过我们的规则提取的路径集的统计信息。连续路径形成了一个强大的基线,覆盖了71.7%的实例。结合这三种类型,我们的路径集完全覆盖了支持证据中高达87.5%的实例。C+M+D不能涵盖所有实例的主要原因是,DocRED中注释的支持证据包括所有关联的句子,而C+M+D只能找到足够的集合来识别关系。
同时,请注意,这三种类型的联合平均只包含2.69个不同的句子,这意味着我们的方法可以过滤掉多达2/3的原始文本。此外,我们的方法计算效率很高,因为平均只需要对2.27条路径进行建模。这表明,我们的方法对支持黄金的证据形成了充分且非冗余的估计,大大减轻了不相关信息的负面影响。


Experiments

给定一对实体,首先按照上述提取所有路径。由于每条路径对应于头部和尾部实体的一个可能连接,因此我们独立地预测每条路径的关系,并随后聚合结果。
对于每条路径\(c\),将所有句子连成一段\(\left[\mathbf{w}_{1}^{\mathbf{c}}, \ldots, \mathbf{w}_{\mathbf{m}}^{\mathbf{c}}\right]\),输入到BiLSTM中得到\(\left[\mathbf{h}_{1}^{\mathrm{c}}, \ldots, \mathbf{h}_{\mathrm{m}}^{\mathrm{c}}\right]\)
DocRED提及定义:\(\mathbf{m}_{\mathbf{k}}^{\mathbf{c}}=\frac{1}{t-s+1} \sum_{j=s}^{t} \mathbf{h}_{\mathbf{j}}^{\mathbf{c}}\)
DocRED实体定义:\(\mathbf{e}_{\mathbf{i}}^{\mathbf{c}}=\frac{1}{K} \sum_{k} \mathbf{m}_{\mathbf{k}}^{\mathbf{c}}\)
然后,我们使用两层感知器根据当前路径\(c\)计算每个关系\(r\)的概率: \(P_{i j}^{c}(r)=\sigma\left(F\left(\left[e_{i}^{c} ; e_{j}^{c} ;\left|e_{i}^{c}-e_{j}^{c}\right| ; e_{i}^{c} * e_{j}^{c}\right]\right)\right)\)
\(\sigma\)为Sigmoid函数,\(F(·)\)代表两层感知器
在获得给定实体对之间每条路径的预测后,我们通过选择最可能的预测来聚合预测结果:\(P_{i j}(r)=\max _{c} P_{i j}^{c}(r)\)


Results(DocRED)

[论文阅读]Three Sentences Are All Y ou Need: Local Path Enhanced Document Relation Extraction
尽管基于图形的模型显示出以自适应方式关注重要信息的出色能力,但从文档中明确选择比完全依赖基于图形的模型更有帮助。通过受人类注释启发的简单过滤方案,我们可以更好地挖掘现有模型的潜力并产生更好的结果。


语言学角度:
考虑到语言形式,看似遥远的关系并不那么困难。史蒂文森(2006)提到,大多数句子间关系实例实际上是由共同引用(回指表达或替代描述)造成的。在这些情况下,关系可以被视为完全在一个传感器内描述,但间接涉及头部或尾部实体。考虑到回指表达可能出现在候选人提及的周围句子中(Chowdhury和Zweigenbaum,2013),这些发现与我们的观察结果直接一致,即连续路径可以支持70%以上的关系实例,并为三句话现象提供证据。
认知视角:
另一种可能的解释是,鉴于人脑的性质,再任务自然是在有限的实体和环境中定义的。人们普遍认为,工作记忆(Working Memory,WM)(Baddeley,1992)在推理任务中存储和操作信息方面起着至关重要的作用(Barreyro等人,2012),但工作记忆中独立信息块的容量通常仅限于4个(Cowan,2001)。由于我们需要记住推理链中的所有独立实体及其关系,因此我们倾向于在有限的句子中描述关系是很自然的,因为呈现更多句子的关系可能会导致WM超出其容量。Daneman和Carpenter(1980)表明,如果阅读任务需要太多信息,超过了受试者的WM能力,那么完成阅读任务的成功率就会急剧下降。因此,由于数据集是从自然语言构建的,数据中的三句话现象可能是我们(无意识地)为了相互理解而遵循的一种共同模式。

上一篇:医院CRM:优秀的医美机构如何做好运营之网红营销,实现业绩稳健增长?


下一篇:crm软件对于中小企业究竟有哪些好处呢?