作者:刘锁阵
单位:燕山大学
论文地址:https://www.aclweb.org/anthology/P18-4009.pdf
发布时间:2018
文章目录
背景介绍
作者提出了一个事件检测框架来检测事件并从文档级别的金融新闻中提取事件信息。
- 提出DCFEE框架,可以自动产生大量的带标签的数据,并且可以从金融通告中提取文档级别的事件。
- 引入了自动数据标注方法,用于事件提取。并为了构造中文金融事件数据集给了大量有用的建议。我们提出了基于神经网络序列标注模型的文档级别的EE系统,包含关键事件检测模型,和参数补全策略。
- DCFEE系统已经成功上线为一个在线应用,它可以从金融通告中提取事件。
模型方法
数据产生
图 3 描述了产生带标签数据的过程。在本节,作者首先引入使用的数据源。然后描述自动标注数据的方法。最后将介绍一些能够被用于提高带标签数据的质量的技巧。
数据源:两种类型的数据源:结构化的事件数据和非结构化的文本数据(包含事件信息)
- 本文使用的金融事件知识数据库是包含9个公共金融事件类型的结构化数据,并且它以表格形式存储。
- 未结构化的数据来自公司发布的官方公告,以非结构化形式存储在网络上。
数据产生的方法:标注数据由两部分组成,即通过标注事件触发词和事件参数来产生句子级别的数据;通过在文档级别的公告中标注事件来产生文档级别的数据。现在问题是:如何找到事件触发词?对于金融事件的每个类型,可以构造一个事件触发器的字典。例如在Equity Freeze事件中的frozen,在Equity Pledge中的pledged。因此,我们可以自动识别事件并且标注事件触发词和事件参数。然后,提到的事件会被标记为positive。而其余的句子被标记为negative。
技巧:在数据标注中存在的问题:财务公告与事件知识库的对应关系;事件参数的歧义和缩写。可以通过降低搜索空间、正则化表达式、设置规则来解决这些问题。
事件提取
图4是EE系统的整个框架,主要包含两个部分:
- SEE,目的是从句子中提取事件参数和事件触发词;
- DEE,目的是基于关键事件检测模型和参数补全策略从整个文档中提取事件参数。
句子级别的事件提取(SEE)
SEE其实就是一个序列标注任务。作者将句子表示为BIO格式:如果当前token是事件参数的开始,将将该字符标记为 B-label ;如果当前token在事件参数中间,就标记为I-label;其它字符标记为O-label。
SEE特定模型的实现在图4的左边。它由Bi-LSTM网络和CRF层组成。在句子中每个中文字符被表示为一个向量,该向量作为Bi-LSTM的输入;Bi-LSTM层的输出将每个字符映射到分数上。CRF层被用于解决标签偏差问题。
文档级别的事件提取(DEE)
DEE由两部分组成:
- 关键事件检测模型,目的是找到文档中提到的事件
- 参数补全策略,目的是填充丢失的事件参数
-
关键事件检测:事件检测的输入由两部分组成:一个是事件参数、来自于SEE输出(蓝的)的事件触发词的表示;一个是当前句子(红的)的向量表示。两个部分连接起来作为CNN的输入特征。然后当前的句子被分类为两类:是关键事件 或者 不是关键事件。
-
参数补全策略:在通过DEE得到包含大多数事件参数的关键事件,并且通过SEE得到了文档中每个句子的事件提取结果后。为了获取完整事件信息,作者使用参数补全策略能自动填充来自周围的句子的消失的事件参数。正如图 4 而言,一个集成的 Pledge 事件包含事件 S n S_n Sn 中的事件参数和来自于 S n + 1 S_{n+1} Sn+1 的填充的事件参数l2 months。
实验结果
总结
作者提出了DCFEE框架,该框架可以基于自动标注的数据来从中文金融公告中提取文档级别的事件。实验结果表明了该系统的有效性。作者还将该系统上线,使得使用者可以通过it9从金融公告中快速得到事件信息。