1. 任务定义、目标和研究意义
关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本 中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。关系抽取的输 出通常是一个三元组(实体 1,关系,实体 2)。例如,句子“北京是中国的首都、 政治中心和文化中心”中表述的关系可以表示为(中国,首都,北京),(中国, 政治中心,北京)和(中国,文化中心,北京)。
关系抽取是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意 义和广阔的应用前景,为多种应用提供重要的支持,主要表现在:
(1)大规模知识图谱的自动构建。很多互联网应用都需要知识图谱的支撑, 这个知识图谱不仅包含 WordNet、HowNet 等常识知识图谱中的通用语义知识, 而且包含百科全书、领域知识图谱中的领域语义知识。如果能把多源异构知识集 成为一个大的知识图谱,将可能提高很多互联网应用系统的性能,并开创语义网 时代的很多应用。现有的知识图谱如 WordNet、HowNet 和 CYC 等大多数依靠专 家人工编撰。随着互联网的发展,知识呈爆炸式增长,人工构建知识图谱特别是 构建领域知识图谱时遇到了很大困难,不仅费时费力,而且存在知识覆盖率低、 数据稀疏和更新缓慢等问题。利用关系抽取技术,知识图谱可以根据结构化的抽 取结果自动生成。典型的例子有:Freebase、Yago 和 BDpedia。
(2)为其它信息获取技术提供支持。
- 对信息检索提供支持:可以对复杂 的查询进行关联搜索和推理,提供智能检索结果。例如,对于“身高 170 以上的 中国射手座明星”,有了关系抽取技术的支持,通过知识图谱构建,就可以通过推理的方法获得结果。图 1 展示了百度搜索引擎对“身高 170 以上的中国射手座 明星”查询返回的结果,这个结果的背后就受到大规模知识图谱的支撑。
- 对 问答系统提供支持:在问答中,关键步骤是建设一个领域无关的问答类型体系并 找出与问答类型体系中每个问答类型相对应的答案模式,这就需要关系抽取技术 的支持。
(3) 自然语言理解。目前深层的语言理解系统在正确率和性能方面还难以令 人满意,关系抽取是篇章理解的关键技术,运用语言处理技术可以对文本的核心 内容进行理解,因此语义关系抽取的研究将成为从简单的自然语言处理技术到真 正的自然语言理解应用之间的一个重要纽带,能改进自然语言处理领域的很多任 务的性能,如实体链接和机器翻译等。
2. 研究内容和挑战
关系抽取系统处理各种非结构化/半结构化的文本输入(如新闻网页、商品 页面、微博、论坛页面等),使用多种技术(如规则方法、统计方法、知识挖掘 方法),识别和发现各种预定义类别和开放类别的关系。根据关系类别是否预定 义,目前关系抽取的核心研究内容可以划分为限定域关系抽取和开放域关系抽取。 以下分别介绍具体的研究内容。
限定域关系抽取。限定域关系抽取是指系统所抽取的关系类别是预先定义好 的,比如知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别一般是 人工定义或者从现有知识图谱中自动获取。由于关系类别已经预先定义,所以一 般可以人工或者基于启发式地规则自动构建标注语料。因此限定域关系抽取中的 主要研究内容是如何利用有监督或弱监督的方法抽取预定义的实体关系知识。在 有监督的方法中主要的研究内容集中在如何挖掘更多能表征相应语义关系的特 征上。在弱监督的方法中主要的研究内容集中在如何降低自动生成语料中的噪声。
开放域关系抽取。开放域关系抽取不预先定义抽取的关系类别,由系统自动 从文本中发现并抽取关系。因此开放域关系抽取也称为开放式关系发现。由于没 有事先定义关系的类别,因此开放域关系发现中利用关系指示词代表关系的类型。 主要的研究内容是如何利用无监督的方法自动的抽取关系三元组。
关系抽取目前主要面临如下三个挑战:
- 自然语言表达的多样性:关系抽取的核心是将自然语言表达的关系知识映射到关系三元组上。然而, 自然语言表达具有多样性和隐含性,导致关系抽取任务极具挑战性。自然语言表 达的多样性指的是同一种关系可以有多种表达方式,例如“总部位置”这个语义关 系可以用“X 的总部位于 Y”,“X 总部坐落于 Y”,“作为 X 的总部所在地,Y…” 等等不同的文本表达方式。自然语言表达的多样性是关系抽取的一大挑战。
- 关系表达的隐含性:关系表达的隐含性是指关系有时候在文本中找不到任何明确的标识,关系隐 含在文本中。例如:蒂姆·库克与中国移动董事长*会面商谈“合作事宜”, 透露出了他将带领苹果公司进一步开拓中国市场的讯号。 在这一段文本中,并 没有直接给出蒂姆·库克和苹果公司的关系,但是从“带领苹果公司”的表达, 我们可以推断出蒂姆·库克是苹果公司的首席执行官(CEO)。关系表达的隐含性 是关系抽取的一大挑战。
- 实体关系的复杂性:关系抽取的目标是抽取实体之间的语义关系,然而,真实世界中同一对实体 之间可能有多个关系,而且有的关系可以同时存在,而有的关系是具有时间特性 的。比如:中国和北京的关系有多个,北京坐落于中国,北京是中国的首都,北 京是中国的政治中心,北京是中国的文化中心。这些关系是可以同时存在的。但 是如果两个人本来是夫妻关系,后来离婚了,他们就不是夫妻关系了,是前妻或 者前夫的关系,这个类关系具有时空性,不能单独存在,实体关系的复杂性是关 系抽取的又一挑战。
3.2 基于规则的关系抽取和基于机器学习的关系抽取
3.2.1 基于规则的关系抽取
所谓基于规则的关系抽取方法是指首先由通晓语言学知识的专家根据抽取 任务的要求设计出一些包含词汇、句法和语义特征的手工规则(或称为模式), 然后在文本分析的过程中寻找与这些模式相匹配的实例,从而推导出实体之间的 语义关系。如 [Fukumoto et al.,1998]依据两个实体之间相关联的特定谓词来判断 它们之间的关系,不过其召回率太低,导致在 MUC-7 测试中 F 指数只有 39.1%。 [Humphreys et al.,1998] 在篇章解释器(Discourse Interpreter)中利用一系列句法 和语义规则识别出实体间的关系,其输入序列来源于增加了语义和指代等信息的 句法分析器。虽然它们的结构较为复杂,但在 MUC-7 的模板任务中 F 指数也分 别只有 23.7 和 54.7。 [Aone et al.,1998] [Aone et al.,2000] 则充分利用语义关系的 局部性特点,在名词短语标注的过程中识别出短语的中心词和它的修饰词之间可能存在的关系,在 MUC-7 的模板关系任务中取得了 75.6 的最高 F 指数。 基于手工规则的方法需要领域专家构筑大规模的知识库,这不但需要有专业 技能的专家,也需要付出大量劳动,因此这种方法的代价很大。知识库构建完成 后,对于特定的领域的抽取具有较好的准确率,但移植到其他领域十分困难,效 果往往较差。因此这种方法在可移植性方面存在着明显的不足。
3.2.2 基于机器学习的关系抽取
按照机器学习方法对语料库的不同需求大致可分成三大类:无监督关系抽取, 有监督关系抽取、弱监督关系抽取。无监督关系抽取希望把表示相同关系的模版 聚合起来,不需要人工标注的数据。有监督关系抽取使用人工标注的训练语料进 行训练。有监督关系抽取目前可以取得最好的抽取效果,但是由于其需要费时费 力的人工标注,因此难以扩展到大规模的场景下。因此有学者提出了利用知识库 回标文本来自动获得大量的弱监督数据。目前弱监督关系抽取是关系抽取领域的 一大热点。
3.2.2.1 无监督关系抽取
无监督关系抽取方法主要基于分布假设(Distributional Hypothesis[Harris et al.,1954]理论,分布假设的核心思想是:如果两个词的用法相似及出现在相同上 下文中,那么这两个词就意思相近。相应的,在实体关系抽取中,如果两个实体 对具有相似的语境,那么这两个实体对倾向于具有相同的语义关系,基于此理论, 无监督关系抽取将两个实体的上下文作为表征语义关系的特征。
基于分布假设理论,首先由 [Hasegawa et al.,2004]提出了一种基于无监督学 习的实体关系发现方法,该方法将大量文本中同一实体对的所有上下文收集起来, 并把这些上下文作为表示语义关系的特征,然后采用层次聚类的方法将特征相似 度较高的实体对聚集在一起,最后从一个聚类中挑选出频率最高的词作为该类关 系的名称。
[Chen et al.,2005] 对 Hasegawa 的方法进行了改进,他们的方法将每 个实体对的上下文,而不是所有相同实体对的上下文,作为实体之间的语义关系 特征。在聚类时,先采用基于熵的方法对词汇特征进行排序,以提高特征集的空 间搜索效率。最后使用 Discriminative Category Matching(DCM)理论[Fung et al.,2002]来衡量特征在某个聚类中的重要性。无监督关系抽取的核心是选取表示实体之间关系的特征,然后再聚类。上文 介绍的方法主要选取上下文特征,与之不同的是,
[Bollegala et al.,2010]利用关系 的对偶性(Relation Duality),提出实体对空间和模板空间可以相互表示,基于这 个理论,使用协同聚类来发现实体对及其关系模板的聚类簇,从每个聚类的簇里 面选择代表性的模板当作此簇对应的关系。另外,无监督关系抽取面临着关系聚 类簇中的多义问题,即同一个模板可能表达不同的关系,针对此问题,
[Yao et al.,2012]使用主题模型(Topic Model)将实体对及其对应的关系模板分配到不同 34 的语义类别上,然后再使用聚类的方法将这些语义类别映射到语义关系。 无监督关系抽取方法可以发现新的关系,但其发现的新的关系往往是相似模 板的聚类,其缺点是得到的关系不具语义信息,难以规则化,很难被用来构建知 识库,如果需要得到语义关系,需要通过将其同现有知识库的关系进行对齐,或 者通过人工的方式来给每个聚类关系簇赋予语义信息。
3.2.2.2 有监督关系抽取
在使用有监督的方法解决关系抽取问题时,一般将关系抽取看作是一个多分 类问题,提取特征向量后再使用有监督的分类器进行关系抽取,有监督的方法性 能较好[Zhou et al.,2005] [Mooney et al.,2006] [Bunescu et al.,2005] ,目前占据主 导地位,研究人员在这方面做了大量的工作。有监督关系抽取可以分为:基于特 征向量的方法、基于核函数的方法和基于神经网络的方法。
基于特征向量的方法特点是需要显式地将关系实例转换成分类器可以接受 的特征向量,其研究重点在于怎样提取具有区分性的特征,通过获取各种有效的 词汇、句法和语义等特征,然后有效地集成起来,从而产生描述关系实例的各种 局部和全局特征。
- 文献[Kambhatla et al.,2004]中的方法综合考虑实体本身、实体 类型、依存树和解析树等特征,然后使用最大熵分类器判断实体间的关系。[Zhao et al.,2005]进一步将这些特征按照实体属性、二元属性、依存路径等类别进行划 分。
- [Zhou et al.,2005]系统地研究了如何把包括基本词组块(Chunk)在内的各种 特征组合起来,探讨了各种语言特征对关系抽取性能的贡献,特别研究了 WordNet 和 Name List 等语义信息的影响。
- [Wang et al.,2006]又进一步加入了从句 子的简化准逻辑形式(SQLF,Simplified Quasi Logical Form)导出的谓词语义属 性,该属性定义了连接两个实体之间路径上的谓词序列,并且使用了多达 94 种 语言特征。
- [Jiang et al.,2007]通过统一的特征空间表达形式来研究不同特征对关 系抽取性能的影响,其中特征空间可划分为序列、句法树和依存树等特征子空间。 实验结果表明,从三个子空间中提取出的基本单元特征能取得较好的性能,而再 加入复杂的特征所带来的性能提升很小,只有当不同子空间和不同复杂度的特征 结合起来时,才能取得最好的性能。基于特征向量的方法尽管速度很快,也比较 有效,但其缺点是在转换结构化特征时需要显式地给出一个特征集合,由于实体 间语义关系表达的复杂性和可变性,要进一步提高关系抽取的性能已经很困难了, 因为很难再找出适合语义关系抽取的新的有效的词汇、句法或语义特征。 不同于特征向量的方法,基于核函数的方法不需要构造固有的特征向量空间, 能很好地弥补基于特征向量方法的不足。在关系抽取中,基于核函数的方法直接 以结构树为处理对象,在计算关系之间的距离的时候不再使用特征向量的内积而 是用核函数,核函数可以在高维的特征空间中隐式地计算对象之间的距离,不用 枚举所有的特征也可以计算向量的点积,表示实体关系很灵活,可以方便地利用多种不同的特征,使用支持核函数的分类器进行关系抽取。
基于核函数的关系抽取最早由
[Zelenko et al.,2003],他们在文本的浅层句法树的基础上定义了树核函 数,并设计了一个计算树核函数相似度的动态规划算法,然后通过支持向量机 (SVM)和表决感知器(Voted Perceptron)等
[Grishman et al.,2005]分类算法来抽 取实体间语义关系。
[Culotta et al.,2004]提出基于依存树核函数的关系抽取,他们 使用一些依存规则将包含实体对的句法分析树转换成依存树,并在树节点上依次 增加词性、实体类型、词组块、WordNet 上位词等特征,最后使用 SVM 分类器 进行关系抽取。
Mooney 和 Bunescu[Bunescu et al.,2005]进一步使用最短依存树核 函数,该核函数计算在依存树中两个实体之间的最短路径上的相同节点的数目, 要求对于具有相同关系的实体对,其对应的最短依存树具有相同的高度且达到根 节点的路径相同。为解决最短依存树核函数召回率较低的问题,
Bunescu 和 Mooney[Mooney et al.,2006]又提出基于字符串序列核函数的关系抽取,首先提取 出两个实体之间和前后一定数量的单词组成字符串并把其作为关系实例的表达 形式,规定子序列中允许包含间隔项,进而实现关系抽取。
[Zhou et al.,2007]提出 最短路径包含树核,将语义关系实例表示为上下文相关的最短路径包含树,能根 据句法结构动态扩充与上下文相关的谓词部分,并采用上下文相关的核函数计算 方法,即在比较子树相似度时也考虑根结点的祖先结点,将该核函数同基于特征 的方法结合起来,充分考虑结构化信息和平面特征的互补性。然而该类方法依赖 传统的句法分析等复杂的自然语言处理工具,很多语言没有此类工具,即使有的 语言有此类工具但是也会造成误差传递,影响最终的性能。
近年来,深度学习的方法在有监督关系抽取任务中占据了主导地位。[Zeng et al.,2014] 首先将卷积神经网络应用在了有监督关系抽取任务中。他们主要是应 用了词向量将句子表示成了矩阵,再利用卷积神经网络和 maxpooling 得到句子 的向量表示。最后用 softmax 分类器对该向量进行分类,得到句子的关系类别。 同时期还有 [Thien et al.,2015] [Santos et al.,2015] 等工作也是采用了相似的方法。 还有 [Socher et al.,2012] 利用了长短时记忆网络(LSTM)和句子的依存句法路 径来建模句子的表示,最后再用 softmax 分类器进行分类。为了更好的建模句子, [Zhou et al.,2016] 提出使用双向长短时记忆网络和关注机制。目前大部分学者关 注于如何更好的用深度学习模型建模句子。此类方法一般默认句子中已经标记出 了候选实体,但是实际任务中,需要系统自动发现实体。而且此类方法需要大量 的人工标注的语料作为训练数据才能取得较好的性能。
3.2.2.3 弱监督关系抽取
有监督关系抽取需要大量的标注样本,而人工标注数据费时费力、一致性差, 尤其是面向海量异构的网络数据时,问题就更加明显,为此,研究人员提出弱监督关系抽取。
弱监督关系抽取主要有两种框架:
- 一种是使用半监督学习和主动学习等技术以尽可能少的代价提升抽取效果,如[Sun et al.,2011]通过大规模的词聚类作为额外的特征,以解决实体之间特征过于泛化的问题,从而帮助关系抽取; [Sun et al.,2012]利用主动学习的技术,通过少量的标注数据来发现分类面附近的 未标注数据,对这些数据进行人工标注,从而以更少的标注代价获得更好的抽取 效果。
- 一种框架是使用回标的思想,利用现有知识库中的关系三元组,自动 回标三元组中实体所在的文本作为训练数据,由于其训练数据产生过程不需要人 工标注,所以这种方法代价很低,更加适合大规模多领域的网络文本,它在信息 抽取领域近年来得到较广泛的应用。
弱监督回标思想最早由[Craven et al.,1999]提出,主要研究怎样在文本中抽取结构化数据建立生物学知识库(Biological Knowledge Bases),他们利用 Yeast Protein Database 自动产生标注数据,然后训练朴素贝叶斯分类器抽取结构化数据。
紧接着,[Mintz et al.,2009]使用利用 Freebase 作为知识库,将其中的关系实例所包含的实体同*文本中的实体对齐,以此产生训练数据,然后使用逻辑斯谛回归进行关系抽取。弱监督回标主要基于以下假设:如果两个实体在知识库中具有一定的关系,那么根据同时包含这两个实体的句子,就都能推断出实体 对在知识库中具有的关系。由于语言表达的多样性,弱监督的这种假设往往太过 强烈,两个实体出现在同一个句子中并不能表示它们就一定具有某种语义关系, 有可能这两个实体只是属于同一个话题而已[Riedel et al.,2010]。因此,虽然弱监 督方法克服了有监督方法需要人工标注数据的不足,但也带来了新问题——回标 噪声问题。研究人员提出了一系列模型和方法来克服回标噪声问题,Riedel 等将 弱监督关系抽取看作是一个多示例问题,他们的假设中,只需要在回标出来的所 有句子中,有一个句子能表示两个实体间的关系。将所有回标的句子看作一个包, 其中的每一个句子就是包中的一个示例,从而解决回标噪声的问题。
[Hoffmann et al.,2011] 更进一步,在多实例模型中考虑实体对间可能不止有一种关系,取得 了更好的效果。
[Surdeanu et al.,2012] 不但对噪声训练数据进行建模,并对实体 对可能属于多个关系类型这个问题进行建模,他们提出了基于概率图模型的多实例多标签模型,在以 Freebase 为知识库和纽约时报作为回标语料的数据上进行 实验,结果表明其模型提升了原始方法的抽取效果。
[Takamatsu et al.,2012] 发 现多示例模型的“至少一句表达真实关系”'的假设有可能失败,其通过抽样统计 显示,Freebase 知识库中 91.7%的实体对在英文*文章中只能回标到一个 句子,此时多示例模型的假设不能成立,他们的工作通过产生式图模型来预测可 能具有噪声的特征模板,然后过滤包含这些模板的正样本,利用剩下的样本训练 抽取模型。利用 Freebase 作为知识库,在 NYU 语料上进行回标,针对 15 类关系选取置信度最高的 50 个结果进行人工评测,平均准确率为 89%。
上述方法都是基于传统特征的,然而传统特征的设计耗时费力,扩展性差。
近些年,基于神经网络的方法占据主导地位。[Zeng et al.,2015] 首先提出了用卷 积神经网络来建模句子,并依据 “至少一个假设” ,将整个学习过程视为多示 例学习。利用 Freebase 作为知识库,在 NYU 语料上进行回标,针对 55 类关系 选取置信度最高的 100 个结果进行人工评测,平均准确率为 86%。 [Ji et al.,2017] [Lin et al.,2016] 认为 [Zeng et al.,2015] 的方法只能够利用包中的一个句子,提 出了使用关注机制,自动学得包中每个句子的权重,然后将句子的表示按照权重 加权表示为包的表示,最后对包进行分类,得到包的关系。其中 [Ji et al.,2017] 还使用了外部文本信息。 [Jiang et al.,2016] 提出了不同于 “至少一个” 假设, 他们认为很多情况下,要判断一个包的关系要同时使用多个句子的信息,因此提 出了 Cross-sentence maxpooling 的方法。除此之外,最近有 [Luo et al.,2011] 提 出使用动态矩阵来建模噪声,以此来增强弱监督关系抽取。 [Lin et al.,2017] 还 关注了跨语言的弱监督关系抽取。 目前,基于机器学习的关系抽取方法占据了主导地位。然而,无监督的关系 抽取得到的知识缺乏语义信息、很难归一化;有监督关系抽取中需要大量人工标 注的高质量数据作为训练语料,人工标注耗时费力成本高,所以很难大规模推广; 弱监督关系抽取虽然可以自动生成大规模训练语料,但是自动生成训练语料的过 程中需要大规模的已有知识图谱作为种子,而且生成的语料中会有噪音数据。
4. 技术展望与发展趋势
从 20 世纪 90 年代以来,关系抽取技术研究蓬勃发展,已经成为了自然语言 处理和知识图谱等领域的重要分支。这一方面得益于系列国际权威评测和会议的 推动,如消息理解系列会议(MUC,Message Understanding Conference),自动内容抽取评测(ACE,Automatic Content Extraction)和文本分析会议系列评测(TAC, Text Analysis Conference)。另一方面也是因为关系抽取技术的重要性和实用性, 使其同时得到了研究界和工业界的广泛关注。关系抽取技术自身的发展也大幅度 推进了中文信息处理研究的发展,迫使研究人员面向实际应用需求,开始重视之 前未被发现的研究难点和重点。纵观关系抽取研究发展的态势和技术现状,我们 认为关系抽取的发展方向如下:
面向开放域的可语义化的关系抽取技术 目前,绝大部分的关系抽取研究集中预定义的关系抽取上,并致力于构建更 精准的有监督抽取模型和方法,使用标注语料训练模型参数。然而,在构建真实 环境下的关系抽取系统时,这些有监督方法往往存在如下不足:
1)更换语料类 型之后,现有模型往往会有一个大幅度的性能下降;
2)无法抽取目标关系类别 之外的实体关系知识;
3)性能依赖于大规模的训练语料;
4)现有监督模型往往 依赖于高复杂度的自然语言处理应用,如句法分析。
目前已经有很多机构和学者进行开放域的关系抽取的研究,但是目前的方法抽取的关系很难语义化,同一个实体对的同一关系会抽取出不同的表达,另外不 同的数据来源其质量和可信度不同,如何整合不同数据源抽取的关系知识,并将 同一关系的知识进行消歧进而语义化是一个迫切需要解决的问题。
篇章级的关系抽取
现有大多数的关系抽取集中在从包含两个指定实体的一个或者多个句子中 抽取关系,很少有工作将抽取范围扩大到篇章级别。然而,真实环境下,如产品 说明书等,一篇文章会描述多个实体的多个属性或者关系,而且文本中存在大量 的零指代的语言现象,因此必须利用篇章级的信息进行关系和属性值的抽取。
具有时空特性的多元关系抽取 目前,绝大部分的关系抽取研究集中在二元关系抽取上,即抽取目标为三元 组(实体 1,关系,实体 2),然而二元关系很难表达实体关系的时间特性和空间 特性,而且很多关系是多元的,例如:NBA 球星勒布朗詹姆斯效力过的球队。 这就是一个多元关系,首先他效力过的球队有多支,其次效力于每支球队的时间 也不同,这就是关系的时空性和多元性。具有时空特性的多元关系能建模和表达 更丰富的关系知识,是未来研究的一个方向。 最后,纵观近 30 余年来关系抽取的现状和发展趋势,我们有理由相信,随 着海量数据资源(如 Web)、大规模深度机器学习技术(如深度学习)和大规模 知识资源(如知识图谱)的蓬勃发展,关系抽取这一极具挑战性同时也极具实用 性的问题将会得到相当程度的解决。同时,随着低成本、高适应性、高可扩展性、 可处理开放域的关系抽取研究的推进,关系抽取技术的实用化和产业化将在现有 的良好基础之上取得进一步的长足发展。