同济大学 zhou xiaohan对知识图谱的应用情况进行了系统性研究,发表在CCEAI2020的会议上,这里是个简单的翻译。
摘要: 知识图谱,将信息表示为语义图,已经引起了工业界和学术界的广泛关注。 它们提供语义结构化信息的特性为许多任务(包括回答问题,推荐和信息检索)带来了重要的可能解决方案,并被认为为开发更多智能机器提供了广阔的前景。 自Google自2012年提出该术语以来,尽管知识图谱已经在各种商业和科学领域中支持多种“大数据”应用程序,但之前没有进行过系统的研究来对知识图的应用进行系统地回顾。 因此,与专注于知识图的构建技术的其他相关工作不同,本论文旨在对源自不同领域的这些应用程序进行首次调查。 本文还指出,尽管近年来在应用知识图的强大功能(将语义结构化信息提供到特定领域)方面取得了重要进展,但仍有几个方面有待探索。
1.引言
近年来,知识图(KG)已成为许多需要访问结构化知识的信息系统的基础。 语义Web的概念可以追溯到2001年Berners Lee的研究[1]。Berners-Lee在他的工作中提出了诸如统一资源标识符(URI),资源描述框架(RDF)和Web本体论之类的技术标准。 语言(OWL)应得到促进和发展。
一些研究通过在早期使用RDF标准来促进基于图形的知识表示。 这些图中的节点表示实体,并且它们通过表示关系的边连接。 关系集可以以定义它们之间的相关性和使用限制的模式或本体进行组织。
链接数据[2]的概念于2009年问世。提出了在语义Web中将不同的数据集相互链接的概念,以使它们被视为一个大的全局知识图。 到2014年,在链接开放数据云中大约有1000个数据集相互链接,它们之间的大多数链接都连接相同的实体[3]。
Google在2012年提出了一项名为“知识图”的新技术,可以在网络搜索中使用语义知识。 Google的知识图谱用于识别和消除文本中的实体,以语义结构化的摘要丰富搜索结果,并在探索性搜索中提供指向相关实体的链接,以提高搜索引擎的能力并增强用户的搜索体验。 用户。 此后,许多其他公司开始开发自己的知识图。 例如,由Microsoft开发的搜索引擎Bing已与类似的知识图Satori集成在一起。 如今,“知识图”还指的是语义Web知识库,例如DBpedia [4],YAGO [5],Wikidata或Freebase [6]。
知识图已引起工业界和学术界的广泛关注。 它们提供了可以由计算机解释的语义结构化信息,并且这种特性被认为为许多人构建更智能的机器提供了广阔的前景。 关于知识图的许多评论都集中在构造技术上[7-8],尽管知识图已经支持了各种商业和科学领域中的多个“大数据”应用程序,但是没有关于知识图的应用的评论。 因此,本文的主要贡献是对知识图的应用进行了首次调查。
本文的结构如下。 第2节介绍了KG在其中的应用。第3节介绍了我们的结论。
2.应用
知识图技术是Google提出的,近年来引起了很多研究关注。 KG的研究可分为两类:KG的构建技术研究和KG的应用。 关于构建技术的研究集中在图形[7]中知识的提取,表示,融合和推理上,例如在从非结构化文本中提取实体和关系并从此类KG推理新事实之后,正确地将实体和关系链接到KG。 在对应用程序的研究中,强调将KG应用于实际系统和特定领域。 本文对知识图的应用进行了系统的调查。
根据我们目前的调查,大多数致力于将KG应用于特定领域的论文都将其兴趣放在了问答系统,推荐系统和信息检索系统上,这些将在本文的第2.1节至第2.3节中介绍。 第2.4节介绍了幼稚园在医疗,金融,网络安全,新闻和教育等领域具有广阔应用前景的特定领域。 第2.5节介绍了适用于KG的其他一些可能性,例如社交网络或分类。 图1给出了KGs应用领域的分类。
2.1。 问答系统KG的语义信息可用于增强语义意识问答(QA)服务中的搜索结果。 Watson是一个使用YAGO和DBpedia等知识库作为数据源的问题回答系统,是IBM开发的,旨在击败Jeopardy程序中的人类专家,该程序可以用来展示KG的这种价值[9]。 结构化知识也是社交聊天机器人和数字助理(例如XiaoIce [10],Cortana和Siri)的重要组成部分。
关于问答系统的许多研究都使用Freebase作为知识来源并在WebQuestion上测试其系统,包括5,810个问答对[11]或包含超过10万个简单问题的问答系统,可以通过提取单个事实来回答[12]。
KG上的传统QA系统可分为三类:基于语义解析,基于信息检索和基于嵌入。 近年来,深度学习方法与传统方法相结合,以提高基于KG的QA系统的性能。
2.1.1。 基于语义解析。 基于语义分析的QA系统致力于将自然语言问题转换为可以表达整个查询语义的逻辑形式。 然后,解析结果用于生成结构化查询(例如SPARQL)以搜索知识库并获得答案。 Bercant等。 [11]使用Freebase在短语和谓语之间构建粗略映射。 然后,它们在给定问题中采用所有谓词,包括相邻谓词和通过桥接操作基于它们生成的其他谓词,以生成准确的查询并获得正确的答案。 Fader等。 [13]将问题分解为一组较小的相关问题,并将每个小问题映射到查询中以找到其相应的答案。
然后,他们将所有答案组合在一起,以回答给定的问题。 语义解析方法在处理复杂问题时表现出良好的性能。 但是,它依赖于语义解析器的大型手工功能,这限制了应用程序域及其方法的可伸缩性。
2.1.2。 基于信息检索。 基于信息检索的质量保证系统尝试将自然语言问题自动转换为结构化查询。 然后他们从知识库中检索出一组候选答案。 最后,分别提出问题和候选者的特征以对这些候选者进行排名,并提出从中识别正确答案的提议。 这种方法与自然语言问题的语义无关,仅在处理简单查询时就取得了良好的效果。 例如,在[14]中,从给定问题中提取语言信息,例如疑问词,问题焦点,疑问动词和问题主题,以将该问题转换为问题特征图。 然后,形成由主题节点和Freebase中其他相关节点组成的主题图,将主题图中的每个节点视为候选答案。 最后,将从候选答案和主题图提取的特征进行组合,以从候选答案中识别出正确的特征。 此方法依靠规则和依存关系解析结果来提取问题的手工特征。
2.1.3。 基于嵌入。 研究工作[15]是基于嵌入的QA系统的示例。 作者从学习给定问题和实体的低维向量嵌入开始。 然后,他们将Freebase的类型关联起来,以计算问题和候选答案之间的相似性得分。 最后,具有最高相似度分数的候选人将被视为最终答案。 研究工作[16]也以嵌入为核心。 它对不完善的标记训练数据表现出诱人的适应性。 此外,它提出了一种微调基于嵌入的模型,然后不断提高性能的方法。 这样的成就取决于对嵌入空间中采用的相似性进行参数化的矩阵的精心优化。 与语义解析方法和信息检索方法相比,矢量建模方法在没有任何手工特征或训练过程中用于词性标记,句法或依存关系解析的附加系统的情况下,具有竞争优势。 但是,它会忽略字序信息,并且无法处理复杂的问题。
2.1.4。 基于深度学习。 随着自然语言处理领域中深度学习的飞速发展,许多研究开始通过使用深度学习方法来改善传统方法的性能,并取得了良好的效果。 董等。 [17]使用多列卷积神经网络(MCCNN)进行信息检索,而无需依赖手工制作的功能和规则。 他们使用分数层根据问题和候选答案的表示对候选答案进行排名。 郝等。 [18]提供了一种具有交叉注意机制的端到端神经网络模型,该模型考虑了各种候选答案方面来表示问题及其相应的分数。 Yih等。 [19]认为传统语义分析的方法在很大程度上与知识库分离。 受到信息检索方法和嵌入方法的启发,他们减少了语义解析来查询图的生成,并将其表达为一个阶段式搜索问题,以充分利用知识库中的知识。 他们还应用深度卷积神经网络(CNN)模型在早期阶段利用知识库来修剪搜索空间,从而简化了语义匹配问题。 张等。 [20]提出了一种基于注意力的双向长期短期记忆(BiLSTM),以学习使用嵌入方法时问题的表示形式。 实验结果表明,他们的方法是有效的,并且具有表达正确的问题信息的能力。
2.1.5。 更复杂的任务。 近年来,一些研究还集中在更复杂的质量检查任务上。与其他专注于事实提取QA的工作不同,研究工作[21]专注于多跳生成任务。 根据这项工作,使用具有多注意机制的模型来执行多跳推理,并由指针生成器解码器合成答案。 这项工作还提出了一种方法,该方法通过使用从ConceptNet中选择的扎根多跳关系常识信息来填补上下文跳之间的推理空白。 著作[22]专注于包含两种语言的Code-Mix简单问题QA。 它提出了Triplet-Siamese-Hybrid CNN(TSHCNN)来对候选答案进行重新排序,并使用K-Nearest和双语嵌入进行语言转换。
2.2。 推荐系统随着互联网技术的发展,商品,电影和新闻等在线内容的大量涌现成为用户的严重问题。 在这种环境下出现的推荐系统减轻了个人面临的信息过载。 协作过滤(CF)是一种传统的推荐方法,可根据用户的共同偏好和历史互动来执行推荐。 但是,这种方法通常会遭受用户数据稀疏(例如,用户与项目之间的互动)以及冷启动问题的困扰。 因此,解决这些问题以便通过使用辅助信息来改进推荐系统。
最近的研究开始考虑将KG作为辅助信息的来源。 KG中与各种类型的关系有助于提高推荐者的准确性,并增加推荐项目的多样性。 KG还为推荐系统带来了可解释性。 通常,大多数基于KG的推荐系统的现有构建方法可以分为基于嵌入的方法和基于路径的方法。
2.2.1。 基于嵌入。 在推荐系统中利用KG的一种可行方法是基于嵌入的方法,该方法通过知识图嵌入(KGE)算法对KG进行预处理,并将学习到的实体嵌入应用于推荐框架。 DKN [23]是一种基于CNN的方法,建议将实体嵌入与单词嵌入相结合以进行新闻推荐。 张等。 [24]提出了一个统一的贝叶斯框架,其中CF模块与项目的文本嵌入,图像嵌入和知识嵌入相结合。 著作[25]通过使用深层的自动编码器进行推荐,开发了社交,个人资料和情感的多个网络。 Wang等。 [26]设计了一个交叉和压缩单元,以自动在KGE任务和推荐任务之间共享潜在特征,并学习推荐系统中的项目与KG中的实体之间的高级交互。
尽管基于嵌入的方法在将KG应用于推荐系统中表现出很高的灵活性,但它们几乎不能包含文本期望的辅助信息。 同样,基于嵌入的方法的常用KGE算法也不适合推荐。
2.2.2。 基于路径。 称为基于路径的方法的另一种更自然,更直观的方法是直接设计图算法,以探索KG中节点之间的各种连接模式,以提供有关建议的其他信息。 在研究工作中,KG被认为是基于异构信息的网络[27]。 在这项工作中,从KG中提取了基于元图/元路径的潜在特征,以表示沿着不同类型的关系图/路径的项和用户之间的链接。 Wang等。 [28]采用LSTM网络通过组合实体和关系的语义来生成路径表示,并通过利用路径中的顺序依存关系对路径进行有效的推理。
尽管此方法更自然,直观地使用了KG,但它严重依赖于手工设计的元路径,这些元路径在实践中难以优化,并且在某些实体及其关系不在一个特定范围内的特殊情况下无法进行设计 域,例如新闻推荐。
2.2.3。 其他工作。 RippleNet [29]是一种试图结合上述两种方法的优点的方法。 它在KG中传播用户的潜在偏好,并发现他们的层次兴趣。 它通过传播偏好信息自然将KGE方法整合到推荐系统中,不需要任何手工设计。 但是,这种方法很少关注关系。 另外,随着KG大小的增加,波动集的大小可能变得不可预测,这将导致大量的计算和存储开销。
曹等。 [30]请注意,KG缺少实体,关系和事实是很常见的。
因此,他们在利用KG中的事实作为辅助数据来增强用户-项目交互的建模之后,基于增强的用户-项目建模来完成KG中的缺失事实。
2.3。 信息检索
由于KG的出现,当今越来越多的基于Web的商业搜索引擎正在合并KG的实体数据以改善其搜索结果。 例如,Google合并了Google Plus和Google Knowledge Graph的数据,而Facebook通过Graph Search在实体上执行搜索任务。
KG包含有关实词实体的人类知识的属性可帮助搜索系统提高其理解查询和文档的能力。 一些研究人员致力于研究幼稚园在信息检索方面的潜力。 面向实体的搜索随着大型KG的发展而发展。 在不同的组件中有很多利用KG语义的可能方法,例如查询表示,文档表示和搜索系统排名。
可以通过引入相关实体及其文本来扩展查询来改进查询表示。 例如,工作[31]提供了来自实体本身的功能,并且实体之间与知识库之间的链接(例如结构化属性和文本)用于丰富查询。
通过将带注释的实体添加到文档的向量空间模型中,可以丰富文档的表示形式。 在研究工作中[32],从查询和文档的实体注释中生成实体包向量来表示它们。 然后,文档之间的输出匹配和实体空间中的查询用于对文档进行排名。 著作[33]将查询和文档建模为一组语义概念,这些语义概念是通过实体链接系统运行它们而获得的。
另一种方法是通过相关实体建立从查询到文档的其他连接,以改善排名模型。 刘等。 [34]将查询和文档都映射到一个高维潜在实体空间,其中每个维度都对应一个实体,然后根据查询和文档对潜在空间中每个维度的投影来估计查询和文档之间的相关性。 熊等。 [35]有助于捕获更多的语义相关性模式。 在他们的工作中,实体和单词表示形式之间的交叉匹配通过四向交互而结合在一起。
虽然结合了来自幼稚园的人类知识的面向实体的搜索在信息检索系统中显示出令人鼓舞的结果,但深度学习技术使从大规模训练数据中学习更复杂的排名模型成为可能。 研究工作[36]将KG引入了神经搜索系统。 它将KG的语义集成到其实体的分布式表示中,并通过基于交互的神经排名网络对文档进行排名。
2.4。 特定领域的2.4.1。 医疗的。 在医疗保健信息爆炸性增长的同时,文本医疗知识(TMK)在医疗保健信息系统中占有越来越重要的地位。 因此,一些研究开发了TMK并将其集成到知识图中,从而为计算机提供了正确,快速地检索和解释医学知识的方法。 恩斯特(Ernst)等人。 [37]提出了一种自动构建大型生物医学知识图的方法。 他们的数据源是来自UMLS的实体词库,以及来自不同健康门户网站的各种科学出版物和帖子的输入源,这些门户无法与健康数据集成。 Shi等。 [38]成功地将健康数据整合到不同的文本医学知识中。 他们还提供了一种算法,可以对知识图进行无意义的推理,以提高推理结果的性能。 古德温(Goodwin)等人。 [39]专注于使用i2b2挑战在2010年提出的框架,将医师对断言的信念状态纳入病历中。
Rotmensch等。 [40]提出了一种方法来生成图表,将疾病映射到症状,这可能是由电子病历(EMR)数据自动引起的。 他们的数据源包括急诊科的超过270,000例患者就诊的医疗记录。
这些构建医疗KG的方法依赖于真实的标准医学术语,而某些语言(例如中文)则缺乏这些术语。 因此,尝试以这种语言构建医学KG总是会收到相对较低的准确性结果。 在将来的工作中,仍需要改进构造算法以解决此类问题。
2.4.2。 网络安全。 随着信息技术的发展,信息安全越来越受到社会和行业的关注。 KG可以与网络安全结合使用,以检测和预测动态攻击并保护人们的网络资产。 贾等。 [41]使用机器学习建立了一个网络安全知识库,并提出了一个五元模型来通过路径排序算法获得新知识。 Qi等。 [42]演示了网络攻击步骤,并通过在构建KG时添加事件本体来定义攻击,事件和警报之间的关系。
然后,他们基于一些攻击步骤具有许多组合,但它们与同一警报相关的思想,提出了一种关联分析算法。
上述工作更多地集中在网络安全KG的建设上。 但是,如何利用KG的内在知识推理能力有效地检测网络安全事件并利用分析人员的新发现快速更新KG仍然需要进一步研究。
2.4.3。 金融的。 刘等。 [43]通过抓取每家公司的新闻,识别命名实体并提取相关股票之间的业务关系来构建企业KG。 他们通过门控经常性股(GRU)模型结合相关股票的新闻情绪,以预测股票的价格走势。 他们的方法利用股票之间的关系进行预测,因此如何识别大型KG中它们之间具有强相关性的股票是一个需要解决的问题。 文献[44]提出了一个开放的,细粒度的,可*访问的KG机构中公司标识符的方案。
网络安全保险(CI)主要在为金融行业提供服务,并协助金融公司降低网络安全风险,但这种方式也一直在蓬勃发展。 保险供应商在对由保险项目之间的复杂关系引起的网络事件进行分类时遇到的困难是CI中的一个问题。 Elnagdy等。 [45]建议结合知识图和本体是一种有效的方法来识别CI领域中实体之间的复杂关系。
文献[46]提出了一种针对网络事件的分类模型,称为SCIC,该模型将语义网中的所有本体链接在一起以生成知识表示。
2.4.4。 消息。 通常,新闻是动态的,并且会随着时间而变化,新闻语言高度凝结,并且充满知识实体和常识。 因此,一些研究将KG应用于新闻领域来处理此类字符。 DKN [23]在新闻推荐中采用知识图表示法来充分发现新闻之间潜在的知识级联系,以便合理地为用户扩展推荐的结果。 文献[47]开发了一种工具,可以从新闻报道中自动构建以事件为中心的KG,以各种语言(包括英语,意大利语,荷兰语和西班牙语)描述世界的变化。 著作[48]聚集了描述事件的非结构化新闻文章和结构化Wiki数据,以检索描述事件的新闻文章。
另一方面,假新闻的广泛传播可能会对社会产生很大的负面影响。 假新闻检测问题被研究工作视为KG中的链接预测任务[49]。 这项工作从事实陈述网络挖掘异构连接模式,以检查断言的真实性。
考虑到新闻总是在国家之间迅速传播,因此提高某些关键任务(例如实体解析和语义角色标记)的性能非常必要,尤其是在多语言环境中。
2.4.5。 教育。 在教育领域,一些研究已经采用KG来学习资源推荐和概念可视化。 KnowEDU [50]是一个自动构建用于教育的KG的系统。 与普通KG中的节点代表共同的现实世界的实体不同,教育KG中的所需节点代表学习者应掌握的教学概念。 因此,本研究将递归神经网络(RNN)模型应用于教学数据,以提取教学概念。 然后,通过概率关联规则挖掘算法,利用学生的成绩数据,确定将教学概念相互联系的教育关系。 Grévisse等[51]提出了一种推荐和整合学习材料到流行创作软件中的工具。 他们通过扩展和过滤策略利用开放式幼儿园的其他信息来构建语义表示形式,并为教师确定最重要的概念,然后使用这些概念从开放式语料库中查找和检索相关的学习资源。
当前的研究总是只关注基本关系提取。 更深入和准确的关系提取可能有助于显示教育性KG中更多的潜在数据信息。
2.5。 其他应用程序描述社交网络去匿名化和隐私推断过程是应用了KG的另一个应用程序。 这样的应用有助于确定和衡量隐私披露[52]。 在这种情况下,节点代表用户,而链接代表用户的关系。 去匿名化的问题被转换为最大加权二分匹配问题,并且局部敏感哈希(LSH)被用于隐私推断。
一些研究人员还考虑使用KG进行分类。 张等[53]充分利用更接近生物视觉信息处理模型的知识图来研究图像中类别之间的关系,并结合语义计算方法来指导图像分类任务。 Ma等[54]通过添加与外部知识集成的组件来改进经典的LSTM单元,这直接有助于情感分析的方面和情感极性的识别。
虽然主要的地球科学研究工作集中于处理地理参考的定量数据,但一些研究人员正在尝试从文本地球科学数据中提取信息和知识发现。 这项工作[55]处理地质文件并通过无监督的学习方法直接提取知识。 然后,它通过使用文档处理和字典扩展技术以及链接的开放数据来构建KG。 但是,这些工作并未实现知识图和原始文献之间的信息检索。
幼稚园还可以帮助打击人口贩运。 为了协助相关组织找到贩运者并帮助受害者,Szekely等人[56]为人口贩运领域建立了一个大型的幼稚园。 他们使用不断从网站上抓取的性交易行业广告作为数据源,并通过语义技术协调来自不同来源的这些数据。
这项工作[57]提出KG可以应用于机器翻译,这一见解得到了研究工作[58]的支持,该工作通过生成多语言知识图嵌入来帮助跨语言对齐实体。
3.结论
据我们所知,本文是第一个系统地回顾知识图的不同应用的知识,这些知识图来自于问题解答,推荐,信息检索和其他领域等不同领域。 总的来说,我们得出的结论是,尽管知识图具有提供语义结构化信息的强大能力,并且近年来在将这种能力应用于特定领域方面取得了重要进展,但仍有几个方面有待探索。
在未来的工作中,我们计划通过集成应用程序以及基于KG的算法的方法扩展来扩展此调查。
参考文献
Zou X. A survey on application of knowledge graph[C]//Journal of Physics: Conference Series. IOP Publishing, 2020, 1487(1): 012016.