信息抽取的五个层次

信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种媒体。

信息抽取的五个层次

信息抽取按层次不同可分为五类。

①命名实体的识别。抽取文档中的人名、地名、组织名、日期、时间和涉及的一些数额等信息内容。目前,命名实体的识别技术是信息抽取技术中最简单,也是最可靠的技术。

②指代的解析。分析文档中实体之间的指代关系,同一个实体在所分析的篇章中,可能有多种不同的指代方法,指代的解析就是将不同的指代连接到同一实体上。

③模板元素的构建。将描述性信息联系到实体上,信息抽取除了对命名实体进行定位、分类外,一般还要求将一些描述性信息分配不同的实体上,形成实体的完整描述。

④模板关系的构建。发现实体之间的相互关系,在模板元素的基础上,寻找实体之间可能存在的关系。

⑤场景模板的产生。场景模板是信息抽取系统输出的原型,场景模板的产生就是将各实体联系到一起形成事件或关系的完整描述。

信息抽取的五个层次

信息抽取以结构化的方式表达原文的内容,这使得各种不同的应用都可利用或得益于信息抽取的结果。总的来讲,这些应用可分为如下几类。

①摘要和总结。将原先较长的文本,用较短的文本进行表达。

②可视化。以可视的方式表达原文中的概念及其关系。

③搜索。寻找某一处理层面上或语义上相似的信息。

④索引和分类。根据语义表示进行分类,建立索引。

⑤翻译。由于翻译具有语境针对性,一般要进行语义上的信息抽取。

⑥问答。一般用于人机交互中。

⑦知识抽取。在信息抽取的基础上进行知识的抽取。

⑧知识推理。应用机器学习方法在信息抽取结果上进行知识推理。

⑨任务定义。机器人等通过自然语言界面接受命令。

⑩构建知识库。信息放入知识库中,实现跨应用和时间的信息共享。

上一篇:关于防止表单form重复提交的方式


下一篇:从es源码发现JvmStats信息采集