信息抽取基础
知识图谱的概念、应用与构建
什么是知识图谱
知识图谱里通常用==“实体(Entity)”来表达图里的节点,用“关系(Relation)”==来表达图里的“边”
三元组 -> (奥迪,德系,品牌)
知识图谱主要由谷歌提出,用来优化搜索引擎
什么是信息抽取
对于结构化与半结构化数据需要复杂表数据的处理与定义抽取的包装器等方式实现。
对非结构化的纯文本数据需要借助自然语言处理等技术来自动地提取出机构化信息。这个过程一般称为信息抽取
自然语言理解的本质
自然语言理解本质是结构预测。
自然语言理解的众多任务,包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等,都是在对文本序列背后特定语义结构进行预测。
信息抽取的主要任务
命名实体识别(Name Entity Recognition)
关系抽取(Relation Extraction)
实体统一(Entity Resolution)
指代消解(Coreference Resolution)
知识图谱的构建
搭建一个知识图谱系统的重点并不在于算法和开发,其实最重要的核心在于对业务的理解以及对知识图谱本身的设计
1.定义具体的业务问题
2.数据的手机 & 预处理
3.知识图谱的设计
4.把数据存入知识图谱
5.上层应用的开发,以及系统的评估
构建糖尿病知识图谱
通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。
1.基于糖尿病临床指南和研究论文的实体标注构建
2.基于糖尿病临床指南和研究论文的实体间关机构建
实体体系
疾病相关
1.疾病名称(Disease)
2.病因(Reasono)
3.临床表现(Symptom)
4.检查方法(Test)
5.检查指标值(Test_Value)
治疗相关
6.药品名称(Drug)
7.用药频率(Frequency)
8.用药剂量(Amount)
9.用药方法(Method)
10.非药治疗(Treatment)
11.手术(Operation)
12.不良反应(SideEff)
常规实体:
13.部位(Anatomy)
14.程度(level)
15.持续时间(Duration)
关系体系
疾病相关
1.检查方法 -> 疾病(Test_Disease)
2.临床表现 -> 疾病(Symptom_Disease)
3.非药治疗 -> 疾病(Treatment_Disease)
4.药品名称 -> 疾病(Drug_Disease)
5.部位 -> 疾病(Anatomy_Disease)
药品相关
6.用药频率 -> 药品名称(Frequency_Drug)
7.持续时间 -> 药品名称(Duration_Drug)
8.用药剂量 -> 药品名称(Amount_Drug)
9.用药方法 -> 药品名称(Method_Drug)
10.不良反应 -> 药品名称(SideEff_Drug)
标注工具 brat
文件标注工作基于brat软件,http://brat.nlplab.org/。其中.txt文件为原始文档,.ann文件为标注信息,标注实体以T开头,后接实体序号,实体类别,起始位置和实体对应的文档中的词。如果需要在brat软件中查看标注结果,需要添加.conf文件。
BRAT官网