引言
知识图谱用于描述真实世界中存在的各 种实体和概念,知识图谱技术提供了一种从 海量文本和图像中抽取结构化知识的手段[1]。 知识图谱的构建可分为信息抽取、知识融合 和知识计算三部分,其中信息抽取是知识图 谱构建的基础,主要面向各种非结构化数据、 半结构化数据和*文本数据。这里,* 文本数据作为一种非结构化数据,是构建知 识图谱的主要数据来源。因此,从中文* 文本中获取知识需要利用自然语言处理技术 进行信息抽取,诸如实体识别、关系抽取等。 在实体识别过程中,中文分词系统的性能对 实体识别的准确率起着至关重要的作用。中 文实体识别,首先要通过分词系统进行词语 识别;准确的中文分词可给出明确的实体边 界,错误的中文分词对实体识别带来不可逆 转的影响。
知识图谱的构建是面向领域的构建,知识图谱中代表性实体也均带有领域特征。通 用中文分词系统在知识图谱构建中,由于缺 乏领域先验知识,分词系统的性能会骤然下 降。为了得到较好的分词结果,面向知识图 谱的中文分词系统需要具有较强的领域自适 性。自适应的中文分词系统可以对不同领域 的非结构化数据依据数据自身的分布情况进 行高精度切分,为特定领域的知识图谱的构 建提供坚实的基础。本文将围绕自适应中文 分词系统进行相关工作的介绍。
中文分词任务是众多中文自然语言处理 任务的基石。对于知识图谱构建来说,高精 度的词语切分有助于命名实体或概念的识别。 随着自然语言处理技术的不断发展,人们已 不局限于新闻等标准语料的分析与挖掘,医 疗、金融、生物、科技等专业领域的数据也 开始采用自然语言处理技术进行文本自动处理。但由于大多数专业领域缺乏相应的分词 标注数据,且不同领域的文本用词方法及行 文表达方式不同,采用通用分词工具进行专 业领域文本标注时,分词性能较差。因此, 建立具有良好领域适应性的中文分词系统是 知识图谱构建技术的主要研究问题之一。这 里,具有良好领域适应性是指,当需要进行 标注的文本类型与分词系统的训练语料不同 时,分词系统仍然保持良好的分词效果。本 文所指的文本类型不同,包括文本所涉及的 话题领域不同、文本的行文表达方式不同等。
分词系统现存挑战
从语言学角度,词是最小的能够独立运 用的语言单位。计算机对文本的理解过程同 样也以词为最小的语义单位。中文自然语言 文本中,并不存在空格等显式标志指示词的 边界。因此,在计算机进行自然语言理解的 基础性工作就是对文本进行自动分词的处理, 即计算机自动在汉语文本中在词与词之间添 加边界标记。例如,“三峡工程引进第一笔 外资。”经过计算机自动分词后,句子中词 与词之间被添加了边界标记并显示为“三峡 工程 引进 第一 笔 外资 。”
中文分词系统性能主要受两类关键问题 的影响 [2]。一是歧义切分,这主要是因为字 不能作为独立的语言单位,字的多义使得词 语在切分过程中需要依据上下文信息给出适 当的切分方案。例如,“门把手坏了。”和 “门把手夹坏了。”,第一句中“把手”是词, 第二句中“把”和“手”单独成词。二是未 登录词,该类词并未在分词系统的训练语料 和所使用的词表中出现过。未登录词主要由 专有名词和新产生的中文词构成。专有名词 主要涉及人名、地名、组织机构名、专业术语、 商品名等。新产生的中文词主要来自于网络 新词,例如“喜大普奔”等。在建立面向专 业领域的分词系统过程中,未登录词对系统 性能的影响极为明显。
中文分词常用方法及相关工作
现有常用的中文分词语料库主要有 Chinese TreeBank[3]、 Sinica Balanced Corpus [4]、北京大学人民日报语料库 [5] 和 LIVAC[6]。 国 际 中 文 自 动 分 词 评 测( 简 称 SIGHAN Bakeoff)1 对中文分词工作的发展产生了巨大 的推动作用。该评测针对特定任务,提供包 含训练语料、测试语料和标准答案在内的分 词数据集。近年来,中文分词工作不再局限 于标准的新闻语料,针对特定领域的中文分 词语料逐渐丰富,诸如小说语料 [7]、中文专 利语料 [8]、微博语料 [9]。
当前大部分分词工作将分词任务转化为 基于字的序列标注任务,即通过字在词语中 所占位置进行标注,例如,B、I、E、S 分别 表示字为词组中的首字、中间字、尾字、单 字词;本文所举例句可被标注为“三 B 峡 E 工 _B 程 _E 引 _B 进 _E 第 _B 一 _E 笔 _S 外 _B 资 _E 。_S”。大部分中文分词工作主 要是针对新闻语料。常规分词标注系统常采 用如下分类器:最大熵马尔科夫模型 [10]、条 件随机场 [11]、结构化感知器 [12] 等。
随着深度学习算法的广泛应用,很多 中文分词研究工作也引入了深度学习算法, 带来了一定的效果提升。Cai 等人 [13] 并没 有采用序列标注的分词方式,而是直接评估对句子的不同切分的似然度,搜索句子的不 同切分得到一个似然度得分最高的切分作为 分词结果。Zhang 等人 [14] 将原本使用离散 特征的基于词的模型改进为神经网络模型, 用字向量和词向量替代原有的离散字和词的 特征,用神经网络代替线性模型;并对离散 特征的模型和神经网络模型进行了组合, 得到了一个组合模型。Xu 等人 [15] 提出了 使用双向长短期记忆神经网络 (Long ShortTerm Memory,LSTM) 得到各个字符周围的 局部特征,再使用门控递归神经网络 (Gated Recursive Neural Network,GRNN) 结合长距离 依赖性 (long range dependencies)。
目前,中文分词系统已经在新闻文本领 域获得了很高的正确率,一些分词系统的 F1 值已经超过 98%[16]。越来越多的研究注意力 开始转向其他缺乏标注语料的文本领域。标 注语料的缺乏,使得这些新的领域的分词问 题具有更大的挑战性。已有的一些研究工作 开始关注文学文本,诸如网络小说 [7];还有 一些针对微博这类非正式语言的文本分词研 究工作 [9]。虽然文学文本工作和微博文本工 作都存在各自领域问题带来的挑战,但这些 文本中所使用的词汇及语言表述方式仍属于 日常生活用语范围,一般情况下对于一个母 语是中文的人来说,不需要进行任何的专业 培训即可以很好地理解文本。
科技文本诸如专利文本与上述文本有很 大的不同。专利文本中包含了大量的科技用 语和专业词汇,这使得即使使用母语的一般 读者在阅读理解专利文本的时候也会感到很 困难;通常需要经过一定的专业培训,读者 才可能较清晰地理解文本所表达的意思。从 文本自动分词角度来讲,专利文本中常用的 科技用语和专业词汇很难从拥有大量标注数 据结果的日常用语类文本中找到。这类词汇 通常被认定为“未登录词”。中文分词系统 一个永恒的研究难点就是如何能够有效切分 出这些“未登录词”。美国情报高级研究计 划 署 (Intelligence Advanced Research Projects Activity,IARPA) 下属科研项目 FUSE2 (Foresight and Understanding from Scientific Exposition)即通过对大量专利等科技文献进 行分析研究,预测新兴技术的潜在方向和发 展趋势。该项目中包括了对中文专利文本的 分析,并建立了针对中文专利文本的分词和 词性标注系统作为后续分析工作的基础。到 目前为止,只有为数不多的针对中文专利文 本的分词研究工作 [17]。目前常用的分词系统 在专利分词任务上表现不佳。
领域自适应常用方法及相关工作
领域自适应方法,可有效解决缺乏领域 内标注语料而产生的标注系统性能低下的问 题。跨领域标注中,训练集数据和测试集数 据并不是从同一个分布中抽样得到的。领域自适应算法描述了如何处理不同来源的训练 集数据和测试集数据,导致的标注系统性能 下降的问题。领域自适应的目标是让一个分 类器在训练集上训练,同时能够在测试集上 有较好的表现。由于部分文本专业性较强, 人工标注难度大,在这种情况下,采用领域 自适应系统是一个不错的选择。一般的,训 练集数据的分布称为始源域,把测试集数据 的分布称为目标域。
领域自适应方法可分为全监督领域自适应和半监督领域自适应 [18]。这两种具体的领 域自适应方法的主要区别在于是否能够得到 目标领域的标注数据。全监督领域自适应算 法中,包含大量始源域的标注数据和少量目 标领域的标注数据;而半监督领域自适应算 法中,仅能得到始源域的标注数据,但目标 域没有任何已人工标注的信息。显而易见, 一般情况下全监督领域自适应的效果会高于 半监督领域自适应。实际的应用中,在初始 研究阶段,只能拿到大量未标注的目标领域 的数据,可选用半监督领域自适应方法;待 可获得小部分人工标注后,可采用全监督领 域自适应方法提升系统性能。领域自适应的 目标是,当数据领域发生变化时,系统仅需 做出较少的调整,即可在新领域数据中得到 较好的序列标注结果。
在全监督领域自适应方法中,Daumé III[18] 放大了始源域和目标域数据的特征空 间,然后使用合并的特征空间训练交叉域模 型。全监督方法的弊端在于仍需要花费大量 的人力进行目标领域数据的标注。Kim等人[19] 借鉴了文献 [18] 的思想,实现了基于神经网 络的领域自适应方法。Zhang 等人 [20] 设计 了一种基于门控机制的自适应神经网络可进 行跨领域学习。通常情况下,在已标注数据 中,始源域数据量远超目标域数据量,如果 将始源域数据和目标域数据直接简单合并在 一起作为训练语料,很容易将目标域中特有 信息掩盖。为了有效融合已标注目标域和始 源域数据中的有效信息,基于门控循环单元 (Gated Recurrent Unit,GRU)的领域自适 应神经网络模型,将始源域信息有序添加至 目标域输入中。GRU由更新门和控制门组成, 表述如下:
近年来,已经有一些学者开始关注跨领 域自动分词的研究 [7,17]。领域词典的使用可有 效提高跨领域字词系统的性能 [7]。目前,基 于神经网络自适应的中文分词系统的研究还 不是很成熟。Li 等人 [17] 在研究过程中发现, 常用领域自适应方法是存在一定适用范围的, 当目标域标注数据达到一定数量级后,领域自适应方法所产生的效果微乎其微。
结束语
知识图谱用于描述真实世界中存在的各 种实体和概念,如何从海量非结构化数据中 识别实体是知识图谱构建的关键问题之一。 中文知识图谱构建过程中,分词系统对词语 的准确切分,可直接实现多数实体和概念的 边界划分;可以说,分词系统的性能对知识 图谱的构建起着关键性影响。中文分词系统 在标准数据集(诸如新闻语料)上的表现接 近完美,但在其他缺乏标注的特定领域数据 上的表现差强人意,特别是某些专业性较强 的领域,由于存在大量未登录词,使得分词 系统面临巨大挑战;这就需要面向知识图谱 的中文分词系统具有较强的领域自适性。因 此,建立具有领域自适应性的分词系统将会 是中文分词研究的热点问题之一,也是建立 高精度的面向知识图谱中文分词系统的有效 途径之一。