一种基于抽取式的中文机器阅读理解数据集CMRC2018
A Span-Extraction Dataset for Chinese Machine Reading Comprehension
Leaderboard地址:http://ymcui.com/cmrc2018/
动机:
现阶段已经有包括基于完形填空式、多项选择式的机器阅读理解数据集,本文为了加速机器阅读理解的发展,提出一种基于抽取式的机器阅读理解数据集,数据集样例如下图所示:
贡献:
- 提出一种基于抽取式的中文机器阅读理解数据集,包括近20000个人工标注的问题;
- 除了验证集和测试集外,还添加了挑战集(需要passage中的多个线索)
- 与SQuAD和其他类似数据集一起研究时,建议的中国RC数据也可以作为跨语言研究目的的资源。
**任务定义:**给定一个三元组(passage,question,answer),answer是根据question来确定其在passage中的span位置。
构建方法:
(1)Data Pre-processing
2018年从*(wikipedia dumps)上下载中文语料,并使用Wikipedia Extractor工具获取原始文本;并使用opencc进行繁简转换;
(2)Human Annotation
每篇文章被划分为多个passage,每个passage被限制在500汉字以内。
- 评估每个passage是否可以被用于数据集,因为有的passage是很难理解的,因此包含超过30%的非汉字、包含专有名词、包含一些特殊符号以及古汉语的passage都将剔除;
- question anotation,每个passage不超过5个问题,answer一定是passage中的span,包含多种不同意图的问题(who,when,where,why,how),避免直接使用该描述中的描述。 使用释义或语法转换来增加回答难度,答案长度不能超过30个汉字;
- 增加回答的多样性,即存在多个span可以作为正确答案;
(3)Challenge Set
人工标注一个小规模的挑战集,遵循如下两个规则:
- answer不能只通过一个句子来推理;
- 如果答案是一个实体,则对应的类型的实体不能只有一个。例如答案是时间,则passage中不能只有一个时间词,需要额外添加多个干扰;
数据集统计:
评价指标:
EM、F1值
人类表现的评估方法:
每个问题有三种答案,随意挑选一种答案作为预测结果,其他两个答案则作为ground-truth,因此可以得到EM和F1值。每个答案都分别作为一次预测,则可以得到3个EM和F1值,最后三个取平均即可。
Baseline