一种基于抽取式的中文机器阅读理解数据集CMRC2018

一种基于抽取式的中文机器阅读理解数据集CMRC2018

A Span-Extraction Dataset for Chinese Machine Reading Comprehension
Leaderboard地址:http://ymcui.com/cmrc2018/

动机:
现阶段已经有包括基于完形填空式、多项选择式的机器阅读理解数据集,本文为了加速机器阅读理解的发展,提出一种基于抽取式的机器阅读理解数据集,数据集样例如下图所示:

一种基于抽取式的中文机器阅读理解数据集CMRC2018

贡献:

  • 提出一种基于抽取式的中文机器阅读理解数据集,包括近20000个人工标注的问题;
  • 除了验证集和测试集外,还添加了挑战集(需要passage中的多个线索)
  • 与SQuAD和其他类似数据集一起研究时,建议的中国RC数据也可以作为跨语言研究目的的资源。

**任务定义:**给定一个三元组(passage,question,answer),answer是根据question来确定其在passage中的span位置。

构建方法:

(1)Data Pre-processing
2018年从*(wikipedia dumps)上下载中文语料,并使用Wikipedia Extractor工具获取原始文本;并使用opencc进行繁简转换;

(2)Human Annotation
每篇文章被划分为多个passage,每个passage被限制在500汉字以内。

  • 评估每个passage是否可以被用于数据集,因为有的passage是很难理解的,因此包含超过30%的非汉字、包含专有名词、包含一些特殊符号以及古汉语的passage都将剔除;
  • question anotation,每个passage不超过5个问题,answer一定是passage中的span,包含多种不同意图的问题(who,when,where,why,how),避免直接使用该描述中的描述。 使用释义或语法转换来增加回答难度,答案长度不能超过30个汉字;
  • 增加回答的多样性,即存在多个span可以作为正确答案;

(3)Challenge Set
人工标注一个小规模的挑战集,遵循如下两个规则:

  • answer不能只通过一个句子来推理;
  • 如果答案是一个实体,则对应的类型的实体不能只有一个。例如答案是时间,则passage中不能只有一个时间词,需要额外添加多个干扰;

数据集统计:
一种基于抽取式的中文机器阅读理解数据集CMRC2018

评价指标:
EM、F1值

人类表现的评估方法:
每个问题有三种答案,随意挑选一种答案作为预测结果,其他两个答案则作为ground-truth,因此可以得到EM和F1值。每个答案都分别作为一次预测,则可以得到3个EM和F1值,最后三个取平均即可。

Baseline

一种基于抽取式的中文机器阅读理解数据集CMRC2018

上一篇:练习题


下一篇:Leetcode 1018 可被5整除的二进制前缀