7.9 机器阅读理解评测数据集
现阶段,和阅读理解相关的数据集主要有以下五个。
1 . MCTest
微 软 研 究 院 的 研 究 员 Richardson et al [1] 在2013 年的 EMNLP 上发布了一个数据集。在这个数据集中,所有的文档都是一些叙述性的故事。它考察的推理能力被限定于一个 7 岁儿童可以接受的范围内,包含有许多常识性的推理,这些推理既包含事实性的,也包含非事实性的。这个数据集包含有两部分,一个是 MC160,还有一个是 MC500,分别包含 160 篇和 500 篇文档。由于这个数据集较为接近我们真实的阅读理解场景,因而成为阅读理解相关研究者的首选评测数据集。
2 . bAbi
这个数据集是由 Facebook 人工智能实验室的研究人员提出[2] ,将问答系统中的任务按照回答方法分成了 20 种,比如单支撑句问题、方位问题等。20 个问题的分类和一些常用方法在这些问题上面的结果如图 2 所示。
由于在这个数据集中,所有的问题和背景文档都是依靠规则自动生成的,因而数据量比较大(可以无限大)。但是由于包含的信息太少,主要是用来测试一些推理模型,如 memory Networks 或者神经图灵机。最新的工作[3]已经可以依靠规则系统,将这 20 类问题全部答对。
3 . CNN&Daily Mail
该数据集是 Google Deepmind 的研究人员在NIPS2015上提出的一个数据集[4] ,数据的构造非常巧妙。首先,作者在两个新闻语料上(CNN 和 Daily Mail)分别搜集了 11 万和 21.8 万篇新闻,每篇新闻都有一些总结句(文章标题或者新闻要点),然后作者将其中的每篇新闻看成一个背景文档,把总结句中的实体去掉,再把这个去掉实体的标题当成问题。如图 3 所示。
作者用这种自动的方法构造了一个海量的数据集,在这些问题中答案没有预先给出,但是都可以在原文中得到。这个数据集主要考察哪些答案是实体类型的问题,问题也都是陈述型的问句,因而是一种 cloze(完形填空)型的机器阅读理解任务。
4 . CBTest
这个数据集也是 Facebook 人工智能实验室的研究员在 ICLR2016 上发布的数据[5] ,主要根据儿童读物的文章构建。其中,每篇文章包含一个故事;每个故事采用人工的方式分为很多小部分;每个部分含有 21 句话,前 20 句话是被当成背景文档,第21 句话是问题,需要系统对其中缺少的实体或者名词进行补全。在答案中会事先给出 10 个候选,需要从这 10 个候选中找到正确的一项对空处进行填充。如图 4 所示。类似于 CNN&Daily Mail 数据集,由于这些问题大部分是实体的,所以也是 cloze(完形填空)型的机器阅读理解任务。
5 . 公开评测
除 了 上 述 公 开 数 据 集 之 外,Cross LingualEvaluation Forum (CLEF) 1 从 2013 年开始每年举办“Entrance Exams(入学考试)”问答子任务。该评测数据从日本入学考试中选取,每篇文档都伴随有若干问题,每个问题有若干选项。但是由于考试的内容有限,所以数据集非常小。(2015 年时提供的训练集大小只有 19 篇文档、89 个问题。)
综上所述,目前各公开的数据集,由于其考察系统阅读理解能力侧重点的不同,因此所构造的数据集的方式、规模和形式也不尽相同。从已有研究成果来看,大部分方法目前主要侧重于系统对文本深层次的语义理解能力,因此,大部分机器阅读理解方法都集中于在 MCTest 数据集进行评测。在下面的章节中,本文也主要围绕 MCTest 数据集介绍已有的机器阅读理解方法。