Text-to-SQL学习笔记(二)数据集

Text2SQL — Part 2: Datasets

Text-to-SQL学习笔记(二)数据集

你可以在没有信息的情况下拥有数据,但你不能在没有数据的情况下拥有信息。 -Daniel Moran

与其他自然语言处理任务一样,Text2SQL高度依赖所使用的数据集类型。已经创建了具有不同结构、长度和查询的不同数据集。语义解析领域共有9个数据集,其中SPIDER是当前的基准数据集。

本博客涉及的数据集:

每个数据集的创建都基于不同的任务。例如,设计ATIS数据集是为了测量包括语音和自然语言成分的口语系统的进展。

让我们一个接一个地了解它们…

1. ATIS (Air Travel Information System) Dataset

ATIS语料库包括从官方航空指南收集的数据,按照关系模式组织。

它由25个表组成,其中包含关于票价、航空公司、航班、城市、机场和地面服务的信息。可以使用单个关系查询回答与此数据集相关的问题。

与此数据集对应的关系数据库被设计为以直观的方式回答查询,即使用更短的表来回答。

ATIS数据集查询示例:输入为自然语言形式,输出为λ微积分形式。

Text-to-SQL学习笔记(二)数据集

2. GeoQuery Dataset

地理查询数据集包含美国地理信息。它有大约800个facts表达在Prolog。

这个数据库包含关于州、城市、河流和山脉的信息。

属性主要由首都、人口密度等地理和地形属性构成。

3. IMDb Dataset

IMDb数据集是来自IMDb的50K条评论的巨大集合。每部电影的评论限制在30条以内。

数据集由相同数量的正面和负面评论组成。

数据集的创造者考虑了高度极化的评论,即分数≤4分的负面评论和分数≥7分的正面评论。

在创建数据集时,不考虑中性评论。

数据集被平均分配用于训练和测试。
Text-to-SQL学习笔记(二)数据集

4. Advising Dataset

创建建议数据集是为了在text2SQL系统中提出改进建议。

数据集的创建者比较了人工生成和自动生成的问题,引用了与现实应用程序相关的查询属性。

数据集由来自大学生的关于课程的问题组成,这些问题会导致特别复杂的查询。数据库中学生的记录是虚构的。

数据集包括学生简介信息,如推荐的课程、成绩和学生以前的课程。

问题是由了解数据的学生提出的。

Text-to-SQL学习笔记(二)数据集

当SPIDER发布时,现有的最先进的模型给出了12.4%的精确匹配精度。这种低精确度表明SPIDER在研究中提出了一个强大的挑战。

在SPIDER上,当前的最佳精度是66%左右,而且是没有精确匹配值(指WHERE子句中的值)。而有值时大概63%左右。

更多关于SPIDER上不同模型的结果的信息可以在这里找到。

这就是所有的数据集。在第3部分中,我们将探讨在Text2SQL域的这些数据集上构建的一些高效模型。

敬请期待!

上一篇:第十一章 封装/继承/多态


下一篇:Python 多线程并发