SParC: Cross-Domain Semantic Parsing in Context 论文解读

 

前言:SParC是一个基于 Spider 数据集扩展的有上下文依赖的对话是 Text-to-SQL 数据集。不同于 Spider 一句话 对应一个最终 SQL,SParC 通常需要通过多轮对话来实现用户的查询意图,并且在交互过程中,用户会省略很多之前提到的信息,或者新增、修改之前提到过一些内容,使得该任务更具挑战性。

 

基本信息

 

榜单概览

SParC: Cross-Domain Semantic Parsing in Context  论文解读

截至 2021年5月22日,该数据集的榜单最高准确率(Accuracy)才 Question Match 62.4%,Interaction Match 38.1%,而且第一名还是数据集作者本人 余涛。Spider、SParC、CoSQL数据集都是他们组发布的,相应的也刷了很多会议论文,很是羡慕了,自己做数据集,提出模型,发表论文,不断迭代。

 

数据集简介

SParC: Cross-Domain Semantic Parsing in Context  论文解读

 

首先,文中举了两个 SParC 的数据样例,来直观感受一下这种对话式的,且问句(Question)有上下文依赖的 Text-to-SQL数据集样例。这类数据集最早的是 ATIS 数据集(发表于 1990 和 1994 的两篇论文中),是关于航班预订的单领域多论文对话 Text-to-SQL 数据集。本文提出的 SParC 数据集相对于 ATIS 有如下三大优势:

  • 1、问句有更复杂的上下文依赖关系;

  • 2、语义上有丰富的多样性;

  • 3、天然需要更强的泛化能力,因为涉及跨领域,且训练/验证/测试的数据库完全各自独立,互不交叉。

 

下表为 SParC 与当前已有的 Text-to-SQL 数据集的对比,主要是看和 ATIS 的对比:

SParC: Cross-Domain Semantic Parsing in Context  论文解读

 

之前提到 SParC 上下文有更复杂的依赖关系,主要是以下四种情况:

SParC: Cross-Domain Semantic Parsing in Context  论文解读

从上表可以看出,每种情况都有对应的解释和一个例子,及在整个数据集中所占比例,介绍如下:

  • 1、Refinement,即当前问题和上一个问题问的还是同一个实体,但约束条件不一样了

    • 前一个问题是:哪个专业的学生最少?

    • 后一个问题是:哪个专业最受欢迎?(即哪个专业学生最多?)。

    • 问的都是【专业】这个实体,只是约束条件变化了。

  • 2、Theme-entity,即当前问题问的是上一个问题中提到实体的其他属性

    • 前一个问题是:Anonymous Donor Hall 这个大厅的容量是多少?

    • 后一个问题是:列出它的所有便利设施。(即 Anonymous Donor Hall 大厅的所有便利设施有哪些?)。

    • 问的都是关于【Anonymous Donor Hall】这个实体,只是两个问题所问的实体属性不同。

  • 3、Theme-property,即当前问题问的是另外一个实体的同一个属性

    • 前一个问题是:告诉我 Double Down 这集的【排名】是多少。

    • 后一个问题是:那么 Keepers 这集呢?(即 Keepers 这集的【排名】是多少?)。

    • 问的都是【排名】这个属性,只是对应的实体不一样。

  • 4、Answer refinement,即当前问题问的是上一个问题的子集

    • 前一个问题是:请列出【所有系】的名字?

    • 后一个问题:【统计系】所有老师的平均薪资是多少?

    • 很显然,【所有系】→ 【统计系】

 

数据集的统计分析数据上和 ATIS 的对比如下:

SParC: Cross-Domain Semantic Parsing in Context  论文解读

 

不同轮数之间的 SQL token 的重叠比例,以此来看出每句之间的重叠程度,从下图可以看出,相邻的两轮之间重叠程度更多。

SParC: Cross-Domain Semantic Parsing in Context  论文解读

 

实验

作者主要对比了两个 baseline 模型,CD-Seq2Seq 和 SyntaxSQL-con。主实验结果如下:

SParC: Cross-Domain Semantic Parsing in Context  论文解读

这是个很有意思的结果,在 Question Match 这个指标上,SyntaxSQL-con 更胜一筹,而在 Interaction Match 指标上 CD-Seq2Seq 更高一些。文中也分析了原因,即 SyntaxSQL-con 在第一轮对话时表现出更高于 CD-Seq2Seq 的准确率,故拉升了在 Question Match 这个指标的分数,而随着对话轮数的增多,效果明显不如 CD-Seq2Seq,这是因为 CD-Seq2Seq 在建模历史对话内容的能力上更强一些,更能有效利用历史信息,所以在 Interaction Match 指标上效果更好。

下面是对话轮数和分数的表格:

SParC: Cross-Domain Semantic Parsing in Context  论文解读

更多有用的干货,欢迎关注我的 Gong众号:【AI分享者】,不定期更新实用工具、科研干货、竞赛刷题心得等。

上一篇:Flex 布局教程


下一篇:前端工程环境变量设置方法