Check It Again: Progressive Visual Question Answeringvia Visual Entailment
Abstract
虽然复杂的视觉问答模型取得了显着的成功,但它们往往只根据问题和答案之间的表面相关性来回答问题。 最近已经开发了几种的方法来解决这个语言先验问题。 然而,他们中的大多数人根据一个最佳输出预测正确答案,而没有检查答案的真实性。 此外,他们只探索图像和问题之间的相互作用,而忽略了候选答案的语义。 在本文中,我们提出了一种基于Visual Entailment的select-and-rerank (SAR) 渐进式框架。 具体来说,我们首先选择与问题或图像相关的候选答案,然后我们通过视觉蕴涵任务对候选答案重新排序,这验证图像在语义上是否包含问题和每个候选答案的综合陈述。 实验结果表明了我们提出的框架的有效性,它在 VQA-CP v2 上建立了一个新的最先进的准确度,提高了 7.55%
1 Introduction
视觉问答(VQA)任务是一个多模态问题,需要对视觉和文本信息的全面理解。 面对输入图像和问题,VQA 系统尝试在大预测空间中确定正确答案。最近,一些研究(Jabri 等人,2016 年;Agrawal 等人,2016 年;Zhang 等人,2016 年;Goyal 等人,2017 年)表明 VQA 系统存在由答案和问题之间的偶然相关性。结果,传统的 VQA 模型总是输出输入样本问题类别的最常见答案(Selvaraju et al.,2019),无论给出什么样的图片。为了解决这个语言先验问题,已经开发了各种方法。然而,通过探索现有方法的特点,我们发现无论是 UpDn(Andersonet al., 2018) 和 LXMERT(Tan and Bansal, 2019) 等通用 VQA 模型还是为语言先验精心设计的模型,如 LMH(Clark et al., 2019)。 , 2019) 和 SSL(Zhu et al., 2020) 产生了一个不可忽略的问题。 两种模型都根据一个最佳输出预测正确答案,而无需检查答案的真实性。 此外,这些模型没有很好地利用答案的语义信息来帮助缓解语言先验。
如下图(a)所示,很多正确答案常常出现在top-N中而不是top-1中。同时,如果给出top-N个候选答案,图像可以进一步验证基于问题和候选答案组合的概念的视觉存在/不存在。如下图 (b) 所示,问题是关于蝙蝠的颜色,两个候选答案是“黄色”和“黑色”。 在检查候选答案的正确性后,可以排除与图像相矛盾的错误答案“黄色”,并确认与图像一致的正确答案“黑色”。 减轻语言先验的语义,尚未得到充分研究。
在本文中,我们提出了一种基于 Visual Entailment 的 select-and-rerank(SAR) 渐进框架。 拟议框架背后的直觉来自两个观察结果。 首先,排除与问题和图像无关的答案后,预测空间缩小,我们可以获得少量候选答案。其次,在一个问题及其候选答案桥接成完整陈述的情况下,该陈述的真实性 可以通过图片的内容来推断。 因此,在选择了几个可能的答案作为候选后,我们可以利用由图像-文本对组成的视觉蕴涵来验证图像是否在语义上蕴涵合成语句。 根据蕴涵度,我们可以进一步重新排列候选答案,并给模型另一个机会找到正确的答案。 总而言之,我们的贡献如下:
- 我们提出了一个选择和重新排序的进步框架来解决语言先验问题,并对该框架的每个模块的一系列设计选择进行实证研究。 另外,它是一个通用的框架,可以很容易地与现有的VQA模型结合,进一步提升它们的能力。
- 我们强调了文本和图像之间的验证过程,并将 VQA 任务制定为视觉蕴涵问题。 这个过程充分利用了图像、问题和候选答案的交互信息。
- 实验结果表明,我们的框架建立了 66.73% 的最新准确率,大大优于现有方法。
2 Related Work
Language-Priors Methods
为了解决VQA模型的语言先验问题,已经提出了很多方法,可以大致分为两类(1)Designing Specific Debiasing Models to Reduce Biases。该系列的大多数作品都是基于集成的方法(Ramakrishnan 等人,2018 年;Grand 和 Be-linkov,2019 年;Belinkov 等人,2019 年;Cadene 等人,2019 年;Clark 等人,2019 年;Mahabadi 和 Henderson,2019),其中,LMH(Clark 等,2019)通过惩罚可以在不使用图像内容的情况下回答的样本来减少问答对之间的所有偏差。(2)Data Augmentationto Reduce Biases。这些作品(Zhang et al., 2016; Goyal et al., 2017; Agrawalet al., 2018)的主要思想是仔细构建更平衡的数据集以克服先验。例如,最近的方法 SSL(Zhu et al., 2020) 首先自动生成一组平衡的问题图像对,然后引入辅助自监督任务来使用平衡数据。CSS(Chen et al., 2020a) 通过添加更多互补样本来平衡数据,这些样本是由图像中的掩蔽对象或问题中的一些关键字生成的。基于CSS,CL(Liang et al., 2020)强制模型利用互补样本和原始样本之间的关系。与不使用任何额外手动注释的 SSL 和 CSS 不同,MUTANT(Gokhale et al., 2020) 利用额外的对象名称标签定位图像中的关键对象和问题中的关键词,这直接帮助模型确定在图像中的文本概念。然而,上述方法只探讨了图像和问题之间的相互作用,而忽略了候选答案的语义。 在本文中,我们提出了渐进式 VQA 框架 SAR,它实现了问题、图像和答案之间更好的交互。
Answer Re-ranking
尽管 VQA 任务中的 AnswerRe-ranking仍处于起步阶段,但它已被广泛研究用于开放域问答等 QA 任务,其中模型需要基于广泛的开放域知识源回答问题。最近的工作(Wanget al., 2018b,a; Kratzwald et al., 2019)以两个阶段的方式解决了这个任务:从所有段落中提取候选答案,然后关注这些候选答案并对它们重新排序以获得最终答案。RankVQA(Qiao et al., 2020)将 AnswerRe-ranking 方法引入到 VQA 任务中。然而,RankVQA 仍然预测来自巨大的预测空间而不是选定的候选答案
3 Method
下图显示了所提出的select-and-rerank (SAR) 框架的概述,该框架由候选答案选择模块和答案重新排序模块组成。在候选答案选择模块中,给定一个图像和一个问题,我们首先使用当前的 VQA 模型来获得由 top-N个答案组成的候选答案集。 在这个模块中,可以过滤掉与问题无关的答案。接下来,我们将 VQA 制定为 Answer Re-ranking 模块中的 VE 任务,其中图像是前提,合成密集字幕(Johnson 等人,2016)(答案和问题的组合)是假设。 我们使用跨域预训练模型 LXMERT(Tanand Bansal, 2019) 作为 VE 评分器来计算每个图像字幕对的蕴含分数,因此得分最高的密集字幕对应的答案就是我们的最终预测。我们使用跨域预训练模型 LXMERT(Tanand Bansal, 2019) 作为 VE 评分器来计算每个图像字幕对的蕴含分数,因此得分最高的密集字幕对应的答案就是我们的最终预测。
3.1 Candidate Answer Selecting
候选答案选择器 (CAS) 从所有可能的答案中选择几个答案作为候选,从而缩小了巨大的预测空间。给予\(M\)个VQA的数据\(D=\{I_i,Q_i\}_{i=1}^M\)其中\(I_i\in I,Q_i\in Q\)是第\(i\)个样本的图像和问题数据,\(A\)是包含上千个答案的预测空间。CAS是一个\(|A|\)分类,CAS根据输入的图像\(I_i\)和输入的问题\(Q_i\),将会给出回归分数:\(P(A|Q_i,I_i)\),网络的结构选择是*的,最后候选答案选择其从\(A\)中选出top-N个分数最高的答案作为候选答案:
\[A_i^*=topN(argsort(P(A|Q_i,I_i))) \]其中\(N\)为超参数,候选答案\(A_i^*=[A_i^1,A_i^2,...,A_i^N]\)和每个数据队将形成包含\(M*N\)个数据的新的数据集
\[D'=\{I_i,Q_i,A_i^n\}_{i=1,n=1}^{M,N} \]其中\(A_i^n\in A_i^*\),在本文中,我们主要使用 SSL 作为我们的CAS。 我们还进行了实验来分析不同CAS和不同N的影响。
3.2 Answer Re-ranking
3.2.1 Visual Entailment
Xieet等人提出了 Visual Entailment (VE) 任务。 (2019),前提是真实的世界图像\(P_{image}\),假设为文本\(H_{text}\),给定一个样本\((P_{image},H_{text})\),VE任务的目标是确定根据信息\(P_{image}\)能否可以得出结论\(H_{text}\)。根据以下协议,样品的标签被分配给
1.Entailment(蕴含),如果\(P_{image}\)有足够的证据证明\(H_{text}\)是正确的。
2.Contradiction(矛盾),如果\(P_{image}\)有足够的证据证明\(H_{text}\)是错误的。
3.Neutral(中立的),如果\(P_{image}\)有没有足够的证据来得出\(H_{text}\)的结论。
3.2.2 VQA As Visual Entailment
每一个候选答案\(A_i^*\)和他的问题都可以桥接成一个完整的陈述,然后图像用来验证每个陈述的真实性。更具体地说,概念的视觉呈现(例如“黑蝙蝠”/“黄蝙蝠”)基于问题和正确/错误候选答案的组合可以被图像内容所包含/矛盾。通过这种方式,我们实现了问题、图像和答案之间更好的互动。
因此,我们将 VQA 表述为一个 VE 问题,其中图像\(I_i\)是前提,\(A_i^*\)中的答案\(A_i^n\)和问题\(Q_i\)的综合陈述表示为\((Q_i,A_i^n)\)是假设。对于同一幅图像,不同问题的综合陈述描述了同一图像的不同区域。继约翰逊等人(2016)之后,我们也将合成语句称为“dense caption”。我们使用\(A_i^+\)表示是问题\(Q_i\)的正确答案的\(A_i^n\),反之则使用\(A_i^-\)。\(I_i\)有足够的证据证明\((Q_i,A_i^+)\)为真,即视觉语言寓意蕴含\((Q_i,A_i^+)\)的。并且\(I_i\)有足够的证据证明\((Q_i,A_i^-)\)是假的,即视觉语言语义上是冲突\((Q_i,A_i^-)\)的。请注意,我们的 VE 任务中没有 Neutral标签,我们只有两个标签:Entailment 和 Contradiction。
3.2.3 Re-Ranking based on VE
我们通过对比学习重新排列密集字幕,\((Q_i,A_i^+)\)应该在语义上对于图像\(I_i\)比\((Q_i,A_i^-)\)更相似。总体结构的右侧部分说明了这个想法。语义上越是想死,视觉蕴含度就越深。我们对每个\((Q_i,A_i^n)\)与图像\(I_i\)的视觉蕴含进行评分,并根据这个分数对候选答案\(A_i^*\)进行排序。排名第一的为我们的最终输出。
Question-Answer Combination Strategy
只有将答案信息与问题结合起来时,答案信息才有意义。 我们对问答文本的组合进行编码以获得联合概念。我们设计了三个问答组合策略:\(R\),\(C\),和\(R\rightarrow C\)去将问答组合合成dense caption\(C_i\)
R:Replace question category prefix with answer
每个问题的前缀是问题类别,例如“在那里”、“什么颜色”等。例如,给定一个问题“How many flowers inthe vase?”,它的答案是“8”,问题类别是“How many”,得到的密集标题是“8 flow-ers in the vase”。同样地,“No a crosswalk” 是由问题 “ Is this a crosswalk?” 和答案 “No”生成的。首先建立训练集所有问题类别的字典,然后采用前向最大匹配算法确定每个测试样本的问题类别。
C:Concatenate question and answer directly
在上面的两个例子中,密集的标题是“8 How many flowers in the vase?”和“No Isthis a crosswalk?”。串联后产生的密集字幕实际上是反问句。我们特意在问题文本前面添加了答案文本,以避免在将密集字幕修剪为相同长度时删除答案。
R→C:
我们首先在训练中使用策略 R,旨在防止模型过度关注问题类别和答案之间的共现关系,然后在测试中使用策略 C 引入更多信息进行推理。
采用上述的任何策略,我们将\(Q_i\)和\(A_i^*\)中的每一个答案结合起来生成密集字幕\(C_i^*\),因此我们获得数据量为\(M*N\)的数据集\(D''=\{I_i,C_i^n\}_{i=1,n=1}^{M,N}\)为下面的VE任务。
VE Scorer
我们使用预先训练好的模型LXMERT对\((I_i,C_i^n)\)的视觉蕴涵度进行评分。LXMERT 在两个流中分别对图像和标题文本进行编码。接下来,单独的流通过共同注意的transformer层进行交互。在文本流中,密集字幕被编码为高级概念。然后来自视觉流的视觉表示可以验证高级概念的视觉存在/不存在。
我们将第\(i\)张图片的第\(n\)个候选标题的VE分表示为\(sigmoid(Trm(I_i,C_i^n))\)其中\(Trm()\)是LXMERT密集层之后的一维输出。\(\sigma\)表示sigmoid函数。分值越大,表示的包容度越高。 我们通过最小化多标签软损失来优化主函数的参数:
\[L_{VE}=\frac{-1}{M*N}\sum_{i=1}^{M}\sum_{n=1}^N[t_i^nlog(\sigma(Trm(I_i,C_i^n)))+(1-t_i^n)log(1-\sigma(Trm(I_i,C_i^n)))] \]其中\(t_i^n\)是第n个答案的软标签分数。
Combination with Language-Priors Method
候选答案选择后,候选答案的数量从所有可能的答案减少到topN。虽然过滤掉了一些不相关的答案,VE 系统的数据集\(D''\)仍然存在偏差。因此,我们可以选择性地将现有的语言先验方法应用于我们的框架,以进一步减少语言先验。以 SSL 为例,我们通过调整损失函数将其自监督任务的损失函数应用到我们的框架中。
\[L_{ssl}=\frac{α}{M*N}\sum_{i=1}^M\sum_{n=1}^NP(I_i',C_i^n) \]其中 \((I_i',C_i^n)\)表示不相关的图像-字幕对,\(α\)是下加权系数。 其中的\(P(I_i',C_i^*)\)可以被认为是\((I_i',C_i^*)\)的相关置信度。我们可以重新制定整体损失函数:
\[L=L_{VE}+L_{ssl} \]3.3 Inference Process
Question Type Discriminator
直观地,大多数“是/否”问题都可以通过回答“是”或“否”来回答。在测试阶段不需要为“是/否”问题提供过多的候选答案。因此,我们提出了一个问题类型鉴别器(QTD)来确定问题类型,然后相应地设置不同数量的候选答案,记为\(N'\)。具体来说,我们粗略地将问题类型(包括“是/否”、“数字”和“其他”)分为是/否和非是/否。使用交叉熵损失训练 GRU 二元分类器,并在每个数据集的训练拆分上使用 5 折交叉验证进行评估。然后,在测试阶段,将训练好的 QTD 模型以大约 97% 的准确率实现为离线模块。 我们将在下一节中进一步研究 N' 对每种问题类型的影响。
Final Prediction
在推理阶段,我们在第\(i\)张图片的所有候选\(C_i^*\)中选择最好的密集字幕\(\widehat{C_i}\)。
\[\widehat{C_i}=argmax_{n\in N'}\sigma(Trm(I_i,C_i^n)) \]对应于\(\widehat{C_i}\)的答案\(\widehat{A_i}\)是最终预测。
4 Experiment
4.1 Setting
Datasets
我们的模型在 VQA-CP v2(Agrawal et al., 2018) 数据集上进行了训练和评估,该数据集是通过重新组织 VQA v2(Goyal et al., 2017) 训练和验证集而精心制作的,以便每个 问题类别(根据问题前缀共 65个类别)在训练集和测试集中有不同的分布。因此,VQA-CP v2是评估 VQA 模型泛化性的自然选择。VQA-CP v2 的问题包括 3 种类型:“是/否”、“数量”和“其他”。 请注意,问题类型和问题类别(例如“什么颜色”)是不同的。此外,我们还在 VQA v2 验证集上评估我们的模型的完整性,并将两个数据集之间的准确性差异与标准 VQA 评估指标进行比较(Antolet al., 2015)。
Baselines
我们将我们的方法与以下基线方法进行比较:UpDn(Andersonet al., 2018)、AReg(Ramakrishnan et al., 2018)、RUBi(Cadene et al., 2019)、LMH(Clark et al., 2019)、RankVQA( Qiao et al., 2020)、SSL(Zhuet al., 2020)、CSS(Chen et al., 2020a)、CL(Lianget al., 2020) 和 LXMERT(Tan and Bansal, 2019)。其中大部分是设计的对于语言先验问题,而 LXMERT 代表了使用具有最佳性能的类 BERT 预训练模型(Li et al., 2019; Chen et al., 2020b; Li et al., 2020)的最新趋势 在各种下游视觉和语言任务(包括 VQA-v2)上。 请注意,MUTANT(Gokhale 等人,2020 年)使用额外的对象名称标签来确定图像中的文本概念。 为了公平比较,我们不与 MUTANT进行比较。
4.2 Implementation Details
在本文中,我们主要选择 SSL 作为我们的 CAS 并设置 N=12 和 N=20 进行训练。 为了提取图像特征,我们遵循之前的工作并使用预训练的 Faster R-CNN 将每个图像编码为一组具有 2048 维特征向量的固定 36 个对象。 我们使用 LXMERT 的分词器将每个密集字幕分割成单词。 所有的问题都被修剪成相同的长度,分别为 15 或 18,分别用于 R 或 C 问答组合策略。 在 Answer Re-ranking模型中,我们分别将 SSL 和 LMH 两种语言先验方法结合到我们提出的框架 SAR 中,称为 SAR+SSL 和 SAR+LMH。 我们的模型在两个 TITAN RTX 24GB GPU 上训练。 我们训练 SAR+SSLfor 20 epochs,批大小为 32,SAR 和 SAR+LMH 训练 10 epochs,批大小为 64。对于 SAR+SSL,我们遵循与原始论文相同的设置(Zhu et al., 2020),除了 在使用自监督损失对其进行微调之前,我们不需要使用 VQAloss 对模型进行预训练。 采用 Adam 优化器,学习率为 1e-5。
对于问题类型鉴别器,我们使用 300 维 Glove(Pennington et al., 2014) 向量来初始化词嵌入并将它们馈送到具有 128 个隐藏单元的单向 GRU。 在 VAQ-CP v2 上进行测试时,\(N'\)范围为 1-2 对是/否问题和 5-15 对非是/否问题。在 VAQ v2 上进行测试时,\(N'\)范围为 1-2 对是/否问题和 2-5对非是/否问题。
4.3 Results and Analysis
4.3.1Main Results
在两个基准 VQA-CP-v2 和 VQA-v2 上的性能如下图所示。我们分别报告了 SAR、SAR+SSL 和 SAR+LMH 在 3 个问答组合策略中的最佳结果。 “TopN-”表示候选答案(由 CAS 选择)输入 Answer Re-ranking 模块进行训练。 我们的方法是用 N(12 和 20) 的两种设置进行评估的。
从表中所示的 VQA-CP v2 上的结果,我们可以观察到: (1) Top20-SAR+LMH 在 VQA-CP v2 上建立了 66.73% 的最新准确率,击败了之前表现最好的方法 CL 为 7.55%。 即使没有在 Answer Re-ranking 模块中结合语言先验方法,我们的模型 Top20-SAR 也优于 CL 6.26%。 这些显示了我们提出的 SAR 框架的杰出有效性。 (2) SAR+SSL 和SAR+LMH 实现了比SSL 和LMH 更好的性能,这表明SAR 与当前的语言先验方法兼容并且可以充分发挥其潜力。 (3) 与另一个基于重排序的模型 RankVQA 相比,我们的方法将性能提升了 23.68%。这表明我们提出的渐进式选择和重排序框架优于仅使用答案重排序的 RankVQA 作为辅助任务。 (4) 以前的模型不能很好地概括所有问题类型。 CL 在“是/否”、“Num”问题和“其他”问题上的 LXMERT 是之前最好的。 相比之下,我们的模型不仅在“是/否”问题上与之前的最佳模型相媲美,而且在“数字”和“其他”问题上的最佳性能提高了 12.45% 和 3.65%。 在所有问题类型上的卓越表现表明,我们的模型在真正全面的 VQA 模型方面取得了重大进展。
我们还在 VQA v2 上评估了我们的方法,该 VQA v2 被认为具有很强的语言偏差。 如上表所示,我们的方法在专门为克服语言先验而设计的基线中达到了 70.63% 的最佳准确率,并且与 LXMERT 建立的 SOTA 最接近,后者是针对有偏见的数据集进行了明确的训练。 为了完整性,两个数据集之间的性能差距也在表格中与 Chen 等人 (2020a)的协议进行了比较。 与之前在 VQA v2 和 VQA-CP v2 之间出现严重性能下降的大多数模型(例如,LXMERT 中的 27.93%)相比,Top20-SAR+LMH 的性能下降显着降低至 2.49%,这证明了我们的框架的有效性 进一步克服语言偏见。 虽然 CSS 实现了更好的性能差距,但它牺牲了 VQA v2 的性能。同时,随着 N 从 12 增加到 20,我们的模型在两个数据集上都实现了更好的准确性,同时性能差距更小。 这表明,与以前的方法不同,我们的方法可以减轻语言先验,同时保持出色的回答问题能力。尽管如此,我们相信如何提高该模型的通用性进一步将语言优先性与回答问题之间的权衡转化为双赢的结果是未来一个很有前途的研究方向。
4.3.2 The Effect of N
从下图 中,我们可以观察到,随着 N 的增加,整体性能越来越好。 “Num”和“Other”题的成绩提升尤为明显,“Yes/No”题的成绩下降非常小。 我们相信通过适当增加N,SAR可以进一步获得更好的性能。 由于资源限制,本文我们使用最大的N是20。
4.3.3 The Effect of Different CAS
为了找出 CAS 模型的潜在性能限制,我们在 VQA-CP v2 测试集上展示了 3 个 CAS 模型的准确性。 如图所示,3个模型的Top3准确率(acc)约为70%,Top6 acc为80%,保证了CAS召回了足够多的正确答案。因此,CAS的性能限制可以忽略不计。
我们还进行了实验来研究不同 CAS 对 SAR 的影响。 从下表所示的结果中,我们可以观察到:(1)选择更好的 VQA 模型作为 CAS 并不能保证更好的性能,例如 性能基于UpDn 优于基于 LMH 的,但与 UpDn 相比,LMH 在克服语言优先级方面是更好的 VQA 模型。 这是因为一个好的候选答案选择器有两个要求(a) 应该能够回忆更多的正确答案。(b) 在语言偏见的情况下,CAS 在训练时回忆的错误答案应该与问题具有尽可能强的表面相关性。 然而,集成方法,如 LMH,被训练为更加关注那些没有被纯问题模型正确回答的样本。 这严重降低了那些语言先验错误答案的召回率,导致 VE 的训练数据过于简单,从而损害了模型降低语言先验的能力。 (2)如果CAS是通用VQA模型UpDn而不是LMH和SSL,在Answer Re-ranking模块中结合语言先验方法带来的改进更加明显。 (3) 即使我们选择UpDn,一个当前大多数作品的骨干模型,作为我们的CAS,并且不涉及任何语言先验方法,SAR仍然比之前的SOTA模型CL获得了2.53%的更好的准确率,这表明我们的 基础框架已经具备了出色的减少语言先验的能力。
4.3.4 The Effect of Question-Answer Combination Strategies
从表 3 所示的结果中,我们可以观察到:(1)从总体结果来看,R→C 在三个模型上实现或竞争对手的最佳性能。 平均而言,R→C 优于 C 2.02%,这表明在训练期间避免问题类别和答案的共现可以有效缓解语言先验。R→C 优于 R 2.41%,这表明问题类别信息在推理中很有用。(2) 在 SAR 和 SAR+SSL 上,C 始终优于 R,但在 SAR+LMH 上,我们看到相反的结果。 这可能是因为我们的方法和平衡数据方法 SSL 可以学习由问题类别和答案之间的表面相关性导致的正偏差,这有助于泛化,但基于集成的方法 LMH 会在去偏差过程中减弱正偏差。 (3) 即使没有语言先验方法,R→C 的 SAR 与 R 或 C 的 SAR+SSL 和 SAR+LMH 竞争或优于 SAR+LMH,这表明 R→C 策略可以帮助模型减轻语言先验。 因此,与 R 或 C 相比,我们的 R→C 框架在使用相同的语言先验方法后仅获得了轻微的性能提升。
4.3.5 Ablation Study
“CAS+”代表我们使用select-and-rerank结构。从表4中我们可以发现:(1)LXM+SSL代表直接将SSL应用到LXMERT。 它的糟糕表现表明我们框架的主要贡献不是来自语言先验方法 SSL 和预训练模型 LXMERT 的组合。 (2) 与 LXM 和 LXM+SSL 相比,CAS+LXM 和 CAS+LXM+SSL 分别获得了 9.35% 和 6.32% 的显着性能提升,这证明了我们提出的 select-and- 重新排序程序。 (3) CAS+LXM+QTD(R) 和 CAS+LXM+SSL+QTD(R) 分别优于 CAS+LXM(R) 和 CAS+LXM+SSL(R) 3.93% 和 2.71%, 其中显示了 QTD 模块的贡献。 这进一步表明,为不同的问题类型选择合适的 \(N'\)是提高模型性能的有用步骤.(4)CAS+LXM+SSL+QTD使CAS+LXM+QTD的性能提高了2.61%,可见当前的语言先验方法非常适合我们的框架,并且可以进一步提高性能。
4.3.6 The Effect of \(N'\)
从下图 中,我们可以发现: (1) 由于是/否问题的性质,是/否问题的 最佳\(N'\)小于非是/否问题的最佳\(N'\)。 (2)随着\(N'\)的增加,“Num”和“Other”问题的准确率先上升后下降。这种现象背后有一个权衡:当\(N'\)太小时,正确答案可能不会被CAS召回; 当\(N'\)太大时,错误答案的干扰使模型更难选择正确答案。
4.3.7 Qualitative Examples
我们定性地评估我们框架的有效性。 如下图所示,与 SSL 相比,SAR 不仅在问答方面表现更好,而且在视觉接地方面表现更好。 借助答案语义,SAR 可以关注与候选答案相关的区域,并进一步使用该区域来验证其正确性。
5 Conclusion
在本文中,我们提出了一种基于 Visual Entailment 的选择和重新排序 (SAR) 渐进式框架。 具体来说,我们首先选择候选答案以缩小预测空间,然后通过视觉蕴涵任务对候选答案进行重新排序,该任务验证图像是否 在语义上包含问题的综合陈述和每个候选答案。 我们的框架可以充分利用图像、问题和候选答案的交互信息。 此外,它是一个通用框架,可以很容易地与现有的 VQA 模型结合,进一步提升其能力。 我们通过广泛的实验和分析证明了我们的框架在 VQA-CP v2 数据集上的优势。 我们的方法建立了一个新的最先进的准确度 66.73%,比以前的最佳准确度提高了 7.55%。