文献阅读(十三):A survey of deep learning-based visual question answering_黄同愿
- Abstract
- 1 Introduction
- 2 Problems and challenges
- 3 Visual question answering
- 4 Data sets and evaluation indicators
- 5 Algorithm performance comparison
- 6 Directions for future
- 7 Conclusions
- 标题:基于深度学习的视觉问答研究综述
Abstract
随着机器学习特别是深度学习的兴起和不断发展,视觉问答领域的研究取得了显著进展,具有重要的理论研究意义和实际应用价值。因此,有必要对目前的研究进行总结,为该领域的研究者提供一些参考。本文对视觉问答领域的相关研究和典型方法进行了详细而深入的分析和总结。
首先介绍了VQA(Visual Question answer)的相关背景知识。
其次,讨论了视觉问答所面临的问题和挑战,并对视觉问答的具体方法进行了展望。
第三,对影响视觉问答的关键子问题进行了归纳和分析。
然后,总结了目前常用的数据集和评价指标。
接下来,针对VQA研究中流行的算法和模型,对算法和模型进行了总结和列举。
最后,对视觉问答的未来发展趋势和结论进行了展望。
1 Introduction
近年来,计算机视觉和自然语言处理已经取得了很大的进展,但两者的联合任务仍然面临着巨大的挑战。2014年,视觉问答(VQA)作为一项新兴的研究被提出,它结合了这两个任务,从给定的图片和关于它的问题生成答案,如图1所示。
VQA可以与图像字幕(IC)、视觉问题生成(VQG)和视觉对话(VD)相结合,创建一个智能代理,该代理可以在现实世界中执行人工任务,并通过语言与人类进行通信。它还可以应用于许多特定领域,如帮助智能分析人员、视障人士从网络或生活中获取图像信息,以及使用图像检索而不使用图像标签。
大量的研究已经积累了在视觉领域的问题-答案,答案重复率最高的随机猜测其基线方法[1],这通常是用来确定数据集的质量和其他算法应满足的最低标准。AGRAWAL等[2]引入了VQA任务,将图片和问题特征组合成一个向量,通过非线性方法进行分类。
然后,MALINOWSKI等[3]首次将贝叶斯算法用于VQA任务,首先使用语义分割方法识别图像中的物体和位置,然后训练贝叶斯算法模拟物体之间的空间关系,计算每个答案的概率。
为了进一步提高模型的性能,SHIH等[4]引入了视觉注意来突出答案中最相关的图像区域。
为了进一步提高模型的泛化能力,MA等[5]利用记忆增强网络来提高模型对不常见问答对的记忆能力。
为了缩小机器和人之间的差距,FUKUI等[6]在同一框架中引入了注意机制和多模态关节嵌入。
GORDON等[7]引入了交互式问答系统,基于所提供的场景和问题,智能代理通过对视觉场景的理解进行自主导航,与真实环境交互获取答案。
目前,关于视觉问答任务的研究综述较少,参考文献中主要研究了少数经典模型。[8−10],不涉及过去一两年的研究成果。YU等[11]主要总结了VQA任务的子问题,但仍然不完整。因此,有必要对近年来的研究进行更详细的总结,使研究人员对该领域有更全面、全面的认识。
本文对视觉问答任务的四个方面进行了分析和总结。
第1节介绍了VQA的背景。
第2节讨论了VQA任务面临的问题和挑战。
第3节详细介绍了VQA的总体框架和六个子模块。
第4节概述了目前可用的数据集和评价指标。
第5节总结了相关算法的性能比较,并将其列在表格中。
第6节结合了VQA的研究现状,并对未来的研究趋势进行了展望。第7节做了一个总结。
2 Problems and challenges
理想的视觉问答系统应该类似于人类的视觉和对话。人类可以识别图像中的物体,理解物体的空间位置,推断物体之间的关系等,并通过自然语言提出关于图像的任何问题。因此,VQA任务远远超出了图像理解和视觉问答系统的范围,图2总结了其主要问题和挑战。
从任务尺度上看,视觉问答系统是一个综合性的研究任务,每个子任务对最终效果都有深刻的影响,需要深入研究。从整体结构上看,目前的模型结构比较简单,大多源于局部问题,而设计合理有效的模型框架的研究很少。
除了以上的问题和挑战,视觉问答还可以结合其他的横切研究来提高算法性能。下面将介绍图像字幕、视觉问题生成和视觉对话任务在视觉问答中的作用。
2.1.1图片标题
图像标题根据图像的属性和对象关系生成一种自然语言的描述。它的通用框架是基于编码器-解码器结构。编码器将图像中检测到的目标编码为一个向量,利用最后一个卷积层或全连通层的特征作为图像特征。解码器将特征向量映射到文本。图像字幕的处理如图3所示。
图像标题与视觉问答的区别在于,图像标题只需要对图像进行大致的描述,而视觉问答则需要根据问题的不同,关注图像的不同局部区域,复杂的问题需要一定的智力推理。对于图像标题,对图像的理解程度是任意的,而对视觉问答的理解程度是由所问问题的性质决定的。图像标题输出中反映的两者之间的相关性可以作为问答系统的输入,为后续的任务提供了丰富的知识。WU等人[12]使用长期短期记忆(LSTM)[13]网络生成图像描述,作为视觉问题回答的输入。它为LSTM后续发展作出了重要贡献,加快了VQA进程。在这种情况下,将问题和视觉表示输入解码器(通常是一个LSTM网络),然后训练产生相应的答案。然而,LSTM把问题看成是一系列的单词,不能反映语言结构的真实复杂性。
图像字幕也可以直接用作视觉问答系统的输入,JAIN等人使用拼接向量作为模型的输入,分别对图像、字幕、历史问答对、问题和答案进行了[14]编码。
目前,ZHOU等人[15]提出了一种新的视频描述模型,利用这些边界框注释,在视频描述、视频段落描述和图像描述方面实现了最先进的性能。在这项工作中,他们明确地将句子与视频中的证据联系起来。这在一定程度上为解决LSTM的缺陷提供了一种新的途径。
2.1.2视觉问题生成
视觉问题生成是针对给定的图像生成各种类型的问题,在运行时动态确定,不需要完全理解图像,也不限制正确答案的范围,通常生成开放式问题,甚至是人类无法回答的问题。
视觉问答和视觉问题生成是相互加强的关系。HEDI等人[16]对VQA和VQG进行了改进,提出了一种基于多模态张力的Tucker分解,有效地参数化了图像和文本之间的双线性表达关系,并设计了一种基于矩阵的低层分解,清晰地约束了交互的级别。LI等[17]与VQA和VQG进行了联合培训,提供了真实的答案作为提示。LIU等[18]提出IVQA (inverse visual question answer),将VQG作为一个多模态动态推理过程,以部分生成的问答为导向,逐步调整焦点。虽然在神经问题生成方面已经有很多研究,但是如何从非结构化文本中生成高质量的VQA仍然是一个主要的挑战。大多数现有的神经网络问题生成方法试图解决一个答案感知问题,其中答案块和周围的段落是模型的输入,输出是要生成的问题。他们将任务描述为对问题进行排序,并设计各种编码器、解码器和输入特性,以提高生成问题的质量。然而,基于答案的问题生成模型远远不够,因为从一篇文章中生成的问题本质上是一对多的。
2.1.3视觉对话
视觉对话是智能代理和使用自然语言观察视觉内容的人类之间有意义的对话。给定一幅图像、一段历史对话和一个关于图像的问题,智能代理必须将问题放入图像和历史对话中,然后推断背景,并准确回答。
视觉对话是视觉问答任务进一步发展的产物。根据问答形式,视觉对话分为单向视觉对话和双向视觉对话,单向视觉对话类似于视觉问答,使用图像和历史问答对作为输入,生成当前时刻的答案。VRIES等[19]引入了一种互动游戏,通过提问来缩小候选人的范围,从用户提供的信息中获取消化答案,从而瞄准用户感兴趣的对象,了解用户的兴趣。虽然目前的可视对话模型已经取得了令人印象深刻的性能,但当问题涉及到图像的特定区域或更详细的对话段时,模型很难给出准确的答案。原因是单步分析同时需要太多的信息。当需要一个特定的位置或问题、形象和对话历史需要反复理解时,单步理解是非常有限的。因此,从粗粒度到细粒度的多步骤推理是非常必要的。
3 Visual question answering
对大量的视觉问答研究进行分析,几乎所有模型都使用CNN(卷积神经网络)提取图像特征,RNN(循环神经网络)提取文本语义特征,然后合并特征。复杂模型引入注意机制来获得更好的区域或文本注意,并引入知识库来提供更全面的知识来源。融合特征最终被输入分类器或生成器。整个工作流大致总结如图4所示。
3.1卷积神经网络
卷积神经网络最早由福岛[20]于1980年提出,通过覆盖网络层来提取图像不同层次的语义特征,从而完成图像分类、目标检测、行为识别和图像分割等后续任务。因此,CNN是图像理解和应用的基础,提取的图像特征将直接影响后续高级任务的执行。近年来,各种基于CNN的深度学习模型相继出现,通过“输入-前向传播-输出-损失计算-反向传播”的不断迭代达到模型收敛,经典的CNN模型如表1所示。
==视觉问答的主要目标是从图像中提取与问题相关的语义信息,从小细节的检测到对整个图像的抽象理解。==根据图像特征提取的范围,将视觉问答模型分为两类:
CNN提取的图像全局特征和区域建议网络(region proposal network, RPN)提取的图像区域特征。表2总结了这个区域使用全局和局部特征的网络模型。
3.2递归神经网络
生活中有许多序列的数据(视频/文本/语音等)与时序相关,即某一时刻的输出与当前输入和之前时刻的输出相关。循环神经网络是针对序列数据设计的,可以处理固定长度或可变长度的数据,广泛应用于机器翻译、文本处理和语音识别等领域,在其他领域也越来越受欢迎。
==递归神经网络分为简单递归神经网络和复杂递归神经网络。==简单递归神经网络:最早由ELMAN[39]于1990年提出,通过在文本中依次输入每个单词,将最后一个单词对应的隐含层输出作为整个文本的语义信息,并保留上述信息。
复杂的循环神经网络:探索了多种提取文本特征的方法,包括BOW (Bag Of Word)模型、LSTM编码器、GRU (Gate recurrent Unit)和Skip-Thought 向量[40]等。
与传统的BOW模型相比,RNN模型可以捕获单词序列,并通过共享参数来减小参数的大小。早期RNN只能记住有限时间单元的内容,改进后的RNN能更好地捕获长距离信息,如LSTM、GRU等。除了他们的长期记忆能力,他们还可以缓解问题,如梯度消失。目前,利用RNN提取文本语义信息是VQA任务的主要方法。
3.3特征融合
特征融合是横切研究的重要组成部分,将不同的特征表达通过特征融合映射到统一的特征空间是探索“图像问题对”更好的联合嵌入表达。
在Ref.[41]中提出了一个双分支神经网络,由CNN图像编码器和LSTM问题编码器组成,图像编码和问题编码在传输到解码器之前进行融合。为了更好的特征表达,LIN等[42]将CNN的全连接层改为双线性层。FUKUI等[6]利用其思想引入了MCB (multi-modal compact biline0),通过外部产品更紧凑地融合图像和文本特征。由于外积产生高维特征,GAO等[43]对融合特征进一步压缩,压缩后仍趋于高维。因此,KIM等[44]提出了MLB (multimodal low-rank biline0),该算法使用Hadamard进行特征融合,但收敛速度较慢。YU等人[45]提出了MFB (multi-modal factorized biline0),该算法利用矩阵分解技术结合特征,不仅减少了参数量,而且提高了收敛速度。在参考文献[46,47],探索外部知识和多模态残差学习来提高联合嵌入表达的有效性。
目前常用的特征融合方法:级数法、对应元素相加法、点乘法和向量积法。==但大多数方法仅通过简单的矩阵运算进行交互,并没有实现图像与问题特征的密集交互。==针对这一问题,SHRESTHA等人[48]提出了一种新的VQA算法,该算法在考虑测试推理的合成数据集的同时,可以聚焦于自然图像理解下的VQA数据集。为了更好地捕捉语言与视野之间的高级交互,从而提高视觉问题的回答性能,GAO等[49]提出了一种多模态特征与模块间信息流动态融合的新方法。
3.4注意机制
人类在回答问题时关注的是图像的特定区域,所以研究人员也希望视觉问答模型将聚焦于图像的“相关区域”或文本的“关键词”。注意机制聚焦于最重要的图像区域和问题词汇,在人工智能的所有领域都起着重要的作用。根据关注点的不同,有四个主要部分,如图5所示。
视觉注意基于给定的问题将注意力集中到图像的特定区域,图像的区域和问题的相关性加权该区域。KAZEMI等人[50]根据给定的问题结合空间注意力学习了特定区域特征的表达。YANG等人[51]引入了san(堆叠注意网络),利用问题特征搜索图像区域,进而生成多个注意地图,最后选择最相关的区域。然而,有些问题涉及图像的多个区域,ZHU等[52]提出了一种编码跨区域关系的结构化注意模型,将视觉注意建模为条件随机场中的多个分布,目的是正确回答涉及复杂区域关系的问题。
YIN等[53]进一步考虑使用图像来引导关键词的注意。ILIEVSKI等[54]将检测到的目标区域作为问题的候选区域,然后根据问题选择最相关的区域。XU等人[55]将选择图像区域的过程视为一个单一的“跳转”,该“跳转”通过多级跳转捕获关于问题的细粒度信息。为了缩小图像特征与问题特征之间的差距,YU等[56]提出了一个多层次的网络焦点,利用注意机制进行语义注意,从而缩小语义差距。JANG等人[57]关注的是单个序列。
联合注意是学习强相关性的“图像问题对”。LU等人[58]在图像问题特征联合嵌入前使用joint attention处理最相关的图像区域和文本单词。LIANG等人提出了FVTA (focal visual text attention)网络。在序列数据中,利用层次结构动态地确定需要注意哪幅图以及什么时候回答问题。NGUYEN等[60]考虑了图像问题的密集对称交互,使问题单词和图像区域相互聚焦,增强了模型的效果。
差异注意是一种前景与背景的差异注意,它更符合人类的注意习惯。例如PATRO等[61]通过收集阳性和阴性样本来了解数据之间的差异,从而实现不同的关注。实验表明,这有助于提高答案的准确性。JAIN等人[14]通过迭代输入历史选项来最大化使用选项信息。
注意机制可以有效提高模型的性能。目前,许多研究仅仅集中在整个问题的图像区域,或者仅仅考虑图像区域与问题单词之间有限的相关性。虽然联合注意考虑的是对问题词汇和图像的共同关注,但它关注的是整个图像。因此,为了获得图像问题对之间的复杂关系,可以将注意机制扩展到处理任何图像区域与任何问题词之间的任何交互。相比之下,CADENE等[62]放弃了经典的注意框架,使用向量表示来模拟视觉内容与各个区域问题之间的语义交互。
XU等[63]提出了两种关注:软机制和硬机制。LUONG等人[64]提出了两种不同的关注类型,全球和本地。全球关注实际上是软关注;局部关注是硬关注和软关注之间的妥协。根据计算的注意范围,可分为以下几类:
1)软注意是一种常见的注意方法,它计算所有键的权重概率,每个键都有相应的权重,是一种全局计算方法(也称全局注意)。这种方法比较合理。它引用所有键的内容,然后权重。但计算量可能会更大。
2)硬注意。通过这种方式,可以直接准确地定位一个密钥,而忽略其余的密钥。这个键的概率是1,其他键的概率是0。因此,这种对准要求非常高,一步到位,如果没有正确对准,会带来很大的影响。另一方面,由于它是不可微分的,所以一般需要使用强化学习的方法进行训练。
3)局部关注实际上是上述两种方法的折中。它计算一个窗口面积。首先使用困难模式来定位一个特定的位置。以这个点为中心,就可以得到一个窗口面积。在这个小范围内,用软方法来计算注意事项。
3.5知识与推理
根据答案生成的难度,视觉问答可分为三个层次:
1)简单。从图像识别的结果中直接得到答案。
2)中间。答案是图像上的物体太小或难以分辨,这需要事实的支持。
3)困难。答案不在图像中,需要根据图像内容进行推断。对于“难”的问题,已经超出了图像理解的范围,可能涉及常识、具体话题和百科知识。因此,在视觉问答中引入了知识库和组合推理。
目前已经建立了很多知识库,如表3所示。
文献[72]将图像和问题编码成离散向量,用向量检索知识库。WANG等人[73]提出了“Ahab”方法来推断图像内容,通过搜索相关知识构建知识地图,学习图像问题到知识的映射,但仅针对人工模板分析的问题。SHEN等[74]通过引入LSTM和数据驱动进一步学习了图像问题到知识的映射,但知识搜索过程是不确定的,引入了知识模糊。ZHOU等人[75]使用存储网络来缓解这种不确定性。联合推理采用模块化网络框架,将问题的结构布局组合成预定义的子任务。设计了一组神经模块,分别解决特定的子任务。文献[76]将问题和图像分析成树或图的结构,结合节点的局部特征生成答案。SHIN等[77]将问答对组合成基于规则的陈述,用于以后的知识推理。对于视觉语境结构,只有少数的研究作品构成了图像的视觉结构。传统的统计方法不能将每个图像的对象作为一个整体放在上下文中,从而推断出具体内容/任务的方式。TANG等人[78]随后提出了一种动态视觉内容和问题树上下文模型VCTREE。与前者相比,它们的树形结构得到了加强,因此它们不需要正确的标记数据(地面真相)。当人类学习一项任务时,我们会在执行时不断地学习。在机器学习中,经过训练的模型冻结在推理过程中。WORTSMAN等[79]提出了自适应视觉导航(adaptive visual navigation, SAVN)的部分元强化学习方法,在训练和推理过程中,即使没有明确的监督,也可以学习适应新环境。实验证明,交互损失比人工损失要好。而NOH等[80]利用结构化词汇数据库(如WordNet)和视觉描述等语言知识资源发现无监督任务,构建任务条件视觉分类器实现迁移学习,实现视觉问答,并解决了视觉问答任务中的词汇外回答问题。
针对复杂的人脸分布问题,WANG等[81]提出了一种基于连杆的基于图卷积网络的人脸聚类方法。通过构建描述给定节点上下文的案例透视子图(IPS),在视听人脸聚类方面具有较强的鲁棒性。视力受损的用户,为了帮助他们回答问题对相关文献阅读和推理在日常图片,辛格等人[82]提出感应偏压和特殊光学字符识别(OCR)组件应放入模型,给予他们不同的技能,他们需要酒瓶(例如,阅读,推理)。
现实世界的数据集通常具有长尾偏态分布[13,24],也就是说,少数类(也称为头类)占据了大部分数据,而大多数类(也称为尾类)的样本问题很少。ZHOU等[83]提出了统一的两分支网络(BBN)模型,该模型同时考虑了表示学习和分类器学习,从而大大提高了长尾识别。同时,结合BBN模型的训练,提出了一种新的调整双边学习的累积学习策略。
3.6记忆增强网络
认知研究表明,当人们回答问题时,他们会将新的刺激与记忆中存储的例子进行比较,并综合一些例子来生成答案[84]。提出了一种存储有用历史信息的记忆增强网络。
SUKHBAATAR等[85]以端到端学习的方式改进了存储网络。在培训阶段,没有引入外部知识,但实用性较好。为了存储更重要的信息,KUMAR等[86]将注意机制与记忆网络相结合,使记忆网络有选择地专注于特定的输入。存储增强网络采用动态存储方式。XIONG等[87]在注意门环单元中实现了特征的动态存储。先前的研究更关注的问题,但问题的尾巴是整个问题的关键,同时,内存增强网络用于选择性地关注问题的尾巴,和LSTM用来控制外部存储器的读和写。文献[88]提出了一种神经网络来增强外部记忆,从而产生稀缺数据。
记忆增强网络既可以包含内部记忆块,也可以包含外部记忆块,也可以同时包含内部记忆块和外部记忆块。它可以提高视觉问答的准确性,预测训练数据集中的稀缺答案,并对稀缺训练样本保持相对长期的记忆,这是非常重要的。以往的输入响应融合方法存在一定的局限性,不能正确表示图像、历史和问题的共同向量。他们专注于简短和安全的答案,而忽略了详细的信息。GUO等人[89]开发了一个协作网络,以一步学习图像、问题、答案和历史的表示。将传统的单阶段解决方案扩展为两阶段解决方案。在第一阶段,考生的答案会根据他们与图像和问题对的相关性进行大致评分。然后,在第二阶段,通过图像和问题的配合,对准确率高的答案进行重新排序。他们提出的效率网络将视觉对话v1.0数据集中的判别视觉对话模型提高到了一个新的水平。WANG等[90]提出了两种新的视觉语言导航方法RCM (enhanced Cross-Modal Matching,增强交叉模态匹配)和SIL (self - supervised Imitation Learning,自我监督模仿学习),将强化学习和自我监督模仿学习相结合,提高了标准测试场景和终身学习场景的有效性和效率。在视觉和导航领域,KE等人[91]提出了一种带回溯(快速)导航仪的前向感知搜索,这是一种用于运动解码的通用框架。
4 Data sets and evaluation indicators
4.1常用数据集
大规模和多样化的数据集是学习视觉问答任务的基础;表4总结了常用数据集。在前12个数据集中,除DAQUAR外,其他数据集都包含来自Microsoft COCO数据集[1]的图像。
COCO数据集包含328万张图片,91个常见对象类,超过200万标记实例,每张图片平均有5个字幕。
Visual Genome和Visual7W也包含来自Flickr100M的图像。
SYNTH-VQA是VQA数据集中的一种复合卡通图像。VQA数据集的其余部分称为COCO-VQA。
表4中的最后9个数据集在过去两年中被广泛使用。TDIUC (task driven image understanding challenge,任务驱动图像理解挑战)试图解决标注者的问题类型偏差,将问题划分为12种不同类型,从而实现详细的任务驱动评估。它有度量标准来评估跨问题类型的泛化。
CLEVR-Humans数据集简称为CLEVR-H[47]。
4.2 Evaluation indicators
在评价文本描述时应考虑句子语法和语义的正确性,在视觉问答时应考虑答案和问题之间的相关性。根据回答形式,有两种类型:二元/多项选择和开放式问题。前者从选项中选择答案,后者是字符串答案,分为单词、短语或句子。
测量公式如下:
开放式题将预测值与实际值进行比较,主要采用以下四种方法:
1)完美匹配方法。对不同程度的错误采取相同的惩罚是不合理的。通过限制答案长度(一般为1 - 3个词),可以避免句子匹配问题,减少答案歧义。
2) WUPS (Wu-Palmer similarity)[100]根据语义相似度度量预测值与真实值之间的相似度,并将权重从0分配到1。值越小,相似度越低。同时,设置阈值;低于给定阈值的值会按比例减少,但仍然存在权重较高的相似但意义不同的单词(如white和black),只适用于语义严格的概念,答案总是单词。
3)平均共识和最小共识。每个问题都有多个正确答案,并结合语义相似度测量。一般的共识是选择一个更受欢迎的答案。最小共识是同意至少一个真正的答案。问题与正确答案的比例在DAQUAR- consensus数据集中约为1:5,在VQA数据集中约为1:10。VQA的精度测量公式如下:
式中,n表示预测值的个数与10个实数相同。这种方法有助于解决模糊问题。
4) FM-IQA手工评价方法。它适用于有多个真实答案的情况。这种方法非常耗时、耗费资源,需要评委给出评判标准。FM-IQA提出了两个指标:1)判断一个人是否给出了正确的答案;2)三分制:完全错误0分,部分正确1分,完全正确2分。
5) VQA数据集的主要问题之一是问题类型的倾斜分布。在这种情况下,简单的精度是不起作用的,特别是对于不太常见的问题类型。MPT (Mean-Per- Type)作为一种新的性能指标,用来表示各问题类型的算术或谐波平均精度,以补偿问题类型分布的不平衡。
其中T为题型总数;At表示题目类型t的准确性。
6)以BLEU(双语评价候补研究)和METEOR(显式排序翻译评价度量)为VQA评价指标,在VizWiz数据集中进行测试。
其中BP意味着短暂性惩罚;Wn表示正权值和为1;Pn为整个语料库的精度评分。
其中j表示pen和Fmean的计算。式(3)、(4)、(5)见文献[100]。
5 Algorithm performance comparison
一个好的VQA算法应该能够专注于需要自然图像理解的数据集和测试推理的合成数据集,这是视觉问答(VQA)研究的两个方面,但只有少数VQA算法是这样的。为了解决这个问题,在表5中增加了VQA的循环聚合多模态嵌入网络(RAMEN)模型,跨[47]两个域进行泛化。
在表5的模型中,将bottom-up- attention和top-down (UpDn)结合bottom-up和top-down的注意机制实现VQA, bottom-up机制从更快的R-CNN中生成对象提案,top-down机制预测提案的注意分布。Top down attention是任务驱动的,该问题用于预测图像区域的注意权值。该模型在2017年VQA工作坊挑战赛中获得了第一名。
问题条件图(QCG)将图像表示为图,将自底向上区域提出的目标级特征视为图的节点和边,对具有问题条件的区域之间的相互作用进行编码。对于每个节点,QC图选择边连接最强的节点的邻域,形成问题特定的图结构。对结构进行patch算子处理,并对空间图进行卷积。双线性注意网络(BAN)通过考虑所有区域建议(视觉通道)和所有疑问词(文本通道)之间的交互,整合了视觉和文本模式。不同于双重关注机制,BAN处理所有渠道之间的互动。它可以看作是低秩双线性池化方法的扩展,该方法联合表示每个信道对。BAN支持通过连接的剩余连接进行多次关注。关系网络(RN)接受每对区域建议并将其嵌入,并将所有的n2对嵌入汇总生成一个向量,对对象之间的关系进行编码。这种成对特征聚合机制可以实现组件推理,其在智能数据集上的性能证明了这一点。然而,随着对象数量的增加,RN的计算复杂度增加了两倍。当对象的数量很大时,运行它会非常昂贵。最近,人们试图通过减少进入RN的对象的数量来减少成对比较的数量。
记忆、注意和组成(MAC)网络使用自动学习在计算单元中执行基于注意的推理。与模块化网络不同,MAC直接从数据中学习推理机制,而模块化网络需要预定义的模块来执行预定义的推理功能。每个MAC单元维护一个表示推理操作的控制状态和一个表示推理操作结果的内存状态。它具有类似于计算机的结构,具有读、写和控制单元。Mac在CLEVR数据集上进行了评估,报告了在具有挑战性的计数和数值比较任务方面的显著改进。多模态嵌入式网络(Ramen)的循环聚合模型。设计为简单的概念架构,既能适应复杂的自然场景,又能回答需要复杂综合推理链的问题。它可以将空间定位的视觉特征与问题特征的早期整合联系起来。
为了实现VQA模型的阅读问题,SINGH等[82]迈出了第一步,提出了一种Look, Read, Reason & Answer (LoRRA)的方法。并结合其他模型对两组数据进行对比实验,数据结果如表6所示。
WORTSMAN等[79]基于场景地图生成的视觉基因组和用于视觉问答的VQA2.0进行上下文推断并展示了实验结果。在文献[62]中,细胞被整合成一个完整的MuRel网络,逐渐改善了视觉和问题之间的互动,可以用来定义一个比仅仅关注地图更精细的可视化方案。同时,对实验结果进行了验证。表6结合了两篇文献的实验结果。
6 Directions for future
VQA现在被认为是人工智能的一个完整任务,将是迈向人工智能梦想的视觉对话的重要一步。解决这一复杂任务的先决条件包括对计算机视觉基本任务和自然语言处理的成熟研究知识。
1)在未来的VQA研究中,研究者应该致力于创建高效、丰富、公正、目标导向的数据集来检验VQA的重要特征。面向对象的VQA数据集(如VizWiz)可以出现得更频繁。这些数据集将在未来得到扩展和探索。
2)近年来关于语言模型迁移学习的实证研究表明,丰富的无监督预训练是许多语言理解系统的重要组成部分。由此可见,如何利用迁移学习获得更好的训练效果是一个值得考虑的研究方向。
3) VQA检测图像中的所有目标,需要更多的自然图像特征进行语义分割。通过特征融合,可以将来自多个来源的信息进行融合,获得丰富的内部特征,为研究开辟了广阔的新领域。
4)目前,开放式VQA的评价方法有待进一步研究。尽管Bleu是机器翻译(MT)中最流行的度量标准,但报告显示,它不能使用短句。在当前的VQA系统中,大多数答案都很简短。Ngram EVAluation (Neva)的使用值得考虑。
最后,一种能够提出任何问题并能进行显式推理且性能良好的开放式模型值得考虑。
7 Conclusions
视觉问答作为一项综合性的研究任务,涉及到许多研究问题。虽然在各方面都取得了许多进展,但仍存在以下问题:
1)==数据集和指标本身的缺陷。==数据分布不均匀,对稀缺性问题不敏感,语言偏见导致没有图像表现良好,有多个正确答案。数据的多样性和全面性有待提高。评价指标不统一,模型比较缺乏全面性。
2)==大多数可视化问答算法侧重于对每个子问题的改进,与模型的体系结构设计没有针对性。==因此,对于不同的图像,同样的问题可能会给出相同的答案。
3)==我们不能像人类一样“找到”这个问题的答案。==根据提供的“图像问题对”只能回答简单的问题,不能有效地回答复杂和超出范围的问题。
目前,大部分研究集中在离线状态,如何使机器与环境交互,完成视觉问答;在线实时完成视觉问答任务,以及如何进一步将视觉语言引入行动领域。这是一个新的热点问题。目前,也有相关研究者在这一领域进行探索。==同时具有自然图像理解能力和视觉推理能力的算法应该是VQA的未来发展趋势。==我们希望这台机器能够具备提问、回答和行动的能力。我们希望机器能够理解和处理视觉和语言信息,并完成相应的动作,这将在未来得到更广泛的应用。