摘要:
本文研究图像和语义的匹配任务,其中学习适当的表示法以弥合图像内容和语言使用者之间的语义鸿沟是主要挑战。 与以前主要采用对称体系结构来代表两种模式的先前方法不同,我们引入了显著性引导注意力网络(SAN),其特征在于在视觉和语言之间建立不对称链接,从而有效地学习细粒度的跨模态 相关性。 拟议的SAN主要包括三个部分:显着性检测器,显着性加权视觉注意(SVA)模块和显着性文本注意(STA)模块。 具体地,显着性检测器提供视觉上的显着性信息来驱动两个注意模块。 利用显着性信息,SVA能够学习更多区分性视觉特征。 通过将SVA和模态内信息的视觉信息融合为一种多模态指导,STA为我们提供了与视觉线索同步的强大文本表示。 广泛的实验表明,SAN可以大大改善基准Flickr30K和MSCOCO数据集的最新结果。
介绍:
视觉和语言是人类感知现实世界的两个基本要素。近年来,深度学习的普及促进了两者之间的日益交织,这也引起了研究者们对探索两者内在关联的极大兴趣。
解决图像句子匹配的任务,该任务使用交叉模态数据促进各种应用,例如图像标题[40,1],视觉问答(VQA)[2]和视觉基础[30,4]。 具体而言,它是指在给定句子(图像)查询的情况下搜索最相关的图像(句子)。 当前,常见的解决方案[7,27,36,22,38]是寻求一种联合语义空间,在该语义空间上可以很好地表示来自两种模态的数据。通常将这样的关节空间视为一个优化问题,其中双向排名损失鼓励相应的表示尽可能接近。(?)虽然已经取得了令人激动的进展[7,22,27,26],但由于异质性差距的存在,在联合语义空间中精确地表示来自不同模式的数据仍然不是微不足道的。目前,之前的大部分研究[7,26]使用了全局卷积神经网络(CNN)特征向量作为视觉表示。虽然它可以有效地代表高级某些任务中的语义信息。它通常使图像中的所有视觉信息相互纠缠在一起。由于全局跨模态相似度是通过对多模态片段[15]的局部相似度进行聚类得到的,因此得到的结果并不理想。
考虑到图1中所示的图像及其描述,两个主要对象及其关系分别是:“格拉迪斯和底特律街道的路牌”,“一根木杆”和“附着”。 它表明,与整个图像相比,一些语义上有意义的部分可能会带来更多的视觉辨别力。 根据我们的观察,人类具有显着的能力,可以通过选择性地关注图像的一部分而不是处理整个场景来快速解释场景[33]。 这完全符合视觉显着性检测的目的[5,43,17,9],其目的是突出显示图像中的视觉显着区域或对象。 除了对象的详细结构之外,还需要对整个图像有一个了解[6],这与我们的要求是一致的。 因此,在本文中,我们提出利用显着性检测作为指导以有益于我们的视觉语义匹配模型。
【用于图像句子匹配的显着性引导注意网络(SAN)的概念图。 左侧的图像句子表示原始数据,右侧的彩色图像区域和单词表示它们通过SAN预测的注意力结果(最佳观看颜色)】
另一方面,在缩小视觉和文本模态之间的差距方面,将一种模态的表示基于另一种模态的更精细的细节起着至关重要的作用。 现有的大多数方法[28,38,46]都采用一个两分支对称的框架来表示图像和句子,并假设视觉和语言是独立的并且同样重要。 但是,正如“一幅图片价值一千个单词”的格言所暗示的那样,图像通常比文字更有效地传达信息。受此说法的启发,我们的论点是,从不同方式获得的知识可能会导致 同样地用于视觉语义匹配。 具体而言,由于各种描述者的引入存在偏见和主观性,因此多个句子在语义上可能存在歧义。 与此相反,图像不仅能够提供更有价值的细粒度信息,而且还能完全保证其客观性。 特别是当考虑到视觉显着性将进一步增强视觉歧视这一事实时,从视觉模态中提取知识并将其用于结构分析是合理的。 如图1所示,根据显着性检测器发现的视觉线索,我们朝着选择性地注意感官的各个单词迈出了一步。
在这项工作中,为了解决视觉-语义差异的问题,我们提出了一个sali- guided Attention network (SAN),它协同执行视觉和文本关注,以模拟两种模式之间的细粒度相互作用。具体地说,SAN模型由三个主要组件组成。轻量级显着性检测模型为显着性提供信息,这些信息可作为后续两个注意模块的指南。 视觉注意模块通过使用轻量级显着检测器选择性地关注各种本地视觉功能。 对于文本注意模块,考虑到模态内和模式间的相关性,有效地融合视觉显着性,全局视觉和文本信息以生成多模态指导,并采用软注意力机制来确定重要性。
- 我们提出了一个显著引导注意网络(SAN),如图2所示,可以同时定位图像中的显著区域和句子中的关键词。不同于现有的对称建筑,视觉和语言同等考虑,我们采用了非对称建筑,强调先验知识从视觉形式,因为从不同的形式获得的不平衡的知识。
- 开发了一个视觉注意模块,用于开发显著性信息,以突出视觉数据中语义上有意义的部分;提出了一个文本注意模块,以根据视觉信息为文本数据的语义相互依赖建立模型。
- 大量实验证明,我们的SAN在两个基准数据集(即MSCOCO [24]和Flickr30k [42])上的性能明显优于最新方法。 在MSCOCO 1K测试集上,它使句子检索R @ 1提高了17.5%。 在Flickr30K上,它使图像检索R提升了约23.7%。
输入表示:
图像表示:
用一组卷积特征{v1,...,vM}表示图像的视觉特征,其中vi∈Rd(i∈[1,M])是图像的第i个区域的视觉特征,其总误 数。 具体来说,给定视觉特征,全局视觉特征v(g)由下式给出:v(g)= P(g)1M∑Mi = 1vi,(1)其中,矩阵P(g)表示附加的全连接层。 它旨在将视觉特征嵌入与文本特征兼容的ak维联合空间中基于视觉语义嵌入的视觉图像匹配
文本表示:
为了建立视觉和语言之间的联系,还需要将感觉嵌入到相同维度的语义空间中。 在实践中,我们首先用一个热向量表示句子中的每个单词,然后在单词上嵌入一个实现词。 给定一个句子T,我们将它们拆分为Lwords {w1,...,wL},然后将每个单词通过嵌入矩阵e嵌入到单词嵌入空间中,表示为ej = Wewj(j∈[1,L])。 然后,我们在不同的时间步长将它们依次馈入双向GRU。
可以将大多数现有研究[7,36,22,38,27,26,46,21,8]的核心思想归结为学习两种形式的联合表示,大致归纳为两个主要类别: 基于全局对齐的方法[36,22,38,26,21,8]和基于局部对齐的方法[18,14,29,19,23]。 基于全局对齐的方法通常将整个图像和完整的句子映射到一个联合语义空间中,或者学习成对多模态数据之间的匹配分数。 作为开创性的工作,Kiroset等[21]使用CNN作为图像编码器,并使用Long Short-TermMemory(LSTM)作为句子编码器,从而构建了具有双向排序损失的联合视觉语义嵌入空间。 Wanget等人[38] 采用两层神经网络学习结合交叉模态和模态内约束的保结构嵌入。 另一方面,基于局部对齐的方法通常是通过对视觉对象和文本词的对齐来推断全局的象句相似度。 例如,Karpathyet等人[18]通过在所有区域词对之间进行局部相似性学习来研究局部级别的匹配关系。 纽埃[29] 运用树型LSTM不仅学习了句子中的名词短语与视觉对象之间的关系,而且还学习了句子与图像之间的层次关系。 鉴于物体检测的发展[32],这些研究有助于使图像句子匹配更易于理解。 据我们所知,尚没有尝试部署显着性检测模型以匹配图像和句子的工作。 我们的SAN利用它来指导两种模式的性能关注,使我们能够自动捕获潜在的细粒度视觉语义相关性。
基于深度注意力的图像句子匹配
注意机制[40]针对特定于任务的上下文关注数据的某些部分,例如,用于视觉注意的图像子区域[40,1,37]或用于文本注意的文本片段[25,41]。 最近,它已被用于执行图像句子匹配任务。 例如,Huanget等人[14] 提出了一种上下文调制的注意,以选择性地关注出现在两种模式中的成对实例。 Leeet等人[23] 设计了堆叠式交叉注意网络,以发现图像区域和文字之间的潜在对齐方式。 与上述方法明确地汇总局部相似度以计算全局相似度不同,Namet等人[28] 开发了Dual AttentionalNetwork,它对两种方式都进行自我关注,以隐式捕获视觉和语言之间的细微相互作用,这与我们的工作最相关。 相比之下,主要区别在于我们的SAN构成了不对称的体系结构,可以单向导入视觉显着性信息以执行文本注意力学习。 这样做使我们能够生成与相应视觉线索高度相关的文本表示。
设计了一个轻量级的显着性模型,称为残差精化显着性网络(RRSNet)
总结:
在本研究中,我们提出了一种用于图像与句子匹配的salie - guided attention -tion Network (SAN),其特征是使用两个注意力模块将两种模式与非对称方式关联起来。具体地说,我们引入了空间注意模块和文本注意模块来捕获图像和感知之间的精细的交叉模态相关性。烧蚀实验表明,这两种注意力模块不仅能够单独提高检索性能,而且相互补充、相互促进