2021:Passage Retrieval for Outside-KnowledgeVisual Question Answering通道检索的外部知识视觉问答

摘要

        在这项工作中,我们通过关注外部知识视觉问答的通道检索来解决多模态信息需求。这项任务需要访问外部知识,我们定义为一个大的非结构化通道集合。我们首先用BM25进行稀疏检索,并研究用对象名和图像标注来扩展问题。我们验证了视觉线索的重要性,在稀疏检索中,标注比对象名更有信息量。然后,我们构建了一个双编码的密集检索器,查询编码器是LXMERT,一个多模态预训练transformer。我们进一步表明,密集检索器的性能显著优于使用对象展开的稀疏检索,而且,密集检索与利用人类生成标注的稀疏检索的性能相匹配。

一、介绍

2021:Passage Retrieval for Outside-KnowledgeVisual Question Answering通道检索的外部知识视觉问答

         经典的VQA基准和模型主要关注于答案能在图像中找到的问题,我们的任务有助于定义信息需求,而不是简单地作为回答问题的知识来源。OK-VQA类似于开放域VQA,需要访问外部和开放的知识资源。开放域QA通常遵循检索和读取范式,系统首先从集合中检索出一些文档(段落),然后从中提取答案。我们重点关注OK-VQA的检索阶段。

        与以前方法从知识库检索知识[11、21、28、29、38-40、45、48]或使用*搜索API[27]这些方法不同,我们系统地用通用信息检索方法研究OK-VQA的通道检索,使我们的方法可以应用于更广泛的非结构化知识资源。我们寻求以下问题的答案:1)OK-VQA中的视觉信号有多大帮助?2)将视觉信号纳入基于术语匹配的稀疏检索模型中的最有效的方法是什么?3)密集检索在多模态信息需求下的工作效果如何?

        为回答以上研究问题,我们研究具有大量*通道收集的OK-VQA查询的通道检索。首先使用BM25进行稀疏检索,我们研究用不同人工注释的对象名和图像标注扩展原始问题的性能,还进一步研究了使用不同融合函数对不同扩展类型的影响,我们验证了视觉线索起着重要的作用。我们进一步揭示了当使用对象扩展时最好利用最显著的匹配信号(CombMAX),当我们用人类生成的标注时,最好考虑使用CombSUM或Reciprocal Rank Fusion的所有标注的匹配信号。

        然后我们采用一个双编码器结构构建一个可学习的密集检索器,我们是使用一个预训练的Transformer模型LXMERT作为我们的多模态编码器来编码文本问题和图像。观察到我们的密集检索器比利用对象扩充的稀疏检索实现了显著的性能改善,论证了有一个多模态查询编码器的密集检索的有效性。此外,我们的密集检索器能够将稀疏检索的性能与标注扩展相匹配,尽管后者利用了人类生成的通常信息丰富的标注。我们的研究是未来基于检索的OK-VQA研究的基本步骤之一。

二、针对OK-VQA的通道检索

2.1 任务定义

        给定查询需要的信息Qi,包含一个文本问题和一个图像,任务是从大段落集合中检索可以用于Qi的k个段落。根据开放域问答的工作,如果一个段落包含地面真实答案,则被认为是相关的。

2.2 稀疏检索

        稀疏检索的主干是BM25,可以用于文本查询,因此,我们用视觉线索的不同文本描述来构建BM25查询。视觉信号是以两种形式表示:第一种是通过对象检测器生成的一组对象名集合{

上一篇:Java 8 Date-Time API


下一篇:[uoj84]水题走四方