VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

2021-07-22 08:54:20

 

Paperhttps://arxiv.org/pdf/2104.11178.pdf 

 

1. Background and Motivation

本文尝试用一个共享的 backbone 来学习三个模态的特征表达,并且是用 transformer 的框架,自监督的方式去学习。作者认为监督学习的自监督有如下两个问题:

  1). 无法充分利用海量无标签数据;

  2). CV 的众多任务中,获得有标签数据,是非常困难的。

因此,本文尝试从无监督学习的角度,提出了 VATT 模型。

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text 

 

如上图所示,更残暴的是,作者直接让三个模态共享同一个骨干网络。实验证明,与模态无关的骨干网络可以取得与不同模态的骨干网络,相似的结果。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==

 

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

上一篇:pc端大屏自适应


下一篇:jre安装完成后环境变量设置