0906 每日文献阅读 打卡

0906 每日文献阅读 打卡

 

 

Read Data: 0906

Publication: CVPR 2021

Title: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

Aim:

解决视频-文本模型中,耗费大量空间和时间的问题。

Research Question:

1) Disconnection in tasks/domains:缺少了任务之间的联系,

2) Disconnection in multimodal features:缺少了特征之间的联系,导致视觉和语言信息并没有得到充分联系。

3)在提取视频特征的时候,由于相比于图片特征,视频会多一个时间维度,因此提取视频特征是非常耗时、并且计算量是非常大的。

Method:

本文提出了CLIPBERT,一个端到端的视频-语言学习框架(结构如上图)。相比于以前的框架,本文主要有下面几个方面的不同:

1)以前的方法是对原始视频以dense的方式提取特征,非常耗时、耗计算量。但是众所周知,视频中大多数的帧其实都是非常相似的,对这些相似的帧进行特征提取确实比较浪费(而且就算提取了信息,模型也不一定能够学习到,如果模型的学习能力不够,过多的冗余信息反而会起到反作用)。因此,本文对视频采用稀疏采样,只采用很少的几张图片。

2)如果对这些采样的clip拼接后同时计算,这就相当于又多了一个维度,就会增加计算的负担。因此本文是对每一个clip分别计算后,然后再将计算结果融合,来减少计算量和显存使用,从而来实现端到端的视频-语言任务。

另外,本文还有一个创新点就是用图片-语言数据集进行预训练,然后在视频-语言数据上微调,因此本文将图片-语言数据集上学习到的信息转换到了视频-语言这个下游任务中,并且效果非常好。

Results:

1、图片大小:从224→448的过程中,性能提高显著;但将448的图片继续放大,性能提升就不太显著了,甚至部分指标已经开始下降了。

2、帧信息的聚合:Conv3D和Conv(2+1)D的方法明显没有Mean Pooling好。

3、测试时的clip数量:clip≤4,随着clip的增加,性能显著提升;clip>4,随着clip的增加,性能提升不显著。此外,每个clip采样两帧明显比采样一帧的效果好。

4、训练时的clip数量:总体上来说,训练时clip数量从1→2时,效益最显著。比如在LogSumExp函数下,clip从1增加到2,R1高了2.8%;clip从2增加到16,R1高了1.9%。

5、稀疏随机采样 vs.密集均匀采样.:采用4帧的随机采样,就比16帧的均匀采样要好。(因为随机采样有了随机性,就有数据增强的效果)

6、相比于SOTA:在多个视频-语言任务上,本文提出方法的性能能够大大超过以往的SOTA模型,证明了本文方法的有效性。

Discussion:

Conclusion:

本文提出了一个端到端的视频-语言训练框架,只采样了视频中的部分信息,就能超过以前密集采样的方法,证明了“less is more”思想的有效性。另外,本文的方法在多个数据集、多个任务上都远远超过以前的SOTA方法。

Further:

 

Ref:

2021CVPR的最佳学生论文提名的工作:ClipBert。这篇论文解决了以前工作中对于视频-语言任务训练消耗大、性能不高、多模态特征提取时没有交互等问题。另外,这是一篇用Image-Text 预训练的模型去解决Video-Text的任务。以前的Video-Text任务大多是对视频进行Dense采样,而本文通过预训练的Image-Text模型,对视频进行稀疏采样,只需要很少的帧数,就能超过密集采样的效果,进而提出了本文标题中的 “Less is More”。

0906 每日文献阅读 打卡

上一篇:【开发工具】Postman保姆级入门教程


下一篇:导航布局mix模式,重复点击顶部菜单,出现假死状态