0906 每日文献阅读打卡

2023-10-21 11:04:58

Read Data: 0906

Publication: CVPR 2021

Title: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

Aim:

解决视频-文本模型中，耗费大量空间和时间的问题。

Research Question:

1） Disconnection in tasks/domains：缺少了任务之间的联系，

2） Disconnection in multimodal features：缺少了特征之间的联系，导致视觉和语言信息并没有得到充分联系。

3）在提取视频特征的时候，由于相比于图片特征，视频会多一个时间维度，因此提取视频特征是非常耗时、并且计算量是非常大的。

Method:

本文提出了CLIPBERT，一个端到端的视频-语言学习框架（结构如上图）。相比于以前的框架，本文主要有下面几个方面的不同：

1）以前的方法是对原始视频以dense的方式提取特征，非常耗时、耗计算量。但是众所周知，视频中大多数的帧其实都是非常相似的，对这些相似的帧进行特征提取确实比较浪费（而且就算提取了信息，模型也不一定能够学习到，如果模型的学习能力不够，过多的冗余信息反而会起到反作用）。因此，本文对视频采用稀疏采样，只采用很少的几张图片。

2）如果对这些采样的clip拼接后同时计算，这就相当于又多了一个维度，就会增加计算的负担。因此本文是对每一个clip分别计算后，然后再将计算结果融合，来减少计算量和显存使用，从而来实现端到端的视频-语言任务。

另外，本文还有一个创新点就是用图片-语言数据集进行预训练，然后在视频-语言数据上微调，因此本文将图片-语言数据集上学习到的信息转换到了视频-语言这个下游任务中，并且效果非常好。

Results:

1、图片大小：从224→448的过程中，性能提高显著；但将448的图片继续放大，性能提升就不太显著了，甚至部分指标已经开始下降了。

2、帧信息的聚合：Conv3D和Conv(2+1)D的方法明显没有Mean Pooling好。

3、测试时的clip数量：clip≤4，随着clip的增加，性能显著提升；clip>4，随着clip的增加，性能提升不显著。此外，每个clip采样两帧明显比采样一帧的效果好。

4、训练时的clip数量：总体上来说，训练时clip数量从1→2时，效益最显著。比如在LogSumExp函数下，clip从1增加到2，R1高了2.8%;clip从2增加到16，R1高了1.9%。

5、稀疏随机采样 vs.密集均匀采样.：采用4帧的随机采样，就比16帧的均匀采样要好。（因为随机采样有了随机性，就有数据增强的效果）

6、相比于SOTA：在多个视频-语言任务上，本文提出方法的性能能够大大超过以往的SOTA模型，证明了本文方法的有效性。

Discussion:

Conclusion:

本文提出了一个端到端的视频-语言训练框架，只采样了视频中的部分信息，就能超过以前密集采样的方法，证明了“less is more”思想的有效性。另外，本文的方法在多个数据集、多个任务上都远远超过以前的SOTA方法。

Further:

Ref:

2021CVPR的最佳学生论文提名的工作：ClipBert。这篇论文解决了以前工作中对于视频-语言任务训练消耗大、性能不高、多模态特征提取时没有交互等问题。另外，这是一篇用Image-Text 预训练的模型去解决Video-Text的任务。以前的Video-Text任务大多是对视频进行Dense采样，而本文通过预训练的Image-Text模型，对视频进行稀疏采样，只需要很少的帧数，就能超过密集采样的效果，进而提出了本文标题中的 “Less is More”。

0906 每日文献阅读打卡

码农公寓

相关文章