论文地址:https://arxiv.org/abs/2011.14503
代码:未开源
End-to-End Video Instance Segmentation with Transformers论文翻译
摘要
视频实例分割(VIS)是需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。 最近的经典方法通常发展复杂的方法来解决这项任务。在此,我们提出了一个建立在Transformers基础上的新的视频实例分割框架,称为VsTR,它将VIS任务视为一个直接的端到端并行的序列解码/预测问题。 给定一个由多个图像帧组成的视频剪辑作为输入,VisTR直接按顺序输出视频中每个实例的掩码序列。 核心是一个新的,有效的实例序列匹配和分割策略,它监督和分割实例在序列级别作为一个整体。 VisTR从相似性学习的角度对实例进行分割和跟踪,大大简化了整个流程,与现有方法有很大的不同。
毫无疑问,VisTR在现有的VIS模型中速度最高,在YouTube-VIS数据集上使用单一模型的方法中效果最好。这是第一次,我们展示了一个更简单,更快的视频实例分割框架建立在变压器,实现了竞争的准确性。我们希望VisTR能推动未来更多的视频理解任务的研究。
引言
实例分割是计算机视觉的基本任务之一。 虽然在图像分割方面取得了重大进展,但是在视频中分割实例的花费努力要少得多。 在此,我们提出了一个新的视频实例分割框架,建立在Transformers的基础上。视频实例分割(VIS)是最近在[30]中提出的,它要求人们同时对视频序列中感兴趣的对象实例进行分类、分割和跟踪。更重要的挑战在于我们需要对每个单独的帧执行实例分割,同时建立跨连续帧之间的实例的数据关联,a.k.a。,跟踪。
最先进的方法通常是开发复杂的流程来解决这项任务。自上而下的方法[2,30]遵循逐检测跟踪的范式,严重依赖于图像级别的实例分割模型[6,9]复杂的人工设计规则来关联实例。 自下而上的方法[1]通过聚类学习的像素嵌入来分离对象实例。 因为严重依赖在密集的预测质量上,这些方法通常需要多个步骤来迭代生成掩码,这使得它们变慢。 因此,一个简单的、端到端可训练的VIS框架是非常理想的。
在这里,我们将更深入地查看视频实例分割任务。视频帧包含比单一图像更丰富的信息,如运动模式和实例的时间一致性,提供有用的线索,例如分割,和分类。同时,学习更好的学习实例特性可以帮助跟踪实例。在本质上来说,实例分割和实例跟踪都涉及相似性学习:实例分割是学习像素级的相似性,实例跟踪是学习相似性实例之间的关系。 因此,这是自然的在一个框架中解决这两个子任务并相互受益。在这里,我们的目标是开发这样一个端到端的VIS框架。该框架需要很简单,并能实现较强的性能。为此,我们建议使用Transformers[23]。重要的是,我们第一次证明,由于Transformers提供了构建块,它能够为VIS设计一个简单和干净的框架,并可能为计算机视觉中更广泛的视频处理任务设计。因此,我们有可能统一不同的大多数视觉任务将图像、视频等模式(如点云处理)放到Transformers框架中。Transformers在NLP的[23]中被广泛用于序列中的序列学习,并开始显示出承诺在视觉学中,[4,8]。Transformers能够建模远程依赖关系,因此可以很自然地应用于视频来学习跨多个帧的时间信息。特别是,Transformers的核心机制——自注意力,旨在学习和更新的特征,基于它们之间的所有配对相似性。由于Transformers的上述特点,使它们变得非常好负责执行该VIS任务的候选人。
本文提出了一种视频实例分割VisTR,它将VIS任务视为一个并行序列解码/预测问题。给定一个由多图像帧组成的视频剪辑作为输入,VisTR直接输出视频中的每个实例的掩码顺序。本文将每个实例的输出序列称为实例序列。VisTR管道的整体情况如图1所示:在第一阶段,给定一系列的视频帧,一个标准的CNN模块提取单个图像帧的特征,然后提取多个图像特征按帧顺序连接,以形成剪辑级特征序列。在第二阶段,Transformers以剪辑级特征序列作为输入,并按顺序输出一系列的对象预测。 在图1中, 相同的形状表示对同一图像的预测,相同的颜色表示不同图像的相同实例。 预测顺序遵循输入图像的顺序,每个图像的预测遵循相同的实例顺序。 因此,实例跟踪是在相同的实例分割框架中无缝和自然地实现的。
要实现这一目标,主要面临两个挑战:1)如何保持输出的顺序;2)如何从Transformer网络中获取每个实例的掩码序列。 相应地,本文介绍了实例序列匹配策略和实例序列分割模块。实例序列匹配在输出实例序列和地面真值实例序列之间进行二部图匹配,并对整个序列进行监控。从而可以直接维持顺序。实例序列分割通过自我注意在多个帧上累积每个实例的掩码特征,并通过3D卷积对每个实例的掩码序列进行分割。
我们进行了多个实验来研究VisTR的核心因素。 w.r.t研究了时间信息对视频处理模型的影响。 两个因素:数量和顺序。 我们展示位置信息对VIS密集预测任务的重要性,并分析了实例查询嵌入在不同层次上的影响。 最后,对Transformers编码器进行了实验研究特征和实例序列分割模块显示了我们的模型设计的优越性。
我们的主要贡献总结如下:
- 我们提出了一种建立在Transformers基础上的新的视频实例分割框架,称为VisTR,它将VIS任务视为一个直接的端到端并行序列解码/预测问题。框架架与现有的方法有很大的不同,大大简化了整个管道。
- VisTR从相似性学习的新角度解决了VIS问题。实例分割是为了学习像素级的相似性,而实例跟踪是学习实例之间的相似性。因此,在同一实例分割的框架下,可以无缝而自然地实现了实例跟踪。
- 成功的关键是一个新的策略,即序列匹配和分割,这是为我们的框架量身定做的。这个策略使我们能够在整个序列层面上对实例进行监督和细分。
- 在Youtube-VIS数据集上,VisTR获得了很强的结果,在掩码mAP中以27.7FPS(57.7FPS,如果不包括数据加载)的速度实现了35.3%,这是方法中最好和最快的方法单一个模型。
图1:VisTR系统的总体设计。该模型采用一系列图像作为输入,并输出一系列实例预测。在这里,相同的形状表示在一个图像中的预测,以及相同的颜色表示同一对象实例的预测。 请注意,总体预测遵循输入帧顺序,不同图像的对象预测顺序保持不变。
图2-VisTR的总体架构。 它包含四个主要组件:1)CNN骨干提取多幅图像的特征表示;2)建模的编解码转换器像素级特征的关系,并对实例级特征进行解码;3)监督模型的实例序列匹配模块;4)实例序列分割模块输出最终的掩码序列。
结论
本文提出了一种基于Transformers的视频实例分割框架,该框架将VIS任务视为直接端到端并行序列解码/预测问题。 VisTR从相似性学习的新视角解决了VIS问题。 因此,实例跟踪是在相同的实例分割框架中无缝和自然地实现的。 这个框架很有意义-与现有的方法不同,而且比现有的方法更简单,大大简化了整个管道。 进行了广泛的实验,研究和验证了VisTR的核心因素。 不可能在Youtube-VIS数据集上,使用单个模型,VisTR在方法中获得了最佳的结果和最高的速度。 据我们所知,我们的工作是第一个应用Trans的工作前到视频实例分割。 我们希望类似的方法可以应用于未来更多的视频理解任务。