仅作学习交流~包含重点翻译,要点归纳,部分扩展
目录
1 摘要
虽然卷积神经网络对各种计算机视觉任务产生了巨大的影响,但是卷积自身的局部性,限制了其依赖远距离像素建模的能力。Transformer 最早被提出应用于自然语言处理任务,现已经成为具有固有的全局自注意机制的替代架构来捕获远距离依赖关系。
- 提出TransDepth,一种得益于卷积神经网络和Transformer的架构。
- 提出一种新解码器AGD( Attention Gate Decoder ),避免网络由于采用Transformer而失去捕获局部细节的能力。
这是第一个将Transformer应用于连续标签的像素级预测问题(即单眼深度预测和表面法线估计)的论文。大量的实验表明,所提出的TransDepth在三个具有挑战性的数据集上取得了最先进的性能。
2 介绍
在过去的十年里,卷积神经网络已经成为一种特殊的方法来处理基本的、具有挑战性的,需要像素级的密集预测的计算机视觉任务,如语义分割、单眼深度估计、表面法线计算。自从开创以来,现有的深度预测模型一直由编码器所主导,如ResNet和VGG-Net等架构。编码器逐步降低空间分辨率,并通过学习更大的接受域来获得更多的概念。由于上下文建模对于像素级预测至关重要,因此深度特征表示学习可以说是最关键的模型组成部分。
然而,深度预测网络要提高其对全局上下文建模的能力仍然具有挑战性。传统上,编码器使用堆叠的卷积层和连续的下采样来生成足够大的深层接受域。这个问题通常在某种程度上被规避,而不是得到解决。因此,现有的策略带来了几个缺点:
- 非常深的网络训练会受到连续乘法的影响,进而去除了低层次的特征;
- 随着空间分辨率的逐渐降低,对密集预测任务至关重要的局部信息会被丢弃。
为了克服这些限制,最近提出了几种方法:
一种解决方案是通过使用大的卷积核尺寸、二次卷积和图像/特征金字塔来直接操纵卷积操作。另一个解决方案是将注意力模块集成到完全卷积的网络架构中。这样的模块旨在为特征图中所有像素的全局交互进行建模。当应用于单眼深度预测时,一般的方法是将注意力模块与多尺度融合方法相结合。最近,Huynh等人提出了一个深度注意力体积来纳入网络的非局部共平面约束。 Guizilini等人,依赖于一个固定的预先训练好的语义分割网络来指导全局表示学习。
虽然这些方法的性能有了显著的提高,但上述问题仍然存在。
在过去的十年里,卷积神经网络已经成为一种特殊的方法来处理基本的、具有挑战性的,需要像素级的密集预测的计算机视觉任务,如语义分割、单眼深度估计、表面法线计算。自从开创以来,现有的深度预测模型一直由编码器所主导,如ResNet和VGG-Net等架构。编码器逐步降低空间分辨率,并通过学习更大的接受域来获得更多的概念。由于上下文建模对于像素级预测至关重要,因此深度特征表示学习可以说是最关键的模型组成部分。
然而,深度预测网络要提高其对全局上下文建模的能力仍然具有挑战性。传统上,编码器使用堆叠的卷积层和连续的下采样来生成足够大的深层接受域。这个问题通常在某种程度上被规避,而不是得到解决。
因此,现有的策略带来了几个缺点:
- (1)非常深的网络训练会受到连续乘法的影响,进而去除了低层次的特征;
- (2)随着空间分辨率的逐渐降低,对密集预测任务至关重要的局部信息会被丢弃。
为了克服这些限制,最近提出了几种方法:
一种解决方案是通过使用大的卷积核尺寸、二次卷积和图像/特征金字塔来直接操纵卷积操作。另一个解决方案是将注意力模块集成到完全卷积的网络架构中。这样的模块旨在为特征图中所有像素的全局交互进行建模。当应用于单眼深度预测时,一般的方法是将注意力模块与多尺度融合方法相结合。最近,Huynh等人提出了一个深度注意力体积来纳入网络的非局部共平面约束。 Guizilini等人,依赖于一个固定的预先训练好的语义分割网络来指导全局表示学习。虽然这些方法的性能有了显著的提高,但上述问题仍然存在。
Transformer最初被用于NLP任务中的序列到序列预测的建模,以获得更大的接受域,最近引起了计算机视觉界的极大兴趣。现有工作提出了第一个纯基于自注意的Transformer(ViT),在图像识别任务中,其与卷积网络相比,在ImageNet上取得了很棒的结果。此外,SETR用纯Transformer取代了编码器,在城市景观数据集上获得了具有竞争力的结果。有趣的是,我们发现,基于传感器的纯Transformer分割网络由于在局部信息建模中缺乏空间归纳偏差而产生不满意的性能。同时,以往基于深度特征表示学习的方法大多无法解决这一问题。目前,只有少数研究者正在考虑将CNNs与Transformer结合,创造一个混合结构来结合它们的优势。
将像素级预测任务作为序列对序列的预测问题相比,我们首先提出将Transformer嵌入到ResNet主干中,以构建语义像素依赖性。此外,我们设计了一种新的、有效的统一Attention gate decoder-AGD来解决纯线性Transformer的嵌入特征在捕获局部表示时缺乏空间归纳偏差的缺点。我们的经验表明,我们的方法为模型设计提供了一个新的视角,并在几个具有挑战性的基准上达到了最先进的水平。
总之,我们的贡献有三方面:
• 我们是第一个提出 使用 Transformer 的 单眼深度估计和 表面法线预测任务 。 Transformer 可以 成功地提高传统卷积神经网络建模 长距离依赖 的能力 。 • 我们提出了一种新的、有效的 统一 AGD , 旨在以 并行 的方式利用和 融合多尺度信息 ,并在注意门解码器中的不同亲和度 图( different affinities maps )之间 传递信息,以更好 地多 尺度亲和 度 建模 。 • 我们在三个具有挑战性的数据集上对两个不同的像素级预测任务上进行了广泛的实验,证明了我们 的 TransDepth 在 KITTI 上、 NYU 深度上 优于以前的方法, 在 NYU 表面法线估计 上取得了最新的结果。3 相关工作
Transformers in Computer Vision
Transformer和自注意力模型已经彻底改变了机器翻译和自然语言处理。近年来,人们对Transformer结构在计算机视觉任务中的应用也进行了一些探索。例如,LRNet探索了局部自注意力,以避免全局自注意力带来的大量计算。轴向注意力将全局空间注意力分解为两个独立的轴向注意,从而大大减少了计算量。除了这些基于Transformer的模型,还有CNN-Transformer混合模型。例如,DETR和以下Transformer使用一个Transformer用于目标检测,其中Transformer被附加在检测头内。LSTR采用Transformer进行视差估计和车道形状预测。
最近,ViT是第一个表明纯基于Transformer的图像分类模型可以进行最先进的工作。这项工作为在语义分割模型中开发纯基于Transformer的编码器设计提供了直接的灵感。同时,基于ViT的SETR利用注意力进行图像分割。然而,在连续像素预测中并没有相关的工作。其主要原因是,为连续标签任务而设计的网络非常依赖于深度表示学习和具有解码器体系结构的全卷积网络(FCN)。在这种情况下,将图像作为补丁序列的Transformer (没有卷积和分辨率降低)不适用于具有连续标签的像素级预测。
我们提出了一种新的组合框架,将线性Transformer和ResNet放在一起,以解决上述局限性。这使得以往基于深度表示学习的有效方法,如扩张/无卷积和插入注意模块,仍然与我们的网络兼容。同时,从线性Transformer中去除位置嵌入模块,利用解码器中的多尺度融合来添加位置信息。这对将Transformer成功地应用于深度预测和表面法线估计任务至关重要。
Monocular Depth Estimation
最近的单眼深度估计的工作是基于CNNs,但是它存在有限的接受域问题或较少的全局表征学习,例如,Eigen等人,引入了一个双流深度网络,同时考虑了粗糙的全局预测和局部信息。Fu等人,提出了一种离散化策略,将单眼深度估计作为一个深度有序回归问题,他们还使用了一个多尺度的网络来捕获相关的多尺度信息。Lee等人,在网络解码器模块中引入了局部平面引导层,以学习更有效的深度估计特征。最近,PackNetSfM使用具有自监督的三维卷积来学习保存细节的表示。与此同时,Guizilini等人,利用预先训练好的语义分割网络,利用语义特征构建自监督深度网络。新的SOTA、FAL-Net,专注于使用立体视图合成的表示学习,惩罚所有图像区域的合成右视图。虽然它明确地增加了远距离建模的依赖关系,但也添加了更多的训练步骤。
我们的方法也侧重于表示学习,但只有一步的训练策略。Transformer机制非常适合解决有限的感受野问题,以指导深度特征的生成。与之前的工作不同,如将图像重塑为一个扁平的二维补丁序列,我们提出了一个结合ResNet和线性Transformer的混合模型。这与以前的Transformer机制非常不同,结合了两者的优点。这种复合结构还有其他的优点:许多深度表示学习方法可以很容易地在该网络中转移。
Surface Normal Estimation
表面法线预测是对单眼深度预测的密切相关的任务。从单个图像中提取三维几何关系一直是计算机视觉中一个长期存在的问题。在这种情况下,表面法线估计是一项经典的任务,需要同时全局和局部特征建模。典型的方法利用具有高容量的网络来实现高分辨率的准确预测。例如,FrameNet采用了DORN架构,这是对DeepLabv3的修改,删除了多个空间缩减(2×2最大池层),以生成高分辨率的表面法线映射。另一种不同的策略包括设计适当的损失条款。例如,UprightNet考虑了一个角度损失,并显示了其对任务的有效性。最近,Do等人,提出了一种新的截断角损失和倾斜的图像过程,保持空间金字塔池( atrous spatial pyramid pooling ,ASPP)模块来增加接受野。虽然它的性能是SOTA,但由于倾斜的图像过程,增加了两个额外的训练阶段。
Attention Models
一些工作已经考虑过将注意力模型集成到深度架构中,以提高在一些任务中的性能,如图像分类、图像生成、视频生成、语音识别和机器翻译。聚焦于像素级预测,Chen等人,是第一个描述一个注意力模型,结合FCN学习的多尺度特征进行语义分割。Zhang等人,设计了EncNet,一个配备了通道注意机制来建模全局环境的网络。Huang等人,描述了CCNet,这是一种深度架构,嵌入了交叉注意模块,使用稀疏连接图建模上下文依赖,以实现更高的计算效率。Fu等人,提出通过使用两个独立的注意模块来建模与空间和通道维度相关的语义依赖关系。
我们的工作与这些方法显著不同,因为我们引入了一种新的注意门机制(attention gate mechanism),在注意力解码器中增加了空间和通道级的注意。值得注意的是,我们还证明了我们的模型可以成功地应用于几个具有挑战性的密集连续像素级预测任务的情况下,它显著优于PGA-Net。
4 核心 TransDepth AGD
5 实验结果-数据集
数据集:NYU数据集
- 使用120K RGB深度对,分辨率为480×640像素(由微软Kinect设备从464个室内场景中获得)
- 遵循标准的训练/测试分割,使用249个场景用于训练,215个场景(654图像)用于测试。
- 还使用这个数据集来评估在表面法线任务中的效果,具体包括795张训练图像和654张测试图像。
数据集:KITTI数据集-为各种自动驾驶任务创建的大规模户外数据集。
- 使用它来评估提出的模型的深度估计性能。
- 遵循Eigen等人提出的训练/测试分割的标准,特地使用32个场景的22600帧进行训练,使用来自其余29个场景的697帧进行测试。
数据集:ScanNet数据集-一个用于三维场景理解的大型RGB-D数据集。
- 使用它来评估所提出的模型的表面法线的性能。
- ScanNet数据集分为189,916用于训练、20,942用于测试。
6.实验结果评估
7 总结
- 针对带连续标签的像素级的预测问题,提出一个新的基于Transformer的框架——TransDepth。据我们所知,我们首个提出使用Transformer来解决连续的像素级预测问题。TransDepth结合ResNet在空间相关性建模上的归纳偏差,以及Transformer在建模全局关系上的强大能力。
- AGD(attention gate decoder),一种新的、有效的解码器,具有独立的信道和空间的注意力。这可以合并更多的低级信息,并可以使网络学习更有效的深度表示。
- 大量的实验证明,所提出的TransDepth在KITTI、NYU等数据集上,在计算机视觉任务上取得了新的成就。
8 扩展