CoAtNet:将卷积和注意力结合到所有数据大小上

CoAtNet:将卷积和注意力结合到所有数据大小上

CoAtNet:将卷积和注意力结合到所有数据大小上

注:Transformers 翻译为变形金刚,这个名字太酷了!

摘要

变形金刚在计算机视觉领域吸引了越来越多的兴趣,但它们仍然落后于最先进的卷积网络。在这项工作中,我们表明,虽然变形金刚往往具有更大的模型容量,但由于缺乏正确的归纳偏置,其泛化能力可能比卷积网络差。为了有效地结合两种体系结构的优势,我们提出了CoAtNets,这是一个基于两个关键观点构建的混合模型家族:

(1)深度卷积和自我注意可以通过简单的相对注意自然地统一起来;

(2) 以一种有原则的方式垂直堆叠卷积层和注意层在提高泛化、容量和效率方面出人意料地有效。

实验表明,我们的CoAtNet在不同数据集的不同资源约束下实现了最先进的性能:在没有额外数据的情况下,CoAtNet达到86.0%的ImageNet top-1精度;当使用ImageNet-21K中的13M图像进行预训练时,我们的CoAtNet达到了88.56%的top-1精度,与JFT-300M中的300M图像匹配ViT巨大预训练,同时使用的数据减少了23倍;值得注意的是,当我们使用JFT-3B进一步放大CoAtNet时,它在ImageNet上达到了90.88%的top-1精度,建立了一个新的最先进的结果。

1 介绍

自从AlexNet[1]取得突破以来,卷积神经网络(ConvNet)一直是计算机视觉的主要模型结构。与此同时,随着自然语言处理领域中变形金刚[6]等自我注意模型的成功,许多以前的工作试图将注意力的力量引入计算机视觉。最近,Vision Transformer(ViT)表明,几乎只有香草变形金刚层,仅在ImageNet-1K[14]上就可以获得合理的性能。更重要的是,当对大规模弱标记JFT-300M数据集进行预训练时,ViT获得了与最先进的(SOTA)CONVnet相当的结果,表明变形金刚模型在规模上可能比CONVnet具有更高的容量。[1]

虽然ViT通过大量JFT 300M训练图像显示了令人印象深刻的效果,但在低数据区,其性能仍落后于CONVNET。例如,在没有额外的JFT-300M预训练的情况下,ViT的ImageNet精度仍然显著低于具有可比模型尺寸的CONVNET[5](见表13)。随后的工作使用特殊的正则化和更强的数据增强来改进普通ViT[16,17,18],但在相同的数据量和计算量下,这些ViT变体在ImageNet分类上都无法超过SOTA卷积模型[19,20]。这表明,普通变形金刚层可能缺少CONVNET所具有的某些理想电感偏置,因此需要大量数据和计算资源进行补偿。毫不奇怪,最近的许多工作一直试图将convnet的感应偏压纳入变形金刚模型,为注意层施加局部感受野[21,22],或用隐式或显式卷积运算增加注意层和FFN层[23,24,25]。然而,这些方法要么是临时的,要么集中于注入特定的属性,缺乏对卷积和注意力在组合时各自作用的系统理解。

在这项工作中,我们从机器学习的两个基本方面——泛化和模型容量——系统地研究了卷积和注意的混合问题。我们的研究表明,由于卷积层具有较强的归纳偏差先验知识,卷积层具有更好的泛化能力和更快的收敛速度,而注意层具有更高的模型容量,可以从更大的数据集中获益。卷积层和注意层相结合可以获得更好的泛化能力和容量;然而,这里的一个关键挑战是如何有效地将它们结合起来,以便在准确性和效率之间实现更好的权衡。在本文中,我们研究了两个关键的观点:首先,我们观察到常用的深度卷积可以有效地合并到具有简单相对注意的注意层中;第二,简单地以适当的方式叠加卷积层和注意层,对于实现更好的泛化和容量可能会非常有效。基于这些见解,我们提出了一种简单而有效的网络体系结构CoAtNet,它兼有ConvNet和Transformer的优点。

我们的CoAtNet在不同数据大小的可比资源限制下实现SOTA性能。具体来说,在低数据条件下,由于有利的归纳偏差,CoAtNet继承了ConvNet的强大泛化特性。此外,由于数据丰富,CoAtNet不仅具有变形金刚模型优越的可扩展性,而且实现了更快的收敛,从而提高了效率。当仅使用ImageNet-1K进行训练时,CoAtNet达到86.0%的top-1精度,在类似计算资源和训练条件下与现有技术NFNet[20]匹配。此外,当在ImageNet-21K上预训练约10万张图像时,CoAtNet在ImageNet-1K上微调时达到88.56%的top-1精度,与在JFT-300M上预训练的ViT(一个23×更大的数据集)匹配。最后,当使用JFT-3B进行预训练时,与ViT相比,CoAtNet表现出更好的效率,并将ImageNet-1K top-1精度提高到90.88%,同时使用ViT-G/14设置的现有技术的1.5倍计算量[26]。

2 模型

在本节中,我们将重点讨论如何“最佳”组合卷积和变形金刚的问题。大致来说,我们将问题分解为两部分:

  1. 如何在一个基本的计算块中结合卷积和自我注意?

  2. 如何将不同类型的计算块垂直堆叠在一起,形成一个完整的网络?

随着我们逐渐揭示我们的设计选择,分解的原理将变得更加清晰。

2.1融合卷积和自我注意

对于卷积,我们主要关注MBConv块[27],它采用深度卷积[28]来捕获空间交互。选择此选项的一个关键原因是,Transformer和MBConv中的FFN模块均采用“反向瓶颈”设计,该设计首先将输入的通道大小扩展4倍,然后将4倍宽的隐藏状态投影回原始通道大小,以实现剩余连接。

除了倒转瓶颈的相似性外,我们还注意到深度卷积和自我注意都可以表示为预定义感受野中每维值的加权和。具体地说,卷积依赖于一个固定的内核从一个局部感受野收集信息
y i = ∑ j ∈ C ( i ) w i − j ⊙ x j  (depthwise convolution)  y_{i}=\sum_{j \in C(i)} w_{i-j} \odot x_{j} \quad \text { (depthwise convolution) } yi​=j∈C(i)∑​wi−j​⊙xj​ (depthwise convolution) 
其中 x i , y i ∈ R D x_{i}, y_{i} \in \mathbb{R}^{D} xi​,yi​∈RD分别是位置 i 的输入和输出, L ( i ) \mathcal{L}(i) L(i) 表示 i 的局部邻域,例如图像处理中以 i 为中心的 3x3 网格。

相比之下,自我注意允许感受野成为整个空间位置,并基于对之间的重新标准化成对相似性计算权重(xi,xj):
y i = ∑ j ∈ G exp ⁡ ( x i ⊤ x j ) ∑ k ∈ G exp ⁡ ( x i ⊤ x k ) ⏟ A i j x j y_{i}=\sum_{j \in \mathcal{G}} \underbrace{\frac{\exp \left(x_{i}^{\top} x_{j}\right)}{\sum_{k \in \mathcal{G}} \exp \left(x_{i}^{\top} x_{k}\right)}}_{A_{i j}} x_{j} yi​=j∈G∑​Aij​ ∑k∈G​exp(xi⊤​xk​)exp(xi⊤​xj​)​​​xj​

其中G表示全局空间。在讨论如何最好地结合它们之前,比较它们的相对优势和劣势是值得的,这有助于找出我们希望保留的优良特性。

•首先,depthwise 卷积核 w i − j w_{i-j} wi−j​是一个与输入无关的静态值参数,而注意力权重 A i , j A_{i,j} Ai,j​动态地取决于输入的表示。 因此,自注意力更容易捕捉不同空间位置之间复杂的关系交互,这是我们在处理高级概念时最想要的特性。 然而,灵活性伴随着更容易过度拟合的风险,尤其是在数据有限的情况下。

•其次,注意给定任意位置对(i; j),对应的卷积权重 w i , j w_{i,j} wi,j​只关心它们之间的相对位移,即 i − j i-j i−j,而不关心i或j的具体值。 这个属性通常被称为翻译等效性,已经发现它可以提高有限大小数据集下的泛化能力 [29]。 由于使用绝对位置嵌入,标准 Transformer (ViT) 缺少此属性。 这部分解释了为什么当数据集不是很大时,ConvNets 通常比 Transformers 更好。

•最后,感受野的大小是自我注意和卷积之间最关键的区别之一。一般来说,更大的感受野提供更多的上下文信息,这可能导致更高的模型容量。因此,全球感受野一直是在视觉中运用自我注意的关键动机。然而,大的感受野需要更多的计算。在全局注意的情况下,复杂性是二次w.r.t.空间大小,这是应用自我注意模型的基本权衡。

CoAtNet:将卷积和注意力结合到所有数据大小上

鉴于上述比较,一个理想的模型应该能够将三个理想特性结合在一起

表1。与方程n中的深度卷积形式类似。(1) 和Eqn中的自我关注。(2) ,可以实现这一点的简单想法是,在Softmax归一化之后或之前,简单地将全局静态卷积核与自适应注意矩阵相加,即。
y i pos  = ∑ j ∈ G ( exp ⁡ ( x i ⊤ x j ) ∑ k ∈ G exp ⁡ ( x i ⊤ x k ) + w i − j ) x j  or  y i pre  = ∑ j ∈ G exp ⁡ ( x i ⊤ x j + w i − j ) ∑ k ∈ G exp ⁡ ( x i ⊤ x k + w i − k ) x j . y_{i}^{\text {pos }}=\sum_{j \in \mathcal{G}}\left(\frac{\exp \left(x_{i}^{\top} x_{j}\right)}{\sum_{k \in \mathcal{G}} \exp \left(x_{i}^{\top} x_{k}\right)}+w_{i-j}\right) x_{j} \text { or } y_{i}^{\text {pre }}=\sum_{j \in \mathcal{G}} \frac{\exp \left(x_{i}^{\top} x_{j}+w_{i-j}\right)}{\sum_{k \in \mathcal{G}} \exp \left(x_{i}^{\top} x_{k}+w_{i-k}\right)} x_{j} . yipos ​=j∈G∑​(∑k∈G​exp(xi⊤​xk​)exp(xi⊤​xj​)​+wi−j​)xj​ or yipre ​=j∈G∑​∑k∈G​exp(xi⊤​xk​+wi−k​)exp(xi⊤​xj​+wi−j​)​xj​.
有趣的是,虽然这个想法似乎过于简化,但预训练版本 y p r e y^{pre} ypre 对应于相对自我注意的特定变体 [30, 31]。 在这种情况下,注意力权重 A i , j A_{i,j} Ai,j​由平移等方差的 w i , j w_{i,j} wi,j​和输入自适应 x i ⊤ x j x_{i}^{\top} x_{j} xi⊤​xj​共同决定,根据它们的相对大小可以同时享受这两种效果。 重要的是,请注意,为了在不增加参数数量的情况下启用全局卷积核,我们将 w i , j w_{i,j} wi,j​ 的符号重新加载为标量(即 w ∈ R O ( ∣ G ∣ ) w \in \mathbb{R}^{O(|\mathcal{G}|)} w∈RO(∣G∣))而不是方程中的向量。 (1). w 的标量公式的另一个优点是,为所有 (i; j) 检索 w i − j w_{i-j} wi−j​显然是通过计算成对点积注意力来包含的,因此导致最小的额外成本(参见附录 A.1)。 考虑到好处,我们将使用 Transformer 块和 Eqn 中的预归一化相对注意变量。 (3) 作为所提出的 CoAtNet 模型的关键组件。

2.2垂直布局设计

在找出一种巧妙的组合卷积和注意力的方法之后,我们接下来考虑如何利用它来堆叠整个网络。

正如我们上面所讨论的,全球环境具有二次复杂性w.r.t.空间大小。因此,如果我们直接应用等式n中的相对注意。(3) 对于原始图像输入,由于任何普通尺寸的图像中都有大量像素,因此计算速度会非常慢。因此,要构建一个实际可行的网络,我们主要有三种选择:

(A) 在特征图达到可管理水平后,执行一些下采样以减小空间大小并使用全局相对注意。

(B) 加强局部注意,这将注意中的全局感受野G限制为局部野L,就像卷积[22,21]。

(C) 将二次型Softmax注意力替换为仅具有线性复杂度w.r.t.空间大小的线性注意力变量[12,32,33]。

我们简单地尝试了选项(C),但没有得到一个合理的好结果。对于选项(B),我们发现实现局部注意涉及许多需要大量内存访问的非平凡形状格式化操作。在我们选择的加速器(TPU)上,这样的操作非常缓慢[34],这不仅违背了加速全球注意力的最初目的,而且损害了模型的容量。因此,由于最近的一些研究工作已经研究了这个变量[22,21],我们将重点关注选项(A),并在我们的实证研究(第4节)中将我们的结果与他们的结果进行比较。

对于选项(A),可通过(1)具有积极步幅(例如,步幅16x16)的卷积杆(如ViT)或(2)具有渐进池的多级网络(如CONVNET)实现下采样。有了这些选择,我们得到了5个变体的搜索空间,并在对照实验中对它们进行了比较。

•当使用ViT阀杆时,我们会相对注意地直接堆叠变形金刚块,我们称之为ViT。L雷尔

•当使用多级布局时,我们模拟CONVNET构建一个由5个阶段(S0、S1、S2、S3和S4)组成的网络,空间分辨率从S0逐渐降低到S4。在每个阶段开始时,我们总是将空间大小减少2倍,并增加通道数量(有关详细的下采样实施,请参见附录A.1)。

第一阶段S0是一个简单的2层卷积干,S1总是使用带有挤压激发(SE)的MBConv块,因为空间尺寸太大,无法引起全局注意。从S2到S4,我们考虑了MbCONV或变形金刚块,约束条件是在变形金刚级之前必须出现卷积阶段。该约束基于一个先验知识,即卷积在处理早期更常见的局部模式时更好。这导致4种变型具有越来越多的变形金刚级,C-C-C-C、C-C-C-T、C-C-T-T和C-T-T-T,其中C和T分别表示卷积和变形金刚。

为了系统地研究设计选择,我们考虑了两个基本方面:泛化能力和模型容量:对于泛化,我们感兴趣的是训练损失和评估精度之间的差距。如果两个模型具有相同的训练损失,那么评估精度较高的模型具有更好的泛化能力,因为它可以更好地泛化到看不见的评估数据集。当训练数据大小有限时,泛化能力对数据效率尤为重要。对于模型容量,我们衡量适应大型训练数据集的能力。当训练数据丰富且不存在过拟合问题时,经过合理的训练步骤,容量较大的模型将获得更好的最终性能。请注意,由于简单地增加模型尺寸可以提高模型容量,为了进行有意义的比较,我们确保5个变体的模型尺寸具有可比性。

为了比较泛化和模型容量,我们在ImageNet-1K(1.3M)和JFT(>300M)数据集上分别训练了300和3个时期的混合模型的不同变体,这两个时期都没有任何正则化或扩充。图1总结了两个数据集的培训损失和评估精度。

•从ImageNet-1K的结果来看,一个关键的观察结果是,就泛化能力(即,训练和评估指标之间的差距)而言,我们有
C − C − C − C ≈ C − C − C − T ≥ C − C − T − T > C − T − T − T ≫ V I T R E L . \mathrm{C}-\mathrm{C}-\mathrm{C}-\mathrm{C} \approx \mathrm{C}-\mathrm{C}-\mathrm{C}-\mathrm{T} \geq \mathrm{C}-\mathrm{C}-\mathrm{T}-\mathrm{T}>\mathrm{C}-\mathrm{T}-\mathrm{T}-\mathrm{T} \gg \mathrm{VIT}_{\mathrm{REL}} . C−C−C−C≈C−C−C−T≥C−C−T−T>C−T−T−T≫VITREL​.
CoAtNet:将卷积和注意力结合到所有数据大小上

图1:不同数据量下模型泛化和容量的比较。为了公平比较,所有模型都具有相似的参数大小和计算成本。

特别是,VITis比变种严重得多,我们推测这与其积极的下采样干缺乏适当的低水平信息处理有关。在多阶段变量中,总体趋势是模型的卷积阶段越多,泛化差距越小。雷尔

•对于模型容量,根据JFT比较,培训结束时的培训和评估指标表明以下排名:
C − C − T − T ≈ C − T − T − T > V I T R E L > C − C − C − T > C − C − C − C . \mathrm{C}-\mathrm{C}-\mathrm{T}-\mathrm{T} \approx \mathrm{C}-\mathrm{T}-\mathrm{T}-\mathrm{T}>\mathrm{V}_{\mathrm{I}} \mathrm{T}_{\mathrm{REL}}>\mathrm{C}-\mathrm{C}-\mathrm{C}-\mathrm{T}>\mathrm{C}-\mathrm{C}-\mathrm{C}-\mathrm{C} . C−C−T−T≈C−T−T−T>VI​TREL​>C−C−C−T>C−C−C−C.
重要的是,这表明简单地拥有更多的转换器块并不一定意味着更高的视觉处理能力。一方面,虽然最初情况更糟,但VitConv最终赶上了具有更多MBConv级的两种变体,这表明变形金刚块的容量优势。另一方面,C-C-T-T和C-T-T-T明显优于ViT,这表明具有积极步幅的ViT茎可能丢失了太多信息,从而限制了模型容量。更有趣的是,C-C-T-T≈ C-T-T-T表明,对于处理低级信息,静态局部操作(如卷积)可以与自适应全局注意机制一样有效,同时大大节省计算和内存使用。雷尔雷尔

最后,为了在C-C-T-T和C-T-T-T之间做出决定,我们进行了另一个可转移性测试——我们在ImageNet-1K上对上述两个JFT预训练模型进行了30个时代的微调,并比较了它们的转移性能。从表2可以看出,尽管训练前表现相同,C-C-T-T-T的传递精度明显优于C-T-T-T。

CoAtNet:将卷积和注意力结合到所有数据大小上

考虑到通用性、模型容量、可转移性和效率,我们采用了CoAtNet的C-C-T-T多级布局。更多模型详情见附录A.1。

3 相关工作

卷积网络构建块。卷积网络(ConvNets)已经成为许多计算机视觉任务的主要神经结构。传统上,规则卷积(如ResNet块[3])在大规模网络中很流行;相比之下,深度卷积[28]由于其较低的计算成本和较小的参数大小而在移动平台中流行[27]。最近的工作表明,基于深度卷积的改进反向剩余瓶颈(MBConv[27,35])可以实现高精度和更高的效率[5,19]。如第2节所述,由于MBConv和变形金刚块之间的强连接,本文主要使用MBConv作为卷积构建块。

自我关注和变形金刚。变形金刚具有自我注意的关键成分,已被广泛用于神经语言处理和语音理解。作为一项早期工作,独立的自我注意网络[34]表明,单独的自我注意可以很好地用于不同的视觉任务,尽管有一些实际困难。最近,ViT[13]将一个普通的转换器应用于ImageNet分类,并在大规模JFT数据集上进行预训练后获得了令人印象深刻的结果。然而,当训练数据有限时,ViT仍在很大程度上落后于最先进的CONVNET。此后,许多最近的工作都集中于改进vision Transformer,以提高数据效率和模型效率。为了更全面地回顾视觉变形金刚,我们请读者参考专门的调查[36,37]。

相对注意力。在相对注意力的总称下,文献中出现了各种变体。 一般来说,我们可以将它们分为两类:(a) 依赖输入的版本,其中额外的相对注意力分数是输入状态 f ( x i , x j , i − j ) f\left(x_{i}, x_{j}, i-j\right) f(xi​,xj​,i−j)的函数,以及 (b) 输入- 独立版本 f ( i − j ) f\left(i-j\right) f(i−j)。 CoAtNet 中的变体属于与输入无关的版本,类似于 T5 [31] 中使用的变体,但与 T5 不同的是,我们既不共享跨层的相对注意力参数,也不使用分桶机制。 作为输入独立性的一个好处,为所有 (i; j) 对获得 f(i − j) 在计算上比 TPU 上的输入相关版本便宜得多。 此外,在推理时,这只需要计算一次并缓存以备将来使用。 最近的一项工作 [22] 也利用了这种与输入无关的参数化,但它将感受野限制为局部窗口。

结合卷积和自我注意。将卷积和自我注意相结合用于视觉识别的想法并不新鲜。一种常见的方法是使用显式自我注意或非本地模块扩充ConvNet主干[9、10、11、12],或使用标准自我注意[11]或更灵活的线性注意和卷积混合[41]替换某些卷积层。虽然自我注意通常会提高准确性,但它们通常会带来额外的计算成本,因此通常被视为CONVNET的附加模块,类似于挤压和激励[42]模块。相比之下,在ViT和ResNet ViT取得成功[13]之后,另一个流行的研究方向是从变形金刚主干开始,并尝试将显式卷积或卷积的某些理想特性纳入变形金刚主干[25、24、23、22、21、43、44]。

虽然我们的工作也属于这一类,但我们表明我们的相对注意力实例是深度卷积和基于内容的注意力的自然混合,附加成本最低。 更重要的是,从泛化和模型容量的角度出发,我们采用系统的方法进行垂直布局设计,并展示不同的网络阶段如何以及为什么喜欢不同类型的层。 因此,与简单地使用现成的 ConvNet 作为茎层的模型相比,例如 ResNet-ViT [13],CoAtNet 在整体尺寸增加时也会缩放卷积阶段(S2)。 另一方面,与采用局部注意力[22, 21] 的模型相比,CoAtNet 始终对 S3 和 S4 使用完全注意力来确保模型容量,因为 S3 占据了大部分计算和参数。

4 实验

在本节中,我们将CoAtNet与以前在类似设置下的结果进行比较。为完整起见,此处未提及的所有超参数均包含在附录A.2中。

4.1 实验设置

CoAtNet模型族。为了与不同尺寸的现有模型进行比较,我们还设计了一系列CoAtNet模型,如表3所示。总的来说,我们总是将S1到S4的通道数量增加一倍,同时确保阀杆S0的宽度小于或等于S1的宽度。

此外,为了简单起见,当增加网络深度时,我们只缩放S2和S3中的块数。

CoAtNet:将卷积和注意力结合到所有数据大小上

评估协议。 我们的实验侧重于图像分类。 为了评估模型在不同数据大小下的性能,我们使用三个越来越大的数据集,即 ImageNet-1K(1.28M 图像)、ImageNet-21K(12.7M 图像)和 JFT(300M 图像)。 继之前的工作之后,我们首先在三个数据集的每一个上以 224 的分辨率分别对我们的模型进行 300、90 和 14 个时期的预训练。 然后,我们以所需的分辨率对 ImageNet-1K 上的预训练模型进行 30 次微调,并获得相应的评估精度。 一个例外是 ImageNet-1K 在 224 分辨率下的表现,可以在预训练结束时直接获得。 请注意,与使用 Transformer 模块的其他模型类似,直接评估在 ImageNet-1K 上以更大分辨率预训练的模型而不进行微调通常会导致性能下降。 因此,只要输入分辨率发生变化,就会始终采用微调。

数据扩充和正则化。在这项工作中,我们只考虑两种广泛使用的数据扩充,即Rangous[ 45 ]和MixUp〔46〕,以及三种常用技术,包括随机深度(47)、标记平滑(48)和权重衰减[49 ],以使模型正规化。直观地说,增广和正则化方法的特定超参数取决于模型大小和数据规模,其中强正则化通常适用于较大的模型和较小的数据集。

在一般原则下,当前范式下的一个复杂问题是如何调整预训练和微调的正则化,因为数据大小可能会发生变化。具体来说,我们有一个有趣的观察结果,即如果在训练前完全禁用某种类型的增强功能,那么在微调过程中简单地启用它很可能会损害性能,而不是提高性能。我们推测这可能与数据分布的改变有关。因此,对于建议模型的某些运行,我们在对两个较大的数据集ImageNet21-K和JFT进行预训练时,故意采用RandAugment和小程度的随机深度。尽管这种正则化会损害预训练度量,但这允许在微调期间进行更通用的正则化和增强,从而提高下游性能。

4.2 主要结果

CoAtNet:将卷积和注意力结合到所有数据大小上

ImageNet-1K仅使用ImageNet-1K数据集的实验结果如表4所示。在类似条件下,提出的CoAtNet模型不仅优于ViT变体,而且还匹配最佳的仅卷积结构,即EfficientNet-V2和NFNET。此外,我们还将图2中分辨率为224x224的所有结果可视化。正如我们所看到的,CoAtNet的伸缩性比以前的带有注意模块的模型要好得多。

CoAtNet:将卷积和注意力结合到所有数据大小上

ImageNet-21K正如我们从表4和图3中看到的,当ImageNet-21K用于预训练时,CoAtNet的优势变得更加明显,大大优于所有以前的模型。值得注意的是,最佳CoAtNet变体达到了88.56%的top-1精度,与88.55%的ViTH/14性能相匹配,这需要在一个23倍大的专有弱标记数据集(JFT)上预训练2.3倍大的ViT模型2.2倍多的步骤。这标志着数据效率和计算效率的显著提高。

JFT最后,在表5中,我们使用JFT300M和JFT-3B进一步评估了大规模数据*下的CoAtNet。令人鼓舞的是,我们的CoAtNet-4几乎可以与NFNet-F4+设置的JFT-300M的最佳性能相媲美,同时在TPU训练时间和参数计数方面效率提高了2倍。当我们扩大模型以消耗与NFNet-F4+类似的训练资源时,CoAtNet-5在top-1精度上达到89.77%,在可比设置下优于先前的结果。

此外,随着我们进一步将训练资源推向 ViT-G/14 使用的水平,并利用更大尺寸的相同 JFT-3B 数据集 [26],计算量减少 4 倍以上,CoAtNet-6 能够匹配 ViT-G/14 的性能为 90.45%,并且计算量减少了 1.5 倍,CoAtNet-7 在 top-1 准确度 90.88% 上达到了 89.77%,达到了新的最先进的性能。

CoAtNet:将卷积和注意力结合到所有数据大小上

4.3 消融研究

在本节中,我们将详细介绍CoAtNet的设计选择。

首先,我们将卷积和注意结合到一个计算单元中,研究了相对注意的重要性。具体来说,我们比较了两种模型,一种是相对注意,另一种是不相对注意,分别在ImageNet-1K单独和ImageNet-21K传输设置下进行比较。从表6中可以看出,当仅使用ImageNet-1K时,相对注意明显优于标准注意,表明具有更好的泛化能力。此外,在ImageNet-21K传输设置下,尽管相对注意变量的预训练性能非常接近,但其传输精度仍大大提高。这表明相对注意在视觉处理中的主要优势不是更高的能力,而是更好的泛化能力。

CoAtNet:将卷积和注意力结合到所有数据大小上

其次,由于S2与MBConv块和S3与相对变形金刚块占据了CoAtNet的大部分计算,因此需要提出的问题是如何在S2(MBConv)和S3(变形金刚)之间分割计算以实现良好的性能。在实践中,它归结为决定每个阶段的区块数量,我们称之为“布局”设计。为此,我们比较了表7中试验的几种不同布局。

CoAtNet:将卷积和注意力结合到所有数据大小上

•如果我们将S2和S3中的块总数保持不变,并改变每个阶段的块数,我们观察到V0是V1和V2之间的最佳点。基本上,S3中有更多的Transformer块通常会导致更好的性能,直到S2中的MBConv块的数量太少而无法很好地推广。

•为了进一步评估传输设置中是否也存在最佳点,通常认为更高的容量更重要,我们进一步比较ImageNet21K传输到ImageNet-1K设置下的V0和V1。有趣的是,尽管V1和V0在ImageNet-21K预训练期间具有相同的性能,但V1的传输精度明显落后于V0。这再次表明卷积在实现良好的可转移性和泛化方面的重要性。

最后,我们研究了模型细节的两种选择,即每个注意力的维度(默认为 32)以及 MBConv 块中使用的归一化类型(默认为 BatchNorm)。 从表 8 中,我们可以看到将头部大小从 32 增加到 64 会略微影响性能,尽管它实际上可以显着提高 TPU 速度。 在实践中,这将是一个可以做出的质量与速度的权衡。 另一方面,BatchNorm 和 LayerNorm 的性能几乎相同,而 BatchNorm 在 TPU 上快 10 - 20%,具体取决于每核批量大小。

5 结论

在本文中,我们系统地研究了卷积和变形金刚的性质,从而找到了一种将它们组合成一个新的模型族CoAtNet的原则性方法。大量的实验表明,CoAtNet具有良好的通用性(如ConvNets)和优越的模型容量(如Transformers),在不同的数据大小和计算预算下实现了最先进的性能。

注意,本文目前主要关注用于模型开发的ImageNet分类。然而,我们相信我们的方法适用于更广泛的应用,如目标检测和语义分割。我们将把它们留给以后的工作。

上一篇:读论文——ViT(Transformer跨界CV)


下一篇:[Transformer]Is it Time to Replace CNNs with Transformers for Medical Images?