摘要
https://arxiv.org/pdf/2210.13452
摘要——MetaFormer,即Transformer的抽象架构,已被发现在实现竞争性能中发挥着重要作用。在本文中,我们再次通过将研究重点从令牌混合器(token mixer)设计转移开,来进一步探索MetaFormer的潜力:我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型,并展示了它们令人满意的性能。我们的观察结果总结如下:
(1)MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器,MetaFormer模型(称为IdentityFormer)在ImageNet-1K上实现了超过80%的准确率。
(2)MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌,由此产生的模型RandFormer也能达到超过81%的准确率,优于IdentityFormer。当采用新的令牌混合器时,可以确信MetaFormer的结果。
(3)MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器,从MetaFormer实例化的模型就已经超越了最先进的水平。
(a)ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器,该模型