用于视觉的MetaFormer基线模型

摘要

https://arxiv.org/pdf/2210.13452
摘要——MetaFormer,即Transformer的抽象架构,已被发现在实现竞争性能中发挥着重要作用。在本文中,我们再次通过将研究重点从令牌混合器(token mixer)设计转移开,来进一步探索MetaFormer的潜力:我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型,并展示了它们令人满意的性能。我们的观察结果总结如下:

(1)MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器,MetaFormer模型(称为IdentityFormer)在ImageNet-1K上实现了超过80%的准确率。

(2)MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌,由此产生的模型RandFormer也能达到超过81%的准确率,优于IdentityFormer。当采用新的令牌混合器时,可以确信MetaFormer的结果。

(3)MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器,从MetaFormer实例化的模型就已经超越了最先进的水平。

(a)ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器,该模型

上一篇:Pencils Protocol 全面推动市场,生态通证 DAPP 将持续通缩


下一篇:CSP-J/S复赛算法 动态规划初步