用于视觉的MetaFormer基线模型

2024-10-06 11:37:55

摘要

https://arxiv.org/pdf/2210.13452
摘要——MetaFormer，即Transformer的抽象架构，已被发现在实现竞争性能中发挥着重要作用。在本文中，我们再次通过将研究重点从令牌混合器（token mixer）设计转移开，来进一步探索MetaFormer的潜力：我们在MetaFormer框架下引入了几个使用最基本或最常见混合器的基线模型，并展示了它们令人满意的性能。我们的观察结果总结如下：

（1）MetaFormer确保了坚实的性能下限。仅通过将恒等映射作为令牌混合器，MetaFormer模型（称为IdentityFormer）在ImageNet-1K上实现了超过80%的准确率。

（2）MetaFormer与任意令牌混合器配合良好。即使将令牌混合器指定为随机矩阵来混合令牌，由此产生的模型RandFormer也能达到超过81%的准确率，优于IdentityFormer。当采用新的令牌混合器时，可以确信MetaFormer的结果。

（3）MetaFormer轻松提供最先进的结果。仅使用五年前的常规令牌混合器，从MetaFormer实例化的模型就已经超越了最先进的水平。

（a）ConvFormer优于ConvNeXt。以常见的深度可分离卷积作为令牌混合器，该模型

码农公寓

摘要

相关文章