今天上午看了个论文,每当遇到全英文论文的时候,就会发现自己的英文水平属实是太一般,但是看完这篇论文确实是感触良多!!!
-
论文标题:《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》
-
论文作者:Google Research, Brain Team
-
论文发布时间:2020年11月22日
-
论文摘要概述:
-
作者在摘要中表达的信心意思就是:transformer架构目前已经在自然语言处理任务中广泛应用且效果显著,但是在视觉领域目前应用不多。作者论文中所提出的《Vision Transformer (ViT)》在ImageNet, CIFAR-100, VTAB等数据集中取得了不错的成绩,对比表名transformer架构也可以在视觉领域取得优异成绩,且与先进的卷积网络相比,训练所需的计算资源大大减少。
1. 介绍部分
- 核心就是介绍VIT模型在多个数据集上取得的成绩,例如在ImageNet上的正确率为88.55%,在ImageNet- real上为90.72%,在CIFAR-100上为94.55%,77.63%在19个任务的VTAB套件中。
code下载地址
Fine-tuning code and pre-trained models are available at https://github.com/google-research/vision_transformer
2. 相关工作部分
3. 模型架构
在VIT模型的设计中,尽量保持了transformer架构的原汁原味
VIT模型架构
- 在接下来论文阐述的相关数据上,核心意思就是,将高分辨率的图像,分为N个patch图像块,然后Flatten拉伸成为1维向量,可以理解为reshape成类文本数据,例如将3x3的图像reshape成1x9形式,然后在进入embedding层之后进行patch embedding(个人理解此处类似于NLP中的token embedding操作),Position embedding主要是根据各个patch块在原始图像中的位置,对预训练的位置嵌入进行2D插值来记录对应的时序关系;之后数据被送入transformer Encoder结构和MLP head部分最终得到对应分类的概率分布;
4. 实验数据
在该实验数据中,作者试验了Layers层数包括12/24/32,hidden_size包括:768/1024/1280,多头注意力头数包括:12头和16头,参数量依次为:86M/307M/632M。
在实验结果上,均取得不俗表现;
5. 大数据集表现明显好于小数据集
- 时间关系,今天就写到这吧,看完这篇VIT论文,感触良多,transformer既然也可以在视觉领域取得不俗成绩,未来多种模态之间的融合带来无限可能。
- 个人断言:未来人工智能在多模态领域会有新的突破,敬请期待!!!