iBOT:使用在线Tokenizer对图像进行BERT式预训练

Zhou, Jinghao, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Loddon Yuille and Tao Kong. “iBOT: Image BERT Pre-Training with Online Tokenizer.” ArXiv abs/2111.07832 (2021).

1 Abstract

语言Transformers的成功主要归功于掩码语言建模(MLM) pretext任务,其中文本被tokenized成为语义上有意义的片段。在这项工作中,我们研究了掩码图像建模(MIM),并指出了使用语义上有意义的视觉tokenizer的优势和挑战。我们提出了一个自监督框架iBOT,它可以通过在线tokenizer进行掩码预测。具体来说,我们对掩码patch tokens进行自蒸馏,并将teacher网络作为在线tokenizer,同时对class token进行自蒸馏以获得视觉语义。在线tokenizer可以与MIM目标共同学习,无需进行额外的预训练。在ImageNet-1K上,我们获得了81.6%的线性探测精度和86.3%的微调精度,这显示了iBOT的优越性。我们不仅获得了SOTA的图像分类结果,还强调了局部语义模式的重要性,这有助于模型获得强大的鲁棒性,并在目标检测、实例分割、语义分割等下游任务上取得领先的结果。

2 Method, Experiment & Result

iBOT:使用在线Tokenizer对图像进行BERT式预训练

图1. ImageNet上的线性探测精度。我们将iBOT与BYOL、DINO、SwAV、MoCo v3等无监督基线模型进行了比较。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

图2. 掩码图像建模(MIM)。I表示图像,Tok.表示视觉tokenizer。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

图3. iBOT框架的概述,使用在线tokenizer进行掩码图像建模。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表1. 在ImageNet-1K上的k-NN和线性探测的结果。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表2. 在ImageNet-1K上进行微调的结果。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表3. 在ImageNet-22K上进行预训练,在ImageNet-1K上进行微调的结果。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表4. 在ImageNet-1K上进行半监督学习的结果。1%和10%表示标签的比例。SD表示自蒸馏(Self-Distillation)。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表5. 在ImageNet-1K上进行无监督学习的结果。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表6. 在COCO上的目标检测(Det.)和实例分割(ISeg.)结果,以及在ADE20K上的语义分割(Seg.)结果。左:ViT-S/16。右:ViT-B/16。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表7. 在不同数据集上通过微调预训练模型进行迁移学习的结果。左:ViT-S/16。右:ViT-B/16。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

图4. Patch tokens的模式布局。左边的两张图共享局部类别语义(车前灯和狗耳朵)。右边的两张图共享局部纹理语义(条纹和曲面)。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

图5. iBOT和DINO的线性探测精度。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

图6. 自注意力图的可视化。来自多个头的自注意力图用不同的颜色显示。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表8. 预训练模型的鲁棒性评估。

iBOT:使用在线Tokenizer对图像进行BERT式预训练

表9. 语义上有意义的tokenization设计选择的影响。

3 Conclusion / Disccusion

在这项工作中,我们研究了视觉Transformers的BERT式预训练,并强调了语义上有意义的视觉tokenizer的重要性。我们提出了一个自监督框架iBOT,该框架通过在线tokenizer的自蒸馏进行掩码图像建模,并在图像分类、目标检测、实例分割和语义分割等下游任务上实现了SOTA结果。特别有趣的是,我们为使用MIM训练的模型确定了一种局部语义,它不仅有助于提高识别的精度,而且有助于提高模型的鲁棒性。未来,我们计划将iBOT扩展到更大的数据集(如ImageNet-22K)或更大的模型尺寸(如ViT-L/16和ViT-H/16),并研究MIM是否可以帮助视觉Transformers更好地扩展到自然场景下的未标记数据上。

关注“多模态人工智能”,一起进步!

上一篇:Masked Autoencoders


下一篇:论文速读:FAIR 最新 ViT 模型 改进多尺度 ViT --- Improved Multiscale Vision Transformers