MS-CLIP: modality-shared contrastive language-image pre-training
论文地址:
ICLR 2022: https://openreview.net/forum?id=ROteIE-4A6W
主要工作:
现在的大规模多模态模型大都为每种模态使用单独的编码器,但是最近的研究表明,Transformer 可以支持跨多种模式的学习。受此启发,作者研究了如何构建一种模式共享的对比语言-图像预训练框架(MS-CLIP)。
更具体地说,作者在对比预训练中想研究 Transformer 模型的多少参数可以跨模式共享,并严格研究定位沿频谱共享参数比例的