MS-CLIP：模式共享的对比语言-图像预训练框架

2024-01-06 09:50:40

MS-CLIP: modality-shared contrastive language-image pre-training

论文地址：
主要工作：
主要问题：
基本发现：
实验结果：

论文地址：

ICLR 2022: https://openreview.net/forum?id=ROteIE-4A6W

主要工作：

现在的大规模多模态模型大都为每种模态使用单独的编码器，但是最近的研究表明，Transformer 可以支持跨多种模式的学习。受此启发，作者研究了如何构建一种模式共享的对比语言-图像预训练框架（MS-CLIP）。

更具体地说，作者在对比预训练中想研究 Transformer 模型的多少参数可以跨模式共享，并严格研究定位沿频谱共享参数比例的