Top: 现有的基于提示的方法仅学习文本提示以在每个域中嵌入语义并分别进行分类,这限制了跨领域知识转移和特征对齐;Bottom: DAMP相互学习文本和视觉提示,使得两种模态的嵌入都具有域不变性,从而能够更好地利用源知识并实现灵活的对齐
无监督域自适应可以利用来自标记充足的源领域的知识,从而使在未标记的目标域上的任务性能提升,两个域具有相似的语义但数据分布不同。传统的UDA方法通常通过最小化分布差异来缩小域差距,利用矩匹配或对抗学习实现。然而,简单地对齐两个域可能导致学习到的特征表示中的语义结构失真和及类别辨别能力降低。此外,先前的工作通常在训练和推理中使用数值标签,丢失类别的丰富语义,导致在处理复杂类别和域偏移时的自适应能力较差
利用VLMs进行UDA有以下两个问题:
- 如何有效地利用VLMs中编码的丰富预训练知识
- 如何将源知识转移到目标域以实现更好的自适应
本文的目标是学习可转移(领域无关)的提示,以有效地利用CLIP将预训练知识和源知识转移到目标域。在UDA中直接学习这样的文本提示可能不够理想,因为来自不同域的视觉嵌入通常包含不同的、域偏置的信息,这些信息符合CLIP特征空间中的不同分布。这是以前方法中领域特定提示背后的关键动机。本文提出基于域无关文本提示提示视觉主干,从而调整视觉嵌入以产生域不变的表示;域不变的视觉嵌入仍然可以保留个体特征,例如对象的颜色和大小。即使在同一类别内,这种变化也需要利用实例级的提示进行更好的对齐
考虑到两种提示的相互依赖,构建了一个基于Transformer解码器启发的交叉注意力相互学习框架,设置了语义一致性正则化和实例区分对比损失,以确保学习到的提示包括域无关和实例级信息
Contributions
- 提出了DAMP框架用于学习域无关提示,以利用CLIP将预训练知识和源知识转移到目标域
- DAMP通过提示两种模态学习域不变表示,从而相互对齐文本和视觉嵌入
- UDA基准上实验验证了有效性