【论文笔记】X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs-实验

2024-10-24 11:11:46

主实验

VQAv2数据集上的零样本视觉问答结果。

GQA和OKVQA数据集上零样本视觉问答结果。

GQA中的详细比较。

MLLMs在物体计数（OC）和多类识别（MCI）任务上的零样本细粒度视觉感知评估。

COCO与NoCaps上的无微调结果零样本图像描述结果。

消融实验

Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。