【论文笔记】X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs-实验

主实验

VQAv2数据集上的零样本视觉问答结果

VQAv2数据集上的零样本视觉问答结果。

GQA和OKVQA数据集上零样本视觉问答结果

GQA和OKVQA数据集上零样本视觉问答结果。

GQA中的详细比较

GQA中的详细比较。

MLLMs在物体计数(OC)和多类识别(MCI)任务上的零样本细粒度视觉感知评估

MLLMs在物体计数(OC)和多类识别(MCI)任务上的零样本细粒度视觉感知评估。

COCO与NoCaps上的无微调结果零样本图像描述结果

COCO与NoCaps上的无微调结果零样本图像描述结果。

消融实验

消融实验

Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。

上一篇:Python:简洁优雅的编程之舞


下一篇:深入解析 Spring Boot 启动过程都做了些什么?-3.总结