主实验
VQAv2数据集上的零样本视觉问答结果。
GQA和OKVQA数据集上零样本视觉问答结果。
GQA中的详细比较。
MLLMs在物体计数(OC)和多类识别(MCI)任务上的零样本细粒度视觉感知评估。
COCO与NoCaps上的无微调结果零样本图像描述结果。
消融实验
Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。
2024-10-24 11:11:46
VQAv2数据集上的零样本视觉问答结果。
GQA和OKVQA数据集上零样本视觉问答结果。
GQA中的详细比较。
MLLMs在物体计数(OC)和多类识别(MCI)任务上的零样本细粒度视觉感知评估。
COCO与NoCaps上的无微调结果零样本图像描述结果。
Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。