跨模态检索Coupled CycleGAN: Unsupervised Hashing Network for Cross-Modal Retrieval

2024-01-30 14:29:29

核心思想

本论文是无监督方法，主要由两层循环对抗网络构成，外层的循环对抗网络主要是使不同模态提取更有代表性的公共特征向量，内层循环对抗网络使学的高质量的哈希编码。

外层循环对抗网络：
过程描述：图像通过卷积提取特征作为 $F_{real}^I$ FrealI,然后通过生成器 $G_f^{I->T}$ GfI−>T（是一个encode->decode过程）,生成 $F_{fake}^I$ FfakeI作为真实文本特征对应的假数据， $F_{fake}^T$ FfakeT和 $F_{real}^T$ FrealT作为抗网络的正假数据来训练网络（ $D_f^T$ DfT），消除图像和文本的差距。同理图像通过 $G_f^{T->I}$ GfT−>I（是一个encode->decode过程）生成的 $F_{fake}^I$ FfakeI作为真是图像对应的假数据。 $F_{fake}^I$ FfakeI和 $F_{real}^I$ FrealI作为抗网络的正假数据来训练网络（ $D_f^I$ DfI）,消除图像和文本的差距。同时 $F_{fake}^T$ FfakeT和 $F_{fake}^I$ FfakeI分别通过 $G_f^{T->I}$ GfT−>I和 $G_f^{I->T}$ GfI−>T生成向量分别与 $F_{real}^I$ FrealI和 $F_{real}^T$ FrealT构成损失函数，进一步消除模态之间的差异。
内层循环对抗网络：与外层循环对抗网络的思想相似。