核心思想
本论文是无监督方法,主要由两层循环对抗网络构成,外层的循环对抗网络主要是使不同模态提取更有代表性的公共特征向量,内层循环对抗网络使学的高质量的哈希编码。
外层循环对抗网络:
过程描述:图像通过卷积提取特征作为FrealI,然后通过生成器GfI−>T(是一个encode->decode过程),生成FfakeI作为真实文本特征对应的假数据,FfakeT和FrealT作为抗网络的正假数据来训练网络(DfT),消除图像和文本的差距。同理图像通过GfT−>I(是一个encode->decode过程)生成的FfakeI作为真是图像对应的假数据。FfakeI和FrealI作为抗网络的正假数据来训练网络(DfI),消除图像和文本的差距。同时FfakeT和FfakeI分别通过GfT−>I和GfI−>T生成向量分别与FrealI和FrealT构成损失函数,进一步消除模态之间的差异。
内层循环对抗网络:与外层循环对抗网络的思想相似。
网络结构图
损失函数
外层对抗网络损失函数:
总的损失函数:
展开:
对抗网络损失函数:
重建损失函数:
相似性损失函数:
内层对抗网络损失函数:
总的损失函数:
对抗损失函数:
重建损失函数:
相似损失函数:
创新点和缺点
创新点:通过循环对抗网络消除不同模态之间的差异。
缺点:指考虑了相似性,没有考虑不相似性(缺少rank信息),同时重建损失函数里,将提取特征换成重建特征会不会更好些呢???