Introduction
提出了一个Smoothed Global Maximum Pooling (S-GMP),使得提取的视觉特征与文本特征更加一致; 提出一个基于bi-LSTM的memory attention模块,使得提取的语义特征更具有针对性;在损失函数上,结合了单模态三元组损失和跨模态难样本挖掘交叉熵损失。
Proposed Method
从图中直观感受是在两个特征提取分支上加入了注意力机制。
1) 视觉特征提取网络 (S-GMP):采用了ResNet50作为骨干网络,将全局平均池化的输出作为注意力的权重,对全局最大池化的输出进行加权。
2) 文本特征提取网络 (Memory Attention):将最后一个词向量通过LSTM的输出作为注意力模块的输入,因为最后一个LSTM的输出包含了整个文本的信息。bi-LSTM的所有单词的输出通过了最大池化,即在每个特征维度取最大值,得到整个文本的特征,最后通过注意力加权得到新的特征向量。
3) 在距离度量采用了consin相似度,并采用sigmoid进行归一化。交叉熵损失为:
4) 模态内的三元组损失:
5) 模态间难样本损失:
寻找cosine相似度最高的负样本作为一组难样本对:
寻找特征向量距离最近的负样本作为一组难样本对:
6) 正样本损失:
Experiments
实验设置:学习率2x10-3,想70次和90次迭代时下降0.1,batch size = 64 (64个ID,128图像,256段文本),采用Adam优化器