第五周学习

MobileNetV1,MobileNetV2,HybridSN:https://www.cnblogs.com/logt/articles/14002078.html

Deep Supervised Cross-modal Retrieval

动机

以前的方法中尽管使用了分类信息,但分类信息仅用于学习每个模态内或模态间的鉴别特征,并没有充分利用语义信息。

贡献
  1. 提出了一种基于深度监督的多模态学习结构,以弥补多模态间的异构性。通过端到端同时保持语义区分和模态不变性,可以有效地学习异构数据的公共表示。

  2. 提出了两种具有权值共享约束的子网络来学习图像和文本模态之间的交叉模态相关。另外,将模态不变性损失直接转化为目标函数,以消除模态间的差异。

  3. 利用线性分类器对公共表示空间中的样本进行分类。这样,DSCMR最大限度地减少了标签空间和公共表示空间的辨别损失,使得学习的公共表示具有显著的可区分性。

  4. 在广泛使用的基准数据集上进行了大量的实验。结果表明,该方法在跨模态检索方面优于现有的方法,表明了该方法的有效性。

网络结构

第五周学习

将图像和文本分别输入到图像CNN和文本CNN中,获得原始的高级语义表示。然后,在它们的顶部分别添加一些完全连接的层,将来自不同模式的样本映射到一个共同的表示空间。最后,使用线性分类器(参数在P中)预测每个样本的类别。

针对图像模态的深度神经网络的卷积层与在 ImageNet 上预先训练的 19 层 VGGNet 中的卷积层相同。我们从 fc7 层生成 4096 维的特征向量作为图像的原始高级语义表示,记作 \(h_i^{\alpha}\)。然后,几个全连通层进行公共表示学习,得到每个图像的公共表示,表示为 \(u_i\)。

为了实现文本的公共表示学习,我们首先使用 Word2Vec 模型将每个网络表示为一个 k 维特征向量,该模型对谷歌新闻中的数十亿个单词进行了预处理。因此,每个文本可以表示为一个矩阵,每一列表示为一个k维特征向量。然后,将文本矩阵作为与句子 CNN 相同的配置输入到卷积层中,生成文本的原始高级语义表示,记作 \(h_i^{\beta}\)。以类似的方式,遵循一些全连接层来学习文本的公共表示,记作 \(v_i\)。

损失函数

本文的主要贡献是提出了三个损失函数

\[\mathcal{J}_{1}=\frac{1}{n}\left\|\mathbf{P}^{T} \mathbf{U}-\mathbf{Y}\right\|_{F}+\frac{1}{n}\left\|\mathbf{P}^{T} \mathbf{V}-\mathbf{Y}\right\|_{F} \]

该函数主要用于衡量标签空间中的辨别损失。

\[\begin{aligned} \mathcal{J}_{2}=& \underbrace{\frac{1}{n^{2}} \sum_{i, j=1}^{n}\left(\log \left(1+e^{\Gamma_{i j}}\right)-S_{i j}^{\alpha \beta} \Gamma_{i j}\right)}_{\text {inter-modalities }} \\ &+\underbrace{\frac{1}{n^{2}} \sum_{i, j=1}^{n}\left(\log \left(1+e^{\Phi_{i j}}\right)-S_{i j}^{\alpha \alpha} \Phi_{i j}\right)}_{\text {image modality }} \\ &+\underbrace{\left.\frac{1}{n^{2}} \sum_{i, j=1}^{n} \log \left(1+e^{\Theta_{i j}}\right)-S_{i j}^{\beta \beta} \Theta_{i j}\right)}_{\text {text modality }}, \end{aligned} \]

该函数直接测量了两种模式在公共表示空间中所有样本的识别损失,式中第一项用来衡量交叉模态中图像和文本的相似性,第二和第三项可能分别测量图像和图像样本、文本和文本样本的相似性。\(J_2\) 是公共表示形式的合理相似度度量,并且是学习判别特征的良好标准。

\[\mathcal{J}_{3}=\frac{1}{n}\|\mathbf{U}-\mathbf{V}\|_{F} \]

该函数是为了消除跨模态差异,最小化所有图像-文本对的表示之间的距离。

结合上述三式,最终损失函数为:

\[\mathcal{J}=\mathcal{J}_{1}+\lambda \mathcal{J}_{2}+\eta \mathcal{J}_{3} \]

算法步骤

第五周学习

实验

为了验证该方法的有效性,我们对四种广泛使用的基准数据集进行了实验:Wikipedia数据集、Pascal语句数据集、NUS-WIDE-10k数据集和XMediaNet数据集。

第五周学习

为了验证我们提出的方法的有效性,我们在实验中将提出的方法与十种最新方法进行了比较,下图是在Pascal语句数据集上的实验结果,优于现有的方法。

第五周学习

通过可视化操作,我们可以看到,原本分布较为散乱的图片,在经过处理以后变得比较有规律。并且,图片与文本的分布一致性非常强。

第五周学习

问题

代码中没有看到使用 VGG

上一篇:CF853E Lada Malina【凸包,扫描线】


下一篇:南大2021高级机器学习期末复习