[2021-CVPR] Fine-grained Angular Contrastive Learning with Coarse Labels 论文简析
论文地址:https://arxiv.org/abs/2012.03515
代码地址:https://github.com/guybuk/ANCOR
首先通俗地介绍一下细粒度(fine-grained),细粒度分类是指在原来粗分类的基础上再对子类进行更细致的分类。举个例子,图中有一只狗,粗(coarse)分类的分类结果即是一只狗,而细粒度的分类结果则会细致到这只狗是什么品种,是比格,柯利还是哈巴狗。
本文提出了一个新任务C2FS(Coarse-to-Fine Few-Shot),即由粗粒度转向细粒度的小样本的分类任务,在训练阶段使用粗类样本进行训练,在测试阶段经过细粒度子类小样本数据集的微调之后测试细粒度子类的分类准确度。
并提出了一个针对该任务的网络架构,使用有监督学习对样本进行粗分类,使用自监督对比学习(文中用的是MoCo V2)进行细粒度分类,并针对两种分类训练时损失函数会冲突的问题提出了Angular Normalization模块,将自监督的infoNCE损失转移到角度空间,从而提升两个分类任务之间损失函数的协同性。
整体网络结构如下:
其中针对粗分类的任务,根据粗类标签进行有监督学习,来将粗类之间分开,损失函数就是我们熟悉的交叉熵。而针对粗类的子类进行细粒度分类时,作者使用了最近大火的自监督对比学习,具体使用的是何恺明团队的MoCo V2,使得属于同一个粗类内的每个不同的实例分开有一定距离,损失函数是最近对比学习最常用的infoNCE,但针对两损失的冲突问题,对infoNCE的输入进行了一些改动。
具体流程是:一张图片(实际上训练是在batch内进行的,这点对于对比学习来说很关键,上图简明起见用一张图片表示)输入进来以后,经过两种不同的数据扩增方法(Aug. 1,2)得到同一张原图的两张图片 x q x_q xq , x k x_k xk,然后其中 x q x_q xq 经过backbone B \mathcal{B} B (就是MoCo中的encoder_q)和MLP E \mathcal{E} E 得到 x q x_q xq 的特征表示 q q q ,这个 q q q 会经过一个分类器(全连接+Softmax)得到粗类的预测概率,而粗类分类的训练是有标签的,可以直接做交叉熵损失,这一部分是有监督的粗类分类训练。
再说两种数据扩增得到另一张图片 x k x_k xk ,它会经过动量更新的(详见MoCo) B k \mathcal{B}_k Bk 和 E k \mathcal{E}_k Ek ,得到特征表示 k + k_+ k+ , k + k_+ k+ 会在对比学习中与 q q q 组成正对(positive pair),而从MoCo维护的队列中拿到的与输入图片属于同一粗类(比如图中的狗类)的不同图片样本 k − k_- k− 会和 q q q 组成负对(negative pair),从而根据 q q q , k + k_+ k+ , k − k_- k− 计算infoNCE损失进行对比学习,来使得同一粗类内的不同样本也有一定的距离,方便后面测试时进行小样本的细粒度分类学习。
至此看起来一切顺其自然,十分合理。但是作者敏锐地发现了一个重要问题:如下图上半部分所示,粗类分类的有监督CE损失会使得同一粗类的每个样本都尽量靠到一起,而对比学习infoNCE损失又会使得粗类中的每个样本有一定的距离,也就是说这两个损失会有冲突存在。
针对这个问题,作者提出了Angular Normalization(AN)模块,来增强两个损失之间的协同性(synergy)。
首先说明一些符号:输入图片 I I I ,它的特征表示 q q q ,它所属的粗类 y y y ,分类器 C C C 的参数 W W W 的第 y y y 行 W y W_y Wy ,分类器 C C C 中 y y y 类的logit W y q W_yq Wyq 。
这样,要想使CE损失 L C E = ( C ( q ) , y ) \mathcal{L}_{CE}=(C(q),y) LCE=(C(q),y) 最小,要 W y q W_yq Wyq 最大且 W i ≠ y q W_{i\neq y}q Wi=yq 最小,也就是 q q q (单位向量,embedder E \mathcal{E} E 的最后再经过L2 norm)转到 W y W_y Wy 的方向,这对所有的 y y y 类的图片都是相同的,会使他们倒向(collapse to)最接近 W y W_y Wy 的单位向量 W y ∣ ∣ W y ∣ ∣ \frac{W_y}{||W_y||} ∣∣Wy∣∣Wy 。但是这种倒向(collapse)与 y 类特定的 InfoNCE 对比损失 L c o n t ( q , k − , k + ) \mathcal{L}_cont(q,k_-,k_+) Lcont(q,k−,k+) 存在冲突,后者试图将 y y y 类的样本彼此之间推开。
作者提出的解决方法即是AN,定义
y
y
y 类的angular normalzation:
A
(
x
,
W
,
y
)
=
∠
x
=
x
∣
∣
x
∣
∣
−
W
y
∣
∣
W
y
∣
∣
∣
∣
x
∣
∣
x
∣
∣
−
W
y
∣
∣
W
y
∣
∣
∣
∣
\mathcal{A}(x,W,y)=\angle x = \frac{\frac{x}{||x||}-\frac{W_y}{||W_y||}}{||\frac{x}{||x||}-\frac{W_y}{||W_y||}||}
A(x,W,y)=∠x=∣∣∣∣x∣∣x−∣∣Wy∣∣Wy∣∣∣∣x∣∣x−∣∣Wy∣∣Wy
这就将单位向量
x
∣
∣
x
∣
∣
\frac{x}{||x||}
∣∣x∣∣x 转换为了表示其与
W
y
∣
∣
W
y
∣
∣
\frac{W_y}{||W_y||}
∣∣Wy∣∣Wy 的角度的单位向量。
根据以上定义,我们将
L
c
o
n
t
\mathcal{L}_{cont}
Lcont 中的
q
,
k
−
,
k
+
q,k_-,k_+
q,k−,k+ 分别替换为它们的
y
y
y 类angular normalization的形式:
∠
q
=
A
(
q
,
W
,
y
)
\angle{q}=\mathcal{A}(q,W,y)
∠q=A(q,W,y)
∠
k
−
=
A
(
k
−
,
W
,
y
)
\angle{k_-}=\mathcal{A}(k_-,W,y)
∠k−=A(k−,W,y)
∠
k
+
=
A
(
k
+
,
W
,
y
)
\angle{k_+}=\mathcal{A}(k_+,W,y)
∠k+=A(k+,W,y)
从而我们损失函数的最终形式就是:
L
=
L
C
E
(
C
(
y
)
,
y
)
+
L
c
o
n
t
(
∠
q
,
∠
k
+
,
∠
k
−
)
\mathcal{L}=\mathcal{L}_{CE}(C(y),y)+\mathcal{L}_{cont}(\angle{q},\angle{k_+},\angle{k_-})
L=LCE(C(y),y)+Lcont(∠q,∠k+,∠k−)
如上图下方所示,改进后的AN形式的
L
c
o
n
t
\mathcal{L}_{cont}
Lcont 运作在角度空间中围绕着
W
y
∣
∣
W
y
∣
∣
\frac{W_y}{||W_y||}
∣∣Wy∣∣Wy 的“轨道"(orbit)上。这样就不会干扰到
L
C
E
\mathcal{L}_{CE}
LCE 损失使倒向(collapse)
W
y
∣
∣
W
y
∣
∣
\frac{W_y}{||W_y||}
∣∣Wy∣∣Wy,即不会与CE损失产生冲突,从而提升了两损失的协同性。
AN一个额外的好处是它忽视了(在normalize之后)到权重向量的距离,这样可以保护 L c o n t \mathcal{L}_{cont} Lcont 不会收到不同子类间“松紧”程度的影响。
实验部分有兴趣可以去查看原文。
作为2021 CVPR的 oral,本文的质量还是很足的,一个颇有意思的新任务C2FS,并结合了一些最新的方法提出了一个比较合理的解决方案,还针对这个框架存在的一个关键问题有一个不错的解决方案。
有理解不对的地方欢迎指正。