很好的一篇文章,不愧是reid大组中山大学Weishi-Zheng老师的工作
- 文章的基本出发点很有意思:用source domain的feature做作为参考,衡量target domain images是否相似,从而构成正负样本进行contrasive learning和domain adaption。这就为target images建立了一个可以比较的参考系。
- 假定souce domain set(文章里叫agents)有$N_p$个id(实际作者用的MSMT17数据集,则$N_p=1401$),那么作者设置agents为$N_p, 2048$(2048为提取特征的维度),记为$\{a_i\}_{i=1}^{N_p}$,每个$a_i$代表一个reference person的2048维feature。无论是souce domain input image还是target input image,经过网络提取得到的特征和agents里面的特征都是经过l2 normlized,那么input feature点乘agent feature就是余弦相似性,则每个input点乘整个agents就得到一个$N_p$维的相似向量,这个相似向量经过softmax归一化就是Soft Multilabel。(注意区分我写的agent和agents)
- 网络模型如下:
-
- 模型输入:source domain image (auxiliary image)和target domain image
- 模型输出:source feature (2048d), source similarity; target feature, target similarity (注意,此处的similarity就是feature和agents点乘后的相似性,还未经过softmax归一化)
- loss:
- ①$L_{MDL}=-log\frac{\bar{P}}{\bar{P}+\bar{N}}$