A 品牌推出了一件连衣裙原创爆款,B 品牌趁机推出了“同款”,B 还很"机智"地修改了连衣裙的裙长、领型或袖型,以此规避知识产权纠纷,不过,这种做法已经行不通了。近日,由阿里安全和浙江大学合作研发的创新 AI 算法提出了一种面向服饰版权保护的属性感知细粒度相似度学习方法,从传统关注整体相似度细化到能够关注于局部区域的特定属性的相似度,从而进一步提升了甄别“局部抄袭”的准确率,为服饰版权保护提供更强大的技术支持。
也就是说,设计师做了一件原创设计,原来评判系统从整体对比原创者和抄袭者的图样,现在 AI 能迅速采集这件设计上的各个设计点,与抄袭者的设计图样比对,如果后者在多个点上与前者达到了某个相似度,系统可立刻判定抄袭成立,并知道哪些设计元素的相似度高。
解读上述算法的论文《Fine-Grained Fashion SimilarityLearning by Attribute-Specific Embedding Network》(《面向服饰版权保护的属性感知的细粒度相似度学习》)被全球人工智能*会议 AAAI 2020 收录,2 月 7 日至 12 日,AAAI 2020 在美国纽约召开。
更灵活的服饰版权保护度量方法
从视觉角度如何对原创设计进行保护是“服饰理解”面临的一个重要问题,也是长久以来的一个巨大挑战。
服饰图像通常伴随着严重的变形,在风格、纹理、背景上也存在巨大的差异。现有的服饰理解方法在in-shop clothes retrieval [1, 2],cross-domain fashion retrieval [3, 4] 以及fashion compatibility prediction [5, 6] 等任务上进行了广泛的研究。
这些方法倾向于考虑图像整体的特征,为各种服饰学习单一的特征空间。随着时尚产业的发展,服饰倾向于具有更加丰富的属性,单单从整体特征考虑已无法满足需求,并且,抄袭通常也不是整体的抄袭,可能仅模仿某种局部设计;再者,对服饰理解的进一步细化能够提高推荐系统的性能。
因此,浙江大学和阿里安全的研究者从服饰版权保护出发,基于专业定义的服饰属性,探索一种灵活有效的细粒度服饰相似度度量方法。
**图 1全局嵌入空间(左) 特定属性的嵌入空间(右)
**
如图 1 所示,现有方法通常将两张图像映射到全局嵌入空间中度量相似性,而研究者提出的方法则根据不同的属性(比如领型设计、袖长)选择不同的嵌入空间,从而在相应的空间中计算在指定属性下服饰的相似性。比如,可以在领型设计空间度量两件服饰的领型设计是否相似,如果同为圆领,如何使得模型能够灵活地进行任务切换,根据不同的属性有不同的输出?
据上述算法的研究者之一、阿里安全图灵实验室高级算法专家华棠介绍,结合服饰属性具有“局部性”的固有特点,他们利用视觉注意力机制将图像从全局特征空间映射到不同的特征子空间中,在子空间中度量具体角度下的图像相似度。
这种方法具有两个优点:
- 第一,不同属性映射到不同子空间中,在不同子空间中度量细粒度的相似关系;
- 第二,模型能够端到端学习,不同相似性角度下的度量关系互相不影响,可以同时训练。
模型解析
研究者提出了一个 Attribute-Specific Embedding Network (ASEN) 模型来学习多个特定属性的嵌入空间。
ASEN 模型的整体结构模型由三部分组成:特征提取、属性感知的空间注意力(ASA)和感知的通道注意力(ACA)。
图 2 ASEN架构图
考虑到特定属性的特征通常与图像的特定区域有关,只需要关注某些相关区域。因此,研究者设计了 ASA 模块,该模块在特定属性的引导下定位图像中与给定属性相关的服饰部位。
尽管属性感知的空间注意力能够自适应地聚焦于图像中的特定区域,但是相同区域仍可能与多个属性相关,例如,领型设计属性和领型颜色属性都与领型周围的区域相关联。因此,研究者在 ASA 的基础上进一步设计了 ACA 模块,同样在属性的指导下捕捉与属性相关的特征元素。
特征提取模块通过卷积神经网络(convolutional neural network, CNN)提取图像特征,ASA 和 ACA 处于旁路,顺序对 CNN 提取到的特征进行条件化映射。注意力模块以额外的属性输入为引导,融合条件和图像特征,使得最终的图像特征满足需要。
ASA 采用 attention map 的方式,通过融合图像特征和属性嵌入,产生注意力权重。首先属性经过编码,通过嵌入(Embed)和复制(Duplicate)操作被映射到公共度量空间中,图像特征同样经过一步变换(1x1 conv)映射到同样的空间中。属性嵌入和图像特征经过内积运算在不同的空间位置上产生不同的相似度比较值,对不同通道上的相似度比较结果进行聚合(1x1 conv)将得到一个 attention map 用来调整原图像特征在空间域上的分布。
虽然 ACA 模块能够关注到相关的图像部位,但是对于由服饰属性定义的 high-level 的服饰概念而言,同样的部位仍然可能和多种属性相关,比如属性领型设计和领型颜色都和衣领部位相关。出于这样的考虑,研究者采用属性感知的通道注意力模块进一步在通道维度上捕捉关键的图像特征。首先属性同样被嵌入到高维空间中,其次和图像特征连接输入到连续的两个非线性的全连接层,分别进行维度缩减和维度增加 [8],产生的注意力权重对图像特征进行调整。
实验成果
研究者以在服饰场景下的细粒度相似度学习为目标,提出了 ASEN 网络和两种不同维度的注意力模块。ASEN 能够同时学习多种特定属性的嵌入空间,因而能够在相应的空间中度量细粒度的服饰图像相似度,是一种简洁有效的端到端模型。大量的定量定性实验证实了模型的有效性和可解释性。
研究者在 FashionAI、DARN、DeepFashion 数据集上进行了特定属性的服饰检索实验,在 Zappos50k 数据集上进行了三元组关联预测实验。
两种实验形式不同,但本质相同,即均要求相对于某种属性,相似服饰的距离近,不相似服饰的距离远,而属性特异的服饰检索实验对检索返回序列的要求更高。结果表明 ASEN 相对于不同的对比模型,在各种属性上均能够取得一致显著的性能提升。在属性特异的服饰检索实验中,对不同的 query 样本,设置不同的属性条件,检索出的结果计算 mean AP。表 1-3 展示了三个数据集上每个属性下的性能和平均性能。在 Zappos50k 数据集,研究者采用 [7] 的测试方式,也取得了更高的性能。
表格 1 FashionAI 数据集检索性能
表格 2 DARN 数据集检索性能
表格 3 DeepFashion attribute prediction benchmark检索性能
表格 4 Zappos50k数据集Triplet Prediction
研究者还展示了一些定性实验结果,包括在 FashionAI 数据集上的检索结果,空间注意力机制可视化结果以及属性子空间可视化结果;在 DeepFashion 数据集还进行了in-shop clothes retrieval 的 reranking 结果,显示了ASEN的潜在应用价值。
下图 3 展示了 FashionAI数据集上的 Top-8 检索结果,对属性相关部位放大展示,可以看到 V 领服饰能够检索出 V 领服饰(第一行),无袖服饰能够检索出无袖服装(第二行),而除了目标属性之外,其他特征表现出明显的多样性,例如返回服饰款式、色调、种类、背景各不相同。图4展示了对 ASA 模块进行可视化的结果模型能够定位属性所关联的部位,对于复杂的背景、模特姿势等变化具有较强的鲁棒性,最后一组图像展示了对于无法从图像中识别的属性的注意力结果。
图 3 FashionAI数据集检索结果
图 4 空间注意力模块可视化结果
研究者还对 FashionAI 数据集上的八种属性子空间进行了可视化,相同颜色的点表示图像具有相同的属性值,比如同为圆领衣服,在特定属性的嵌入空间中,具有不同颜色的点可以很好地分离而具有相同颜色的点可以更加聚集。
换句话说,具有相同属性值的图像距离较近,而具有不同属性值的图像距离较远,这说明通过 ASEN 学习的特定属性嵌入空间对于单一属性具有良好的判别性。
图 5特定属性空间的可视化结果
华棠还介绍,为了通过细粒度的服饰相似度度量提升其检索性能,最后,他们将细粒度的服饰相似度模型应用到传统的 in-shop clothes 检索任务上来。使用一般的检索模型产生初始的检索返回序列;接着利用 ASEN 模型在某种属性上的细粒度相似性对初始序列进行重排,图 5 展示了部分实验结果。对于第一个例子,研究者通过袖子长度属性对初步结果进行重新排序,短袖的图片排在了前面。很显然,在重排之后,检索的结果变得更合理。
图 6 Fashion Reranking
原文链接:https://mp.weixin.qq.com/s/R9gXP6HPL0OzFqHc4JW4PA
论文链接:https://arxiv.org/abs/2002.02814
参考文献
- Liu, Z.; Luo, P.; Qiu, S.; Wang, X.; andTang, X. 2016. Deepfashion: Powering robust clothes recognition and retrievalwith rich annotations. In CVPR, 1096–1104.
- Ak, K. E.; Lim, J. H.; Tham, J. Y.; andKassim, A. A. 2018b. Efficient multi-attribute similarity learning towardsattribute-based fashion search. In WACV, 1671–1679.
- Huang, J.; Feris, R. S.; Chen, Q.; andYan, S. 2015. Cross-domain image retrieval with a dual attribute-aware rankingnetwork. In ICCV, 1062–1070.
- Ji, X.; Wang, W.; Zhang, M.; and Yang,Y. 2017. Cross-domain image retrieval with attention modeling. In ACMMultimedia, 1654–1662.
- He, R.; Packer, C.; and McAuley, J.2016. Learning compatibility across categories for heterogeneous itemrecommendation. In ICDM, 937–942.
- Vasileva, M. I.; Plummer, B. A.; Dusad,K.; Rajpal, S.; Kumar, R.; and Forsyth, D. 2018. Learning type-aware embeddingsfor fashion compatibility. In ECCV, 390–405.
- Veit, A.; Belongie, S. J.; andKaraletsos, T. 2017. Conditional similarity networks. In CVPR, 830–838.
- Hu, J.; Shen, L.; and Sun, G. 2018.Squeeze-and-excitation networks. In CVPR, 7132–7141.