论文笔记1:Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

Kaleido-BERT 引入了一种新颖的 kaleido 策略,基于transformer的时尚领域跨模态表示。同时设计了一种 alignment guided masking 策略,使模型更加关注图像-文本之间的语义关系。模型采用 NLP 中标准的 transformer 结构,以此来保证 Kaleido-BERT 的可扩展性。它在包括文本检索(R@l:4.03%),图像检索(R@l:7.13%),类别识别(ACC:3.28%),时尚字幕(Bleu:1.2)在内的四个下游任务上以大比分获得了最先进的结果。

一、模型结构

论文笔记1:Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

模型主要由五个部分组成:

  1. KPG(Kaleido Patches Generator):KPG生成文本和图像补丁作为 Kaleido-BERT 的输入,文本被表示成一个 tokens 序列,图像被表示成一个 kaleido 补丁序列。
  2. AAG(Attention-based Alignment Generator):AAG 的作用是在 text tokens 和kaleido patches 之间产生一个预对齐,使得二者能够在语义上精确对齐。
  3. AGM(Alignment Guided Masking):与现有的随机掩蔽策略不同,文章提出的 AGM 策略来缓解跨模态建模的困难。
  4. text tokens 和 Kaleido patches 在 Kaleido-BERT 中充分交互,逐渐学习 VL 语义信息并产生跨模态的细粒度表示。
  5. 最后,除了掩码语言建模和图文匹配任务之外,文章还采用了五个新的 kaleido 任务(即旋转、拼图、伪装标记、灰色到彩色和空白到彩色任务)来监督网络。

二、KPG

论文笔记1:Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

通过 KPG 将输入图像转换为多粒度补丁。首先通过一个显著性检测网络来获取前景掩码,让后锁定主要对象。然后将图片在不同尺度上进行划分,这些按不同尺度划分的块被称为 kaleido patches 。最终得到55个 kaleido patches 。最后通过一个标准的 ResNet-50 来生成这些 patches 的embeddings。

三、AAG

论文笔记1:Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

AAG 旨在找到 text tokens 和 kaleido patches 之间的粗对齐。文章直接采用了著名的 SAT 网络作为文本生成器,它自动学习描述图像的内容,同时为每个 token 生成注意力热图。利用生成的 tokens 和原始 text tokens 的共现,以及 image regions 和 kaleido patches 的重叠区域,进一步构建了原始 text tokens 和 kaleido pathes 之间的对齐。

四、AGM

论文笔记1:Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

由于 pre-aligned <token, patch> pair 提供了两种模态之间显式的语义关系,这种对齐关系可以在预训练阶段迫使 Kaleido-BERT 更明确的探索跨模态语义信息。不同于随机 masking 策略,AGM 优先 masking pre-alignment pair 。对于每一个被选定的 pre-alignment <token, patch> pair,随机 mask token或者 patch。这会刺激 Kaleido-BERT 通过被给定的模态信息去学习另一种模态信息。

当遍历所有的 pre-alignment pairs 并且没有足够的 tokens 或 patches 被选择时,采用随机 mask 策略来独立 mask 未对齐的 tokens 和 patches。 通过这种方式,获得了 tokens 和 patches 掩码候选。

AGM 策略适用于 Kaleido patches 的 3 级、4 级、5 级。 不在1、2级上应用这个策略,在大的 patches 上应用这个策略会加大建模的难度。文章在3级 mask 一个 patch,在4级 mask 两个 patches, 在5级 mask 三个 patches。

五、跨模态 Transformer

文章采用原始 BERT 模型,作为跨模态 Transformer,以此来使 Kaleido-BERT 可以更容易被扩展。

  1. text side

    依据 Fashion-BERT 去编码 token position 序列为0, 1, 2, 3, . . . , N,最终训练语料库的每一个 sub-word token是将它本身的 embedding 和segment embedding 以及 position embedding 进行求和得到的,然后通过一个 layer normalization 层。

  2. image side

    通过将位置信息将每个补丁重组为 5D 特征([x1, x2, y1, y2, w*h])来编码位置信息。之后,补丁和位置特征都被送入全连接层,以便将它们投影到相同的嵌入空间中。 通过求和三个 FC 的输出(即 FC(seg_id)、FC(img_feature)、FC(pos_emb))然后将它们通过 LN 层来获得每个补丁的视觉嵌入。

六、AKPM

AKPM(Aligned Kaleido Patch Modeling):文章提出了五个 kaleido 子任务,分别为:

  1. 旋转识别
  2. 拼图解迷
  3. 伪装预测
  4. 灰色到彩色建模
  5. 空白到彩色建模

论文笔记1:Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

上一篇:Practical Training JQuery-JS中阻止冒泡事件的三种方法


下一篇:画出训练过程随时期(Epoch)的变化曲线