买家秀视频标题生成模型 | KDD论文解读

2021-10-27 05:13:07

新零售智能引擎事业群出品

电子商务领域的视频推荐对于获取新客户有着重要作用。例如，许多消费者会在商品评论区上传视频已分享他们独特的购物体验，这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频（如广告），买家秀视频具有数量大和个性化强的优势，因此，将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。
在这种应用需求下，我们设计了买家秀视频标题自动生成模型，并从以下数据中抽取、关联和聚合有用的信息：1）买家秀视频本身。视频以动态图像的形式展现了买家偏好的商品视觉特征以及拍摄主题；2）买家撰写的评论。虽然评论有较多的噪声信息，不能直接作为视频标题呈现，但是其内容可能蕴含了买家对产品特点的偏好以及使用体验。3）关联商品的属性信息。来自商品评论区的买家秀视频会与一个特定的商品关联，我们提取了关联商品的属性信息，如中长款（连衣裙），作为输入。属性结构化的展现了商品的主要特点。接下来本文将介绍Gavotte的重要组成结构以及主要的实验和分析。
本文“Comprehensive Information Integration Modeling Framework for Video Titling”已被KDD 2020录用。

2. Gavotte: Graph based Video Title Generator

2.1 图表示

首先我们介绍一下Gavotte如何将三种输入表示成图结构。

商品视频信息：我们首先使用了Landmark Detection技术(Liu et al. 2018)检测衣服类商品的商品部位特征，每一帧的每一个部位都视为图节点。我们将同帧的商品部位节点进行全连接，不同帧相同部位节点进行全连接，这种连接方式一方面有利于我们捕捉同帧商品部位间的交互和商品整体风格，另一方面能够捕捉每一个商品部位跨越时间线的动态变化以及不同视点（pointview）下对商品部位的全面感知。为了增强空间-时序视觉商品部位图的时序性和部位特点，我们给每一个节点都加上了位置嵌入（Position Embedding）(Jonas et al. 2017)和类型嵌入（Type Embedding），即最终的节点表征为：
视频评论信息：我们将评论中的每一个词作为图节点，并将有语法依赖关系的节点进行连接，我们发现相比于时序关系，捕捉评论中和商品有关的语义信息对生成标题更有价值。
关联商品的属性信息：我们将每一个属性值（如白色）作为图节点，并对所有节点进行全连接，属性间本身没有时序关系，使用图建模可以更好的探索属性间的特殊交互作用。

2.2 细粒度交互建模

如上图所示，细粒度交互建模对三个异构图的图内关系（Intra-Actions in Graph）和图间关系（Inter-Actions across Graphs）进行了建模。

图内关系建模注重和商品有关的细粒度特征的识别。我们采用了常用而有效的图神经网络作为图内关系建模的可训练框架结构，和最原始的图神经网络相比，本文对信息传播时的根节点和邻居节点进行了单独建模，并采用了自门控机制（Self Gating）。
图间关系建模注重异构图之间商品有关细粒度特征的关联和聚合。根据其实际的物理意义，我们将图间关系建模模块称为全局-局部聚合模块（Global-Local Aggregation，GLA）。GLA包含全局门控访问（Global Gated Access）和局部注意（Local Attention）两个子模块。GLA的输入为查询图（Query Graph）和上下文图（Context Graph），输出的聚合图（Aggregated Graph）的结构与查询图一致。
全局门控访问用来加强上下文图中与查询图全局相关的信息（可以视为初步筛选过程），并抑制毫不相关的信息。

局部注意力机制在局部层面（节点级别）筛选上下文图中和查询图节点相关的内容并聚合到该查询图节点上。

2.3 故事线摘要模块

故事线摘要建模关注帧级别和视频级别的信息，因此采用帧特征和RNN来进行序列建模。首先我们利用全局-局部模块将细粒度信息和帧信息进行信息融合。这是因为我们发现视频帧建模（如商品-背景交互）和视频建模（如视频故事主题）和商品的细节特点息息相关。

之后我们采用RNN对视频帧进行序列建模。

2.4 解码器

在解码器部分我们采用常用的注意力增强的RNN结构(Li et al. 2015)，我们在每一步解码阶段都会关注细粒度图信息和帧信息。

2.5 学习目标

我们采用了常用的交叉熵损失进行训练。

我们发现对于视频标题的生成，重复词的出现总是有损视频标题的整体吸引程度，因此我们参考了文本摘要(See et al. 2017)中常用的注意力覆盖损失，并提出了生成覆盖损失，用以惩罚和抑制重复词的生成。

3. 实验和分析

我们摘选了主要的实验结果

可以看到，我们的模型在两个淘宝商品数据集（T-VTD服饰类商品数据，和其他商品类别数据）上去得了最佳的效果。我们的模型在T-VTD上提升显著，在其他商品类别数据上提升会相对弱一些，但这是合理的结果，因为服饰类商品有良好的商品部位定义，我们在其他类别上采用了近似的方法（细节可关注论文）。

该图展示了Gavotte和其他两个典型模型（基于RNN的SOTA模型 M-Recnet (Wang et al. 2018)，和基于Transformer的SOTA模型 M-Livebot (Ma et al. 2019)）的生成案例对比。具体而言，第一个案例中M-Recnet生成标题有意义信息较少，第二个案例中M-LiveBot生成标题出现未完成和损坏的情况，Gavotte则生成了网络热词（如出街、抢镜），生成句子更为流畅，更有吸引力。同时，Gavotte可以识别商品细节级别信息（如破洞），商品级别信息（如牛仔裤），商品与背景交互信息（如出街抢镜）和视频级别故事情节信息（如这样穿）。

4. 结果与展望

在这次分享中，我们介绍了买家秀视频标题生成模型，Gavotte，以为推荐场景下的买家秀视频自动配上有吸引力的标题。实验证明Gavotte在生成质量上相比一般性的视频描述生成方法取得了显著的提升，并在案例分析中能够捕捉商品细节、商品整体、商品-背景交互和视频故事情节信息。
5. 参考文献
Liu, Jingyuan, and Hong Lu. "Deep fashion analysis with feature map upsampling and landmark-driven attention." In Proceedings of the European Conference on Computer Vision (ECCV), pp. 0-0. 2018.
Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1243-1252. JMLR. org, 2017.
Yao, Li, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, and Aaron Courville. "Describing videos by exploiting temporal structure." In Proceedings of the IEEE international conference on computer vision, pp. 4507-4515. 2015.
Abigail See, Peter J. Liu, Christopher D. Manning. "Get To The Point: Summarization with Pointer-Generator Networks". ACL (1), pp. 1073-1083. 2017.
Wang, Bairui, Lin Ma, Wei Zhang, and Wei Liu. "Reconstruction network for video captioning." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7622-7631. 2018.
Ma, Shuming, Lei Cui, Damai Dai, Furu Wei, and Xu Sun. "Livebot: Generating live video comments based on visual and textual contexts." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 6810-6817. 2019.

更多数据挖掘领域内容请查看：《KDD精华论文解读》

码农公寓