[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

论文学习:Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

论文主要工作

论文主要贡献有两点:一是提出了一个基于Transformer的交叉模式的架构模型;二是建立了一个新的3D舞蹈数据集AIST++

技术亮点

  • 使用3个Transformer同时对于音频和3Dmotion进行transform并计算二者相关程度。
  • 将平时多用于NLP的Attention Mechanism用于音频到舞蹈动作的语义转换,并使用future_N监督方式,使得动作更加连贯。
  • 建立了一个新的数据集。

核心任务:Task

[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation
输入:AIST++ 3D 舞蹈数据集(用于训练)
网络:Cross-Modal Transformer-based Network
输出:不同人物形象随着不同音乐跳舞的3D舞蹈动作序列
效果:给出一段音乐和一个短的seed motion,通过网络可以产生较长时间的3D舞蹈动作

AIST++数据集

AIST++是一个大规模的3D人体舞蹈动作数据集,包括很多种类的3D动作以及与其配对的音乐。AIST++数据集建立在未标注的多视角舞蹈数据集AIST Dance Database的基础上,作为动作生成和预测两个任务的benchmark,其也可以潜在作为2D/3D人体姿势预测的数据集。

AIST++是目前最大的人体舞蹈数据集,共有1.1M帧3D有音乐的舞蹈动作,包括基础和高级舞蹈艺术的1408个序列,涵盖了30个人物和10个流派,视频时长约为5小时。

补充:其他舞蹈数据集

  • AMASS:17.8 mins
  • Dance with Melody:94 mins
  • GrooveNet:23 mins
  • DanceNet:1h

核心网络:Transformer-based learning framework

本文的核心网络是基于Transformer的交互模式的架构,按照功能分为两个部分:

  • Deep cross-modal transformer:学习音乐和舞蹈动作之间的相关性。
  • Full-attention with future-N supervision mechanism:产生长时间的流畅动作。

Deep cross-modal transformer部分

按照不同的Transformer,我们可以把网络看作以下结构:
[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation
如图有三个Transformer:

  • Audio Transformer
  • Motion Transformer
  • Cross-Modal Transformer

Full-attention with future-N supervision mechanism部分

[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

本文的所有Transformer都采用了这种Attention结构,具体的context vector C的计算如下。

[论文学习]Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

Evaluation Metrics

  • Motion Quality:衡量动作质量。
  • Motion Diversity:衡量模型学到的一系列动作之间的多样性。
  • Motion-Music Correlation Metric:衡量模型学习到的音乐和动作的相关性。

相关工作:Baseline Method

3D Human Motion Synthesis

  • kernel-based 概率分布模拟:只能提取动作细节。
  • Motion Graph:姿势作为图节点、姿势之间的转换作为边,缺点是不能参数化。
  • RNN:动作会僵住(freeze),并且不自然。
  • Phase-functional neural networks:认为网络的weight是周期的,适用范围小。

Cross-Modal Sequence-to-Sequence Generation

交互感知多用于自然语言处理,端对端的处理不同种类的sequence,本文则是将audio到3D motion, 在该处理的过程中我们最初使用的是CNN、RNN,最近则开始使用attention mechanism。具体介绍可以戳一戳左侧链接。

Audio To Human Motion Generation

2D pose

  • optimization based
  • learning based

3D pose

  • motion graph
  • LSTMs, GANs
  • RNNs or convolutional sequence-to-sequence models
  • Li et al :网络架构相似、但只实现audio到motion的产生,会产生不真实的动作。
上一篇:LaTeX长表格自动换行(longtable)


下一篇:翻译 BMN: Boundary-Matching Network for Temporal Action Proposal Generation