INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

Abstract & Introduction & Related Work

  • 研究任务
    自动音频字幕
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    1. 本文首先提出了一个音频描述的主题模型
  • 实验结论
    发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键

提出下面两种语音主题模型:

  1. 局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述
  2. 全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心”),和抽象的描述(“在远处”)。(b) 高层抽象,包括内容推断(“在一个会议上”),和情感表达(“恼人”)

TRANSFER LEARNING FOR AAC

我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入(CNN)或时间信息(CRNN)是否对AAC性能有更大的影响

AT 提供详细的音频事件信息,而ASC旨在 描绘出环境的特征
INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

AAC Model Architecture

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

Audio encoder

十层CNN来做audio tagging
五层CRNN来做声音事件检测

Text decoder

隐藏状态h,WE表示word embedding
INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING
c n c_n cn​由embedding sequence跟前一秒的隐藏状态 h n − 1 h_{n-1} hn−1​做注意力之后的总和得到
INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

EXPERIMENTAL SETUP

Datasets

  1. AudioSet
  2. DCASE
  3. Clotho
  4. Audiocaps

System configuration

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

RESULTS AND DISCUSSION

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING
实验结果表明局部声音主题比全局信息更重要

CONCLUSION

据观察,局部信息(AT)和抽象嵌入(CNN10)对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法,以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型,例如,分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模,同时对高级知识注入抽象

Remark

一个简单清晰又work的框架,用了迁移学习,总体还不错

上一篇:css3基础---transform(3D变形)


下一篇:电力市场术语