INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

2023-10-27 21:04:58

Abstract & Introduction & Related Work

提出下面两种语音主题模型：

局部音频主题。(a) 声音事件，可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述
全局音频主题。(a) 声音场景，如准确的场景位置描述（“市中心”），和抽象的描述（“在远处”）。(b) 高层抽象，包括内容推断（“在一个会议上”），和情感表达（“恼人”）

我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入（CNN）或时间信息（CRNN）是否对AAC性能有更大的影响

AT 提供详细的音频事件信息，而ASC旨在描绘出环境的特征

十层CNN来做audio tagging
五层CRNN来做声音事件检测

隐藏状态h，WE表示word embedding

c n c_n cn由embedding sequence跟前一秒的隐藏状态 h n − 1 h_{n-1} hn−1做注意力之后的总和得到

实验结果表明局部声音主题比全局信息更重要

据观察，局部信息（AT）和抽象嵌入（CNN10）对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法，以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型，例如，分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模，同时对高级知识注入抽象

一个简单清晰又work的框架，用了迁移学习，总体还不错