李宏毅DLHLP.26.Audio BERT.2/2

文章目录

介绍

本门课程是2020年李宏毅老师新课:Deep Learning for Human Language Processing(深度学习与人类语言处理)
课程网站
B站视频
公式输入请参考:在线Latex公式
上节课提到了李宏毅老师团队做的一个Mockingjay模型,在Mockingjay的后继工作有三个模型,上节课讲了一个,这节课讲剩下两个。

AALBERT. BY 纪伯翰

Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation

Recap: ALBERT

是BERT的轻量化版本,用更少的参数来达到BERT的效果。主要有如下三点:
Factorize Embedding Matrix
Share Parameters across layer
Model Configuration between BERT

Factorize Embedding Matrix

参数减少,主要体现在:
Original BERT:
30000 x 768 = 23.04M

ALBERT:
30000 x128 = 3.8M
128 x 768 = 0.098M
Total: 3.898M
原始的BERT的词表大小是3W,每个词向量维度是768.
ALBERT先将768的输入降维到128,在进行计算时,先加一个投影层(简单的linear的变换),把128还原回768大小,这样做可以节省很多内存。
李宏毅DLHLP.26.Audio BERT.2/2

Share Parameters across layer

原始的BERT有12层transformer,参数都不一样。
ALBERT则把这12层transformer改为一个,然后loop 12次。这样做表现也没掉太多。这个是减少参数最大的地方。
李宏毅DLHLP.26.Audio BERT.2/2

Model Configuration between BERT

ALBERT提供了四种模型选择。下表中可以看到不同模型在设置上有什么不一样的地方。
李宏毅DLHLP.26.Audio BERT.2/2
二者在几个下游任务的表现:
李宏毅DLHLP.26.Audio BERT.2/2
这里虽然ALBERT看上去,它的xxlarge模型效果不错,而且参数量也没有BERT的large多,但是它的hidden layer维度很大,是4096,因此它的速度是要慢不少的。

AALBERT

先把AALBERT和ALBERT做一下比较:
李宏毅DLHLP.26.Audio BERT.2/2
ALBERT的输入带有Mask的句子,而AALBERT则是Mask的Mel Spectrogram。
与mockingjay的比较:
李宏毅DLHLP.26.Audio BERT.2/2
可以看到,在参数共享上二者有不同
李宏毅DLHLP.26.Audio BERT.2/2
预训练阶段,二者都是用mask过的mel spetrogram进行训练,得到结果经过最后那个黄色的predict head,得到的结果和groud truth进行L1 norm loss。
LibriSpeech 360 hours dataset, 500k step, batch size 48.
下面看下下游任务的效果:

Phoneme Classification

有两个场景:
Weighted-sum and fine-tune feature extraction
前者是将每一层设置一个权重,然后学习这个权重,每层的参数不变,最后将每层的结果加权求和做平均得到最后的表征。
李宏毅DLHLP.26.Audio BERT.2/2
后者是将下图中蓝色的部分的参数进行finetune
李宏毅DLHLP.26.Audio BERT.2/2
其实和mockingjay套路一样
分类器描述:Utilizing MLP classifier behind representation to train phoneme classification task.
结果:
李宏毅DLHLP.26.Audio BERT.2/2
不同训练数据量的实验
李宏毅DLHLP.26.Audio BERT.2/2

Speaker Identification

也有两种场景:
Utterance-level
Frame-level
前者:
一段声音信号经过模型会抽取得到一排vector,然后再对这一排vector应用一个mean pooling,合成一个vector,然经过linear classifier进行分类。
Utilizing mean pooling over an utterance to generate utterance-level representation.
Simple linear classifier need to train in the Utterance-level speaker identification

李宏毅DLHLP.26.Audio BERT.2/2
后者:
Classify Each frame-level representation to corresponding speaker.
Simple linear Classifier need to train in the frame-level speaker identification
不对抽取出来的vector做pooling操作,而是每个vector都做一次分类操作。

Overall Performance
李宏毅DLHLP.26.Audio BERT.2/2

Self-attentions By 杨书文

这一节主要是讲用Self-attention来训练reconstruction loss的原理,里面有很多可视化的内容,我就不写太细了,涉及到很多图。因为传统的attention任务中往往是有指定某个attention的对象,例如分辨男女,那么attention可能会关注声音频率,但是在BERT里面,并没有指明什么任务,直接用的是reconstruction loss为目标进行训练的,那么这样训练出来的模型attention到底是什么样子呢?

李宏毅DLHLP.26.Audio BERT.2/2
最后结论如下,全局attention还在研究中。
李宏毅DLHLP.26.Audio BERT.2/2

上一篇:关于USB Audio枚举失败的解决方法


下一篇:Android10.0(Q) 实现通话中播放音乐/通话背景音(答录机/魔音功能)