文章目录
介绍
本门课程是2020年李宏毅老师新课:Deep Learning for Human Language Processing(深度学习与人类语言处理)
课程网站
B站视频
公式输入请参考:在线Latex公式
上节课提到了李宏毅老师团队做的一个Mockingjay模型,在Mockingjay的后继工作有三个模型,上节课讲了一个,这节课讲剩下两个。
AALBERT. BY 纪伯翰
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation
Recap: ALBERT
是BERT的轻量化版本,用更少的参数来达到BERT的效果。主要有如下三点:
Factorize Embedding Matrix
Share Parameters across layer
Model Configuration between BERT
Factorize Embedding Matrix
参数减少,主要体现在:
Original BERT:
30000 x 768 = 23.04M
ALBERT:
30000 x128 = 3.8M
128 x 768 = 0.098M
Total: 3.898M
原始的BERT的词表大小是3W,每个词向量维度是768.
ALBERT先将768的输入降维到128,在进行计算时,先加一个投影层(简单的linear的变换),把128还原回768大小,这样做可以节省很多内存。
Share Parameters across layer
原始的BERT有12层transformer,参数都不一样。
ALBERT则把这12层transformer改为一个,然后loop 12次。这样做表现也没掉太多。这个是减少参数最大的地方。
Model Configuration between BERT
ALBERT提供了四种模型选择。下表中可以看到不同模型在设置上有什么不一样的地方。
二者在几个下游任务的表现:
这里虽然ALBERT看上去,它的xxlarge模型效果不错,而且参数量也没有BERT的large多,但是它的hidden layer维度很大,是4096,因此它的速度是要慢不少的。
AALBERT
先把AALBERT和ALBERT做一下比较:
ALBERT的输入带有Mask的句子,而AALBERT则是Mask的Mel Spectrogram。
与mockingjay的比较:
可以看到,在参数共享上二者有不同
预训练阶段,二者都是用mask过的mel spetrogram进行训练,得到结果经过最后那个黄色的predict head,得到的结果和groud truth进行L1 norm loss。
LibriSpeech 360 hours dataset, 500k step, batch size 48.
下面看下下游任务的效果:
Phoneme Classification
有两个场景:
Weighted-sum and fine-tune feature extraction
前者是将每一层设置一个权重,然后学习这个权重,每层的参数不变,最后将每层的结果加权求和做平均得到最后的表征。
后者是将下图中蓝色的部分的参数进行finetune
其实和mockingjay套路一样
分类器描述:Utilizing MLP classifier behind representation to train phoneme classification task.
结果:
不同训练数据量的实验
Speaker Identification
也有两种场景:
Utterance-level
Frame-level
前者:
一段声音信号经过模型会抽取得到一排vector,然后再对这一排vector应用一个mean pooling,合成一个vector,然经过linear classifier进行分类。
Utilizing mean pooling over an utterance to generate utterance-level representation.
Simple linear classifier need to train in the Utterance-level speaker identification
后者:
Classify Each frame-level representation to corresponding speaker.
Simple linear Classifier need to train in the frame-level speaker identification
不对抽取出来的vector做pooling操作,而是每个vector都做一次分类操作。
Overall Performance
Self-attentions By 杨书文
这一节主要是讲用Self-attention来训练reconstruction loss的原理,里面有很多可视化的内容,我就不写太细了,涉及到很多图。因为传统的attention任务中往往是有指定某个attention的对象,例如分辨男女,那么attention可能会关注声音频率,但是在BERT里面,并没有指明什么任务,直接用的是reconstruction loss为目标进行训练的,那么这样训练出来的模型attention到底是什么样子呢?
最后结论如下,全局attention还在研究中。