语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Self-Supervised Learning for speech recognition with Intermediate layer supervision

本文为南开大学和微软在2021.12.16更新的文章,主要做语音识别中Self-Supervised Learning工作,具体的文章链接

https://arxiv.org/pdf/2112.08778.pdf


(本文的思想还是挺有趣~)

1 研究背景

语音领域的模型训练都需要大量的标注数据,其时间和成本开销十分昂贵,因此无监督学习在语音领域逐渐成为​热点。目前,众所周知的语音无监督学习包括wav2vec 2.0 和 HuBERT等等,其工作主要对语音进行​表征学习。本文强调语音模型的网络层次学习的特征都是不同,比如较低层主要学习“说话者”特征相关信息,中层和较高层学习"内容“相关的​特征。而一个模型可以容纳的学习内容量受限,因此本文提出Intermediate Layer Supervision for Self-Supervised Learning (ILS-SSL)的方法,从而使模型牺牲“说话者”特征的学习而容纳更多的”内容“相关的特征​。该方案使训练的模型在诸如ASR等内容相关任务表现提升,但在说话人识别等说话人相关的任务​性能下降。

2 详细设计

本文主要在HuBERT上进行的优化设计,因此我们先简单了解HuBERT​的工作原理。HuBERT发表2021.06.14更新的Self-Supervised Learning语音模型,其主要架构如下图1所示(我在HuBERT文章上进行截取)​。该模型训练主要分为两步:第一,先使用k-means算法对声学特征MFCC进行聚类,比如把k设置100​,然后开始训练一下模型​;第二,等上一步训练到一定步数,我们把transfomer的输出代替MFCC进行k-means的聚类,此时k=600,然后训练模型​。

语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

接下来看一下本文的优化方案。文章首先强调模型的容纳信息量都是一定量,为了使模型在语音识别等任务提升,应该增加模型的“内容”信息量,因此提出以下的方案intermediate Layer Supervision for Self-Supervised Learning (ILS-SSL),其主要在中低层任意选择层加入到loss中,从而使较底层学习更多了“内容”特征​。其它的训练步骤跟HuBERT​相同。

语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

3 实验

本文实验模型base model (95M  parameters)使用960-hour LibriSpeech corpus ,big model (300M  parameters)使用60,000-hour unlabeled audio from LibriLight。微调阶段使用以下数据 Libri-light 1 hour, 10 hour splits , LibriSpeech train-clean-100 subset and LibriSpeech 960-hour full dataset. Table 1为base model上的结果,在有无语言模型情况下,本文的ILS_SSL方案的识别WER都是最低​。table 2是在big model 上结果亦是如此​。图2为每层特征相关性,可知本文的方案在较低层高于HuBERT​。table3验证在说话人相关任务和内容相关任务的表现。其任务包括 Speaker Identification (SID), Automatic Speaker Verification (ASV), Speaker Diarization (SD), Phoneme Recognition (PR), Automatic Speech Recognition (ASR), Keyword Spotting (KS), Query by Example Spoken Term Detection (QbE), Intent Classification (IC), Slot Filling (SF), Emotion Recognition (ER). 由结果可知,内容相关的任务性能得到提升,​说话者相关的性能有所下降。table4和table5对本文的其它设计进行​对比试验。

语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi

4 总结

​本文主要做语音识别中Self-Supervised Learning工作,通过增加intermediate Layer Supervision for Self-Supervised Learning (ILS-SSL)来使模型学习更多关于“内容”信息,从而提高语音识别的性能​。

上一篇:强化学习论文阅读——免模型强化学习


下一篇:【论文笔记】DeepWalk: Online Learning of Social Representations(更新中)