论文阅读:META LEARNING FOR END-TO-END LOW-RESOURCE SPEECH RECOGNITION
下载链接:https://arxiv.org/abs/1910.12094
主要思想:
本篇文章的主要思想是利用meta learning实现低资源的ASR。
meta learning: learn to learn。主要是获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务。
具体可以参考这篇文章,讲的非常的详细:https://zhuanlan.zhihu.com/p/136975128
另外也可以参考李宏毅的视频:https://www.bilibili.com/video/BV1Gb411n7dE?p=36
模型主要结构:
1、本文还是采取常用的CTC LOSS优化模型,只是在训练是采用 MAML(model-agnostic meta learning algorithm)
【MAML:其主要思想是获得一个可以使得模型在不同的类别上都能取得很好表现的初始化参数,获得足够强的泛化能力,从而面对新的、从未见过的task时,通过fine-tune就可以快速拟合】
主要过程是:将训练任务分为多个task,每个task都有自己的train set 和 test set,首先初始化一个参数,然后随机抽取n个task,分别进行一次训练,然后得到训练后的参数。然后计算模型的loss,最后将n个task的loss求和,再用gradient descent 进行更新,用来对参数进行更新。以此往复。具体可以参考:https://zhuanlan.zhihu.com/p/114184963
2、所以的模型共用encoder(本文采用的是VGG +bi-LSTM),然后采用不同的模型使用language specific heads,最后连接CTC LOSS。具体的模型结果如下:
思考:
MAML的要求是所有的task都有使用想同的模型结构,本文提出的language specific heads没太理解其含义,本文提出了6种语言作为pre-training,是每种语言连接的language specific heads都不一样吗?那4种target language后面是怎么训练的呢??