WAVENET-语音合成

1 简介

本文根据2016年《WAVENET: A GENERATIVE MODEL FOR RAW AUDIO》翻译总结的。用于语音合成的。WAVENET比参数和连接系统表现好。

本文由如下贡献:
1)我们显示WaveNets可以生成主观自然的语音,这在text-to-speech (TTS)领域尚未报道过。
2)为了处理语音生成中长范围的时间依赖,我们发展了一个新架构,其基于扩大的因果卷积(dilated causal convolutions),可以拥有非常大的感受域。
3)当加上说话者的条件,一个单独模型可以用来生成不同的声音。

2 WaveNets

WaveNets基于 PixelCNN结构。

WAVENET-语音合成

2.1 dilated causal convolutions

WaveNets的主要成分是因果卷积,因果卷积(causal convolutions)如下图,每一个时间下的样本不依赖于未来的信息:

WAVENET-语音合成

扩大的因果卷积如下图,增加了感受视野:
WAVENET-语音合成

2.2 CONDITIONAL WAVENETS

增加了输入条件h,包括两种,全局的(如说话者的身份)或者本地的(语言特征)。
上面的公式1就变成下面的了:

WAVENET-语音合成

3 实验

我们进行3个任务:多说话者语音生成(不是基于文本)、TTS、音乐声音建模。

TTS的实验结果如下:
为了完成平均意见得分(mean opinion score,MOS),要大量听众来评估通过通讯电路由男性和女性说话人大声朗读句子的质量。听众按以下标准给每个句子打分:(1)很差(2)差 (3)一般 (4)好 (5)很好。MOS是所有个人打分的算术方法,范围从1(最差)到5(最好)。

WAVENET-语音合成

上一篇:如果获取谷歌翻译的音频文件


下一篇:Google tts语音安装步骤详解