论文:
Neural Speech Synthesis with Transformer Network
摘要:
尽管端到端神经网络text-to-speech Tacotron2实现了state of the art performance 表现,但存在两个问题,1.在训练和推理过程的低效率,2. 难以使用当前的递归神经网络(RNN)对长期依赖性进行建模。于是引用transformer中的多头注意力机制代替RNN,Transformer的语音合成模型比tacotron2快4.25倍,而在评分上只与tacotron2相差0.048
引言:
在过去的几十年中,级联和参数语音合成系统是主流技术。但是传统语音合成很复杂,需要很多的资源,并且合成的声音听起来不自然。近些年,语音合成涌现了Tacotron[1],Tacotron2[2](ps:都是由文本产生mel spectrograms),然后通过Griffin Lim algorithm[3]或者WaveNet[4]声码器转换成声音
模型:
Tacotron2:
3-layer CNN 提取更长期的内容信息,encoder: BLSTM ,decoder pre-net :两层全连接层,和之前的内容向量连接起来进入2层LSTM,预测mel spectrograms,和停止标志,最后,预测的mel spectrogram进去5层的残差连接CNN去调整mel spectrogram
与基于RNN的模型相比,在神经TTS中使用Transformer具有两个优点。 首先,由于可以并行提供解码器的输入序列帧,因此它可以通过消除循环连接来进行并行训练。 第二个原因是,自我关注为将整个序列的全局上下文注入每个输入帧提供了机会,从而直接建立了长期依赖关系。 变压器缩短了前进和后退信号在输入和输出序列中的任意位置组合之间穿越的路径的长度,降低到1。这在神经TTS模型中有很大帮助,例如合成大小波的韵律 它不仅取决于周围的几个单词,还取决于句子级别的语义。
Tansformer-TTS
在Tacotron2中3层CNN用于输入text提取更长的信息,在Transformer-TTS中利用Encoder-Prenet :512dims
Decoder Pre-net:2 层全连接层,每层256个单元,使用RELU激活函数,
decoder prenet 将mel谱投影到与音素相同的子空间中
Decoder,Encoder层都使用Transformer中的多头注意力机制,FFN模块,
与Tacotron2一样,我们使用两种不同的线性投影分别对mel谱图和停止标记进行预测,并使用5层CNN产生一个残差来对mel谱图进行重新重构。
实验部分
Tacotron2使用字符序列作为输入,而我们的模型是在预先归一化的音素序列上训练的。单词和音节边界,标点符号也作为特殊标记包括在内。 获得训练音素序列的过程管道包括句子分离,文本规范化,分词和最终获得发音。 通过文本到音素的转换,大大减少了发音错误的问题,尤其是对于那些在我们的培训中很少发生的发音。
MOS(mean option score)
Those MOS tests are rigorous and reliable, aseach audio is listened to by at least 20 testers, who are all native English speakers(compar-ing to Tacotron2’s 8 testers in Shen et al. (2017)), and each tester listens less than 30 audios.
结论
即使thought Transformer实现了并行训练,自回归模型仍存在推理缓慢和探索偏倚两个问题。慢速推理是由于对当前帧进行推理时存在前一帧的依赖关系,从而使推理具有顺序性,而自回归误差累积导致爆炸偏倚。我们可以通过建立一个非自回归模型来解决这两个问题,这也是我们目前的研究进展
参考文献:
- Wang, Y.; Skerry-Ryan, R.; Stanton, D.;Wu, Y.; Weiss, R. J.; Jaitly, N.; Yang, Z.; Xiao, Y.; Chen,Z.; Bengio, S.; et al. 2017. Tacotron: A fully end-to-endtext-to-speech synthesis model.arXiv preprint
- Shen, J.; Pang, R.; Weiss, R. J.; Schuster,M.; Jaitly, N.; Yang, Z.; Chen, Z.; Zhang, Y.; Wang, Y.;Skerry-Ryan, R.; et al. 2017. Natural tts synthesis by con-ditioning wavenet on mel spectrogram predictions.arXivpreprint arXiv:1712.05884
- Signal estimation from modified short-time fourier transform.IEEE Transactions on Acoustics, Speech, and Signal Pro-cessing32(2):236–243.
- Parallel wavenet: Fast high-fidelity speech synthesis.arXivpreprint arXiv:1711.10433.