语音合成论文优:开源数据Hi-Fi Multi-Speaker English TTS Dataset

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


Hi-Fi Multi-Speaker English TTS Dataset

本文是NVIDIA在2021.04.03更新的文章,主要为促进tts的multi-speaker的研究,对LibriVox进行处理,获取11speakers的300小时的训练语料,具体文章链接

https://arxiv.org/pdf/2104.01497.pdf

(数据还没放出来,先做个笔记吧)


内容摘要:

本文提到现有的开源TTS数据中高质量的数据很少,因此本文设计了一个新的数据集HI-Fi TTS。table 1展示了目前开源的数据集情况。为了获取高质量的音频和文本,本文制定以下的准则,较高的信噪比,而且text的必须完全正确。另外图1展示了音频质量好坏的图谱。经过一番努力获取了HI-FI tts,具体的数据情况如table2所示,其数据时长分布为图3所示。

语音合成论文优:开源数据Hi-Fi Multi-Speaker English TTS Dataset

语音合成论文优:开源数据Hi-Fi Multi-Speaker English TTS Dataset

语音合成论文优:开源数据Hi-Fi Multi-Speaker English TTS Dataset

 

 

语音合成论文优:开源数据Hi-Fi Multi-Speaker English TTS Dataset

语音合成论文优:开源数据Hi-Fi Multi-Speaker English TTS Dataset

 

上一篇:【论文学习笔记】《Voice Transformer Network》


下一篇:Delphi - OLE类实现TTS方式语音朗读