在进行说话人编码模型训练的时候,我们常常需要对已有的声音进行声音的增强处理,该增强包括对声音进行加噪、加背景人声、加混响以及加一些背景音乐,以此来帮助增强训练模型的数据,从而使得所获得的模型更加的鲁棒。
本文介绍使用现在流行的数据集(musan以及rirs)对声音文件进行增强。
目录
数据集下载
musan数据集可以在此下载:https://www.openslr.org/resources/17/musan.tar.gz
使用wget下载:
wget https://www.openslr.org/resources/17/musan.tar.gz
rirs数据集可以在此下载:https://www.openslr.org/resources/28/rirs_noises.zip
使用wget下载:
wget https://www.openslr.org/resources/28/rirs_noises.zip
数据预处理
为了加快训练的速度,我们可以对下载的musan声音数据集进行采样,以此来直接使用噪声文件,具体