DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

[ICASSP 2021]

Motivation

单通道语音增强有两个实际问题尚未得到解决。首先,很难在增强质量和计算效率之间取得平衡,而低延迟总是会带来质量的损失。其次,在特定场景下的增强,如唱歌和情感言语,也是传统方法中的一个复杂问题。本文提出了一种计算效率高的具有密集连接的多级结构的实时语音增强网络,它逐步增强了通道级的子带语音。

Method

A 子带分解与重构

DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

在频域内进行子带分解,如图2所示。我们使用短时间傅里叶变换(STFT)将有噪声的波形X变换为频域上的特征。然后沿频率轴的滑动窗口将全波段谱图分割成子带谱图,其带宽为滑动窗口的大小,相邻波段重叠50%。在信号重建阶段,使用OLA方法恢复全波段谱图,然后使用逆STFT恢复波形。

B 渐进网络

渐进网络不是使用深度和复杂的交互网络来增强语音,而是在多个阶段中解决这个问题,在每个阶段都部署一个浅层子网络。多级子网络紧密连接,将语音从粗增强到细,如图1所示。

DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

第i阶段的过程可以表述为:

DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

 其中Si是第i阶段的估计语音。Xi是阶段i的输入,它由连接的所有之前阶段的估计和混合语音X1组成。各级的输出为IRM,它乘以混合物X1得到估计的语音Sˆi。

C 网络结构

DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

每个阶段都是一个卷积递归神经模块(CRM),如图4所示,它改编自卷积递归神经网络,以浅层结构和通道级子带特征作为输入和输出。CRM结合了一个卷积编码器-解码器(CED)和一个长短期记忆网络(LSTM)。CRM中的编码器和解码器分别由四个卷积块和反卷积块组成。残差连接,将一个编码器块链接到其相应的解码器块。每个卷积块由一个卷积层、一个批归一化(BN)层和一个参数整流线性单元(PReLU)组成。例外情况下,BN和非线性激活不使用。编码器和解码器的通道分别为(32,64,64,128)和(128,64,64,32)。我们将通道子带的实分量和虚分量作为模型的输入,得到2*7=14通道的输入特征。输入通过卷积编码器和LSTM层,然后输入两个独立的解码器,以预测复杂理想比掩模(cIRM)的实部和虚部。值得注意的是,cIRM的实部和虚部的范围为(−1,1)。

实验步骤

我们在dns-挑战中提供的数据集上评估了所提出的系统。干净的演讲包括三个子集:(1)大约1000小时的自然语音,(2)10小时的歌声,(3)7442个情感演讲的音频片段。噪声数据集包括大约150个音频和60,000个剪辑。所有的波形都在16kHz处重新采样。训练对是由随机信噪比在-5到20dB之间的噪声和语音动态混合生成的。我们采用了以下数据增强策略:

•说话的音高会改变。概率为0.2,随机用原始样本率的±25%的重采样。

•语音和噪声时间拉伸。概率为0.1,使用一个范围内的随机速率(0.5,1.5)来调整速度。

•演讲剪辑。概率为0.1,峰值在0.8到1之间随机剪切。

•语音低通滤波。概率为0.1,在3.5-4.5kHz之间应用低通滤波器。

•语音音量缩放。概率为1,在-20~0dB之间放大,全尺度为1.0。

实验结果

DENSELY CONNECTED MULTI-STAGE MODEL WITH CHANNEL WISE SUBBANDFEATURE FOR REAL-TIME SPEECH ENHANCEME

表中显示了前三名队伍的得分和挑战的基线。其中DMOS表示处理后的语音和噪声语音的MOS差异。这两支排名最高的队伍的表现都优于基准的Nsnet2。此外,此系统在唱歌和情感数据方面比其他系统表现得更好。相应的结果证明了对歌唱和情绪数据集的微调的有效性。

总结

在本研究中,提出了一种密集连接的多阶段语音增强网络,其计算效率高,延迟较低。子带分解减少了高频损伤,渐进式策略在减少失真的情况下获得了优越的去噪性能。此外,所有的中间结果都受到前面各个阶段的监督。该策略有利于稳定训练,加速收敛。

2022.2.25

上一篇:HTTP协议—x-forwarded-for&x-real-ip


下一篇:Python——字典操作