【WangDeLiangOverview2018】
Supervised Speech Separation Based on Deep Learning: An Overview
DeLiang Wang / Jitong Chen @ Ohio
IEEE/ACM Trans. ASLP2018
【目录】
1. 引入
2. 学习机器(learning machines)
3. 训练目标(training target)
4. 特征
5. 单声道分离
5.1 语音增强(speech separation)
5.2 语音增强的泛化
5.3 语音去混响 & 去噪(speech dereverberation & denoising)
5.4 说话人分离(speaker separation)
6. 多声道分离(阵列分离)
7. 更多内容
【正文】
作为输入的特征,和学习机器(learning machine)一起在监督学习中起着互补的作用。当特征是有区别(discriminative)的时候,为了成功地完成任务,它们对学习机的要求更少。另一方面,强大的学习机对特征的要求较低。一个极端是,一个线性分类器,像Rosenblatt的感知机(perceptron),便是一切所需,如果特征使得任务是线性可分的。在另一个极端,如果分类器能够学习到适当的特征,那么没有任何特征提取的原始形式的输入(例如音频中的波形)就足够了。在这两者之间的大部分任务中,特征提取和学习都很重要。
早期监督分离的研究只使用了少数几个特征,如双通道分离(binaural separation)中使用的双耳时间差ITD(Interaural Time Differences)和双耳水平/强度差IID(Interaural Intensity differences)[141],单通道分离(monoaural separation)中使用的基于音调(pitch-based)的特征[91][78][55]和幅度调制谱图AMS(Amplitude Modulation Spectrogram)[97]。随后的一项研究[177]探索了更多的单耳特征,包括Mel频率倒谱系数MFCC(Mel Frequency Cepstral Coefficient)、Gammatone频率倒谱系数GFCC(Gammatone Frequency Cepstral Coefficient)[150]、感知线性预测PLP(Perceptual Linear Prediction)[67]和相对谱变换感知线性预测RASTA-PLPP(RelAtive Spectral TrAnsform-PLP)[68]。通过使用group Lasso的特征选择,该研究推荐了一个互补的特征集,包括AMS、RASTA-PLP和MFCC(以及pitch,如果它可以可靠地估计),这已经在许多研究中使用。
我们进行了一项研究,以检查低信噪比[22]下监督语音分离的大量声学特征。这些特征以前已经用于鲁棒自动语音识别和基于分类的语音分离。特征列表包括Mel域、线性预测(linear prediction)、gamma域、过零(zero-crossing)、自相关(autocorrelation)、medium-time-filtering、调制和基于音调的特征。Mel域特征为Mel频率倒谱系数MFCC(Mel Frequency Cepstral Coefficient)和Delta谱倒谱系数DSCC(Delta Spectral Cepstral Coefficient)[104]——与MFCC相似,只是在Mel谱上施加了了delta操作。线性预测特征(linear prediction features)是感知线性预测PLP(Perceptual Linear Prediction)和相对谱变换PLP(RASTA-PLP, RelAtive Spectral TrAnsform)。Gammatone域的三个特征是Gammatone特征GF(Gammatone Feature)、Gammatone频率倒谱系数GFCC(Gammatone Frequency Cepstral Coefficient)和Gammatone频率调制系数GFMC(Gammatone frequency modulation coefficient)[119]。GF是通过传递一个输入信号到Gammatone滤波器组并对自带信号施加decimation operation来计算的。一个过零特征(zero-crossing feature),称为峰幅过零ZCPA(Zero-Crossing with Peak-Amplitudes)[96],从使用Gammatone滤波器组推导出的子带信号中计算过零间隔和相应的峰幅。自相关特征(autocorrelation feature)为相对自相关序列MFCC(RAS-MFCC, Relative Autocorrelation Sequence)[204]、自相关序列MFCC(AC-MFCC, Autocorrelation sequence)[149]和相位自相关MFCC (PAC-MFCC, Phase Autocorrelation)[86],均在自相关域中应用MFCC程序。medium-time-filtering特征是功率归一化倒谱系数PNCC(Power Normalized Cepstral Coefficient)[95]和suppression of slowly-varying
components and the falling edge of the power envelope (SSF)[94]。调制域特征是Gabor滤波器组GFB(Gabor FilterBank)[145]和幅度调制谱图AMS(Amplitude Modulation Spectrogram)特征。基于音高pitch-based)的特征PITCH,基于音高跟踪计算T-F等级特征,利用周期性和瞬时频率区分语音主导的T-F单元和噪声主导的T-F单元。在现有特征的基础上,我们提出了一种新的多分辨率蜗图MRCG(Multi-Resolution Cochleagram)[22]特征,该特征在不同的谱时间分辨率(spectrotemporal resolutions)下计算4个而我图来提供局部和更广泛的背景信息。
使用自回归移动平均滤波器ARMA(Auto-Regressive Moving Average)[19]对特征进行后处理,并使用基于固定MLP的IBM掩模估计子进行评估。估计的掩码将根据分类acc和HIT - FA进行评估。HIT−FA查询结果如表1所示。从表中可以看出,gamma域特征(MRCG、GF和GFCC)在准确率和HIT - FA率上都始终优于其他特征,其中MRCG表现最好。通过比较GF和GFCC特征,可以发现采用离散余弦变换DCT(Discrete Cosine Transform)的倒谱压缩是无效的。调制提取也是——通过比较GFCC和GMFC得知,其中后者是由前者计算出来的。值得注意的是,音调特征的性能较差很大程度上是由于低信噪比下的不准确估计,因为GT基音具有很强的判别性。
最近,Delfarah和Wang[34]进行了另一项考虑了房间混响、语音去噪和说话人分离的特征研究。他们的研究使用了经过训练的固定DNN来估计IRM,评估结果是根据STOI相对于未处理的噪声和混响语音的提升而给出的。这个研究增加的特征包括对数谱幅值LOG-MAG(LOG spectral MAGnitude)和对数Mel谱特征LOG-MEL(LOG MEL-spectrum feature),这两种特征都是监督分离中常用的特征[196][82]。还包括了不进行任何特征提取的波形信号(WAV)。对于混响,模拟的房间脉冲响应RIRs(Room Impulse Responses)和记录的RIRs(Recorded RIRs)都被使用,混响时间高达0.9秒。在去噪方面,对匹配噪声和非平稳噪声分别进行评估,对匹配噪声(matched noises),其中每个非平稳噪声(nonstationary noise)的前半部分用于训练,后半部分用于测试,不匹配噪声(unmatched noises)使用全新的噪声进行测试。为了实现共信道(双说话人)分离,目标说话人为男性,干扰说话人为女性或男性。表2显示了被评估个体特征的STOI增益。在无回声、匹配噪声的情况下,STOI结果与表1基本一致。使用模拟和记录的RIRs的特征结果也广泛一致。然而,对于匹配噪声、不匹配噪声和说话人分离情况,最佳性能特征是不同的。在MRCG之外外,PNCC和GFCC在无匹配噪声和共信道条件下的效果最好。在特征组合方面,该研究认为最有效的特征集是用于语音增强的PNCC、GF和LOG-MEL,以及用于说话人分离的PNCC、GFCC和LOG-MEL。
表1和表2中的特征所造成的巨大性能差异表明了特征对于有监督语音分离的重要性。表2中包含的原始波形信号进一步说明,如果不进行特征提取,分离效果较差。但需要注意的是,[34]中使用的前馈DNN可能与波形信号耦合不好,CNNs和RNNs可能更适合所谓的端到端分离。这个问题我们以后再谈。