论文地址:https://ieeexplore.ieee.org/abstract/document/8461476
基于多输入神经网络的残留回声抑制
摘要
残余回声抑制器(RES)旨在抑制声学回声消除器(AEC)输出中的残余回声。基于频谱的RES方法通常估计来自单个输入的近端语音和残余回声的幅度谱,即远端语音或AEC计算的回声,并据此得出RES滤波器系数。这些单一输入并不总是足以将近端语音与其余回声区分开。在本文中,我们提出了一种基于神经网络的方法,可以直接从多个输入(包括AEC输出,远端语音和/或AEC计算的回声)中估计RES滤波器系数。我们会根据智能扬声器在各种情况下获取的回声和近端语音的真实录音对我们的系统进行评估。在回声减少和近端语音失真方面,我们将其与两种基于单输入频谱的方法进行了比较。
关键字:回声消除,残余回声抑制,神经网络,深度学习
1 引言
在电信中,声学回声是一个众所周知的问题。来自近端点的扬声器与另一个扬声器相互作用。由于扬声器和近端的麦克风之间的声学耦合,远端扬声器接收他/她自己的声音的延迟版本,称为声学回声。声学回声消除旨在消除这种回声,同时留下近端语音。声学回声消除器(AEC)是对此问题的经典解决方案:回声路径被建模为长的线性滤波器,然后从麦克风信号中减去其估计[1]。然而,假设声学回声和远端语音之间的线性关系,这不是实际条件的情况[2]。扬声器的非线性响应和麦克风导致远端语音失真。此外,回声通常大声,特别是当麦克风靠近扬声器时。因此,在实际应用中,AEC仅减少部分回声。非线性AEC [3,4]进一步减少了回声,但始终存在残留回声。
为了克服该限制,通常使用残余回声抑制器(RES)。 RES是一种简短的非线性滤波器,应用于AEC输出以估计近端语音。它类似于噪声抑制滤波器[5]。它通常涉及首先基于单个输入信号(即远端语音或AEC计算的回声)估计残留回声的频谱幅度,然后推导RES的系数[6-10]。这种基于模型的方法也可以直接应用于麦克风信号:然后将滤波器称为声学回声抑制器(AES)[11-13]。尽管这种滤波器可以显着降低残留回声,但它可以使近端语音失真,尤其是在诸如双向通话或AEC尚未收敛的困难情况下。
神经网络(NN)最近已成为噪声抑制的最新技术[14-16],但很少用于声学回声消除。 Schwarz等[17]使用神经网络以远端的频谱幅度作为单个输入来估计残留回声的频谱幅度,并使用基于经典模型的方法得出RES的系数。 Madrid Portillo [18]使用NN来直接估计AES的系数,使用两个信号的频谱幅度:麦克风和远端信号。
在本文中,我们建议扩展这些方法以估计RES的系数。首先,我们使用多个信号而不是单个信号作为NN输入。其次,我们通过掩膜直接计算系数软件,这是我们根据[16]中的相敏成本训练的神经网络来估计的。我们将我们的方法称为多输入基于相位的基于NN的RES。它既受益于不同信号的信息,又受益于特定的成本函数。所提出的方法的有效性已通过真实回声记录进行了实验验证。我们将结果与基于Valin线性残差回声模型的RES [19]和基于[17]的基于NN的RES进行比较,包括在通话双方和AEC尚未收敛的情况下。
本文组织如下。我们在第2节中描述了Classic AEC设置,并在第3节中查看现有RES方法。我们在第4节中提出了我们的方法,并在第5节中评估了。
2 回声消除
2.1 信号模型
对于任意时域信号,\(a(t)\)在时间\(t\)表示该信号。通过窗口形状的短时傅里叶变换(STFT)在时频域中转换,帧长为L,傅里叶变换大小为N以及帧重叠为0。\(\underline{A}(m, n)\)是在帧索引M和频率点n处得到的复值频谱。频谱幅度由\(A(m,n)\)和\(\theta_{A}(m, n)\)表示的相位表示。为了简明扼要,我们将在论文剩余的索引中省略索引T,M和N。
一般的问题设置如图1所示。麦克风信号d是近端信号s和回声y的和,后者是远端信号x的非线性失真形式:
\[d=s+y (1) \]图1:声学回声消除器(AEC)和残余回声抑制器(RES)的常规设置。
2.2 AEC
AEC的输出信号e由近端信号s和残留回声z组成,在从麦克风信号d减去估计的回声\(\hat{y}\)之后仍然存在:
\[e=s+z (2) \] \[=s+y-\hat{y} (3) \]大多数AEC基于时域自适应滤波,使用各种方法跟踪双向通话和回声路径更改。特别是Valin [19]实现了SpeexDSP,这是一种使用可变步长的鲁棒的双向通话检测的AEC。
3 残余回声抑制
RES将掩膜\(\hat{M}\)应用于\(\underline{E}\)以产生\(\hat{S}=\hat{M} \underline{E}\)。\(\hat{M}\)的系数,即RES滤波器系数,是实数值,并且在每个时频点中都不同。估计的近端信号 然后由逆STFT恢复。该信号包含可能失真的近端信号\(S_{R E S}\)和残余后回声\(Z_{R E S}\):
\[\hat{s}=S_{R E S}+Z_{R E S} (4) \]3.1 单输入与多输入方法
我们根据用于估计M的信号对RES方法进行分类。单输入方法依赖于单个信号,例如,远端语音X [6-10]的幅度谱或AEC估计的回声\(\hat{Y}\)[19,20]。 Schwarz等[17]提出了使用X和X的两个线性组合的单输入RES。但是,他们既没有利用AEC的输出E也没有利用 \(\hat{Y}\)。然而,E包含剩余回声的信息,而Y近似于回声中的长期依赖关系,而这些不包含在X中。他们的结果表明,残留回声并不总是被抑制,特别是当AEC尚未收敛且处于双向通话情况下时。相反,多输入法依赖于各种信号来估计M。Madrid Portillo [18]除了使用X之外,还使用麦克风信号D估计了AES,这与仅使用D相比提高了性能,但他并没有从先前使用长AEC滤波器中受益。
3.2 基于光谱的方法与基于掩模的方法
我们还可以根据用于估计M的步骤对RES方法进行分类。一方面,基于频谱的方法分两步计算 \(\hat{M}\)。基本思想是从\(\underline{E}\)中减去残余回声估计。第一步,他们计算残余回声Z的幅度谱的估计\(\hat{Z}\)[6-10,19,20]。在第二步中,他们根据诸如维纳滤波规则的规则从 \(\hat{Z}\)推导 \(\hat{M}\)。
\[\widehat{M}=\max \left(M_{\min }, 1-\mu \frac{\widehat{Z}^{2}}{E^{2}}\right) (5) \]\(M_{\min }\)为masking floor,\(\mu\)为高估计因子。许多方法使用线性模型\(\hat{Z}=\lambda X\)[6-10]或\(\hat{Z}=\lambda \hat{y}\)[19,20],其中\(\lambda\)是频率和时间相关的标量,其不考虑非线性失真。 Schwarz等人[17]使用具有两个隐藏层的(非线性)多层感知机来估计z。是的,规则(5)并不直接适合目标(ground truth)掩膜M。这可能会导致在双向通话期间不良的近端语音传输或不良的残留回声降低。另一方面,基于掩模的方法通过直接安装目标掩膜Madrid Portillo [18]根据两个替代目标掩模,使用带有两个隐藏层的多层感知器训练了AES:理想的二进制掩模(IBM)或理想比率掩膜(IRM)[14](见表1)。
4 基于NN的多输入RES
在本文中,我们建议使用多输入NN估计RES滤波器系数M。具体来说,我们使用E,X和/或Y作为输入,并使用相敏滤波器(PSF)[16](参见表1)作为目标输出。
与单输入相反,和/或基于光谱的方法,这使我们能够同时受益于E,X和/或Y的信息,并直接适合目标掩膜。据我们所知,这是在RES上下文中首次使用多输入NN和PSF。当我们打算将RES与Schwarz基于NN的RES [17]进行比较时,我们使用了具有两个隐藏层的多层感知器。图2显示了一个拓扑示例。我们使用输出掩膜\(\hat{M}\)和目标掩膜 M之间的均方误差(MSE)作为训练成本。
5 实验
在下文中,我们评估了E,X和Y对我们方法性能的影响。我们还评估了表1中的不同目标掩码,包括理想幅度掩码(IAM),而忽略了性能较差的IBM。最后,我们将我们的方法与两种基于单输入频谱的方法进行了比较:基于Valin的线性残余回声模型的RES [19]和基于Schwarz基于NN的RES [17]。我们根据单通话和双通话期间的回声减少以及双通话期间的近端失真来评估性能。此外,我们分析了单通话和双通话场景中AEC收敛之前和之后的性能。由于本文仅针对RES,因此我们不评估Madrid Portillo的AES。
5.1 数据集
我们使用Librispeech纯净发展语料库[21]进行了实验,该语料库由5.4 h有声读物组成。我们将这个语料库与不连贯的演讲者分成训练集、验证集和测试集。在每组中,所有扬声器至少被用作近端和远端扬声器一次。在近端,扬声器和麦克风之间的距离为1 m,而扬声器(播放远端信号)与麦克风之间的距离为5 cm。
对于训练和验证集,使用Invoxia开发的智能扬声器设备Triby以16 kHz的速率播放和录制远端语音,并通过常规扬声器播放近端语音。回声记录是在没有近端语音的情况下完成的。我们测量了房间中常规扬声器和Triby之间的房间冲激响应(RIR),并使用该RIR对发声进行卷积以模拟近端语音。记录是在3×3×3 m大小的房间中进行的。背景噪声水平约为50 dBA,混响时间约为0.2 s。验证集用于调整NN超参数。
对于测试集,没有进行任何模拟。将近端语音和远端语音分别记录在大小为7×7×3 m且混响时间为0.5 s的不同房间中,并相加。智能扬声器不同于训练和验证装置中使用的扬声器。这种接近真实的录音协议可以准确地测量性能,而对于地面录音近端语音未知的真实录音,这是不可能的。我们的协议类似于[13],但是更现实,因为它在远端语音中包括了非线性。
我们考虑了由3个近端位置和3个情况定义的9个场景:近端通话,远端通话和双向通话(近端通话和远端通话同时进行)。对于测试集,仅考虑了两种情况:远端通话和双向通话。给定一个场景,每组包含n 15个发声。对于训练集,验证集和测试集,我们分别取n = {629,205,208}。在每次发声期间,回声路径被认为是恒定的。但是,它从一种发声到另一种发声都各不相同。将近端语音设置为恒定级别,并以三种不同的级别播放远端语音,以解决扬声器非线性问题,从而导致信噪比(SER)为-9,-12和-15 dB。
5.2 算法参数
我们使用SpeexDSP中的AEC实现,处理了训练、验证和测试数据。我们使用了2560个样本的时域滤波器长度,通过640的FFT大小和50%的重叠实现。此设置在回声降低和近端失真之间产生了很好的折衷。从各种观察结果中,我们将发声开始后的AEC收敛时间设置为4 s,这与Valin的观察结果一致。我们使用带有汉宁窗口,L = 640,N = 1024和O = 50%的STFT实现了所有RES方法。关于神经网络,我们在每个隐藏层使用1024个神经元和tanh作为激活函数。使用2.70 GHz CPU时,计算15秒发声的e和 分别占实时的2.3%和1.7%。
5.3 指标
我们根据回声损耗增强(ERLE)和回声比(SDR)[22]评估了所有系统,回声损耗增强测量了回声的减少,信噪比(SDR)则测量了整个失真(包括残余或残余回声和近端语音失真)。在双向通话期间,这两个指标至关重要。此外,信噪比(SAR)仅测量近端语音失真。 AEC本身几乎不会引起近端语音失真。某些RES在 上可能会引入衰减g,这会导致人为地增加回声减少和采用常规指标产生的失真。我们需要不依赖于此衰减的度量。我们假设衰减g在一段时间内是恒定的。根据Vincent等人的工作[22],我们在两次通话期间针对每个发声估计了 ,并将其应用于s和y。表2中定义了评估指标。
5.4 NN****输入和目标掩码的选择
我们研究了E作为单一输入或与X和/或\(\hat{Y}\)结合使用的性能。表3列出了所有目标掩模选择的平均结果。结合使用E和X可以在ERLE和SDR方面提供最佳性能。该性能大大高于仅使用E的性能,并且与使用所有三个输入的性能相当。我们还研究了不同目标掩模的性能。表4列出了所有NN输入选择的平均结果。将PSF用作训练目标可提供ERLE和SDR方面的最佳性能。
5.5 与Valin 和 Schwarz的 RES的比较
最终,我们使用E,X和\(\hat{Y}\)作为输入并使用PSF作为目标掩膜在ERLE中获得了最佳性能。表5将此设置为与Valin[19]和Schwarz的RES进行了比较。
在ERLE和SDR方面,我们的方法明显优于其他方法。图3提供了双向通话情况下的进一步分析。在AEC收敛之后,所有这三种方法均获得令人满意的结果(ERLE高于20 dB,SAR高于或接近10 dB)。在AEC收敛之前,我们的方法的性能仍然可以接受,而通过其他方法获得的ERLE下降到10 dB以下,与近端语音相比,残留回声很大。非正式的听力测试证实了这一点。在回声减少的情况下,可以在远端通话情况下得出类似的结论。我们得出的结论是,对于缺乏AEC收敛的情况,我们的方法更加可靠。
6 结论与未来工作
我们提出了一种多输入基于相位敏感的基于NN的RES,与基于单输入频谱的方法相比,提供了更大的残余回声减少。如在两个不同房间中进行的培训和测试所示,这种减少似乎对不同的场景和不同的房间都非常有效。将来,我们将使用平滑技术来调整回声减少与近端语音失真之间的权衡[23,24]。
7 参考文献
[1] E. Hänsler and G. Schmidt, Acoustic Echo And Noise Control: A Practical Approach, Adaptive and learning systems for signal processing,communications, and control. Wiley-Interscience, Hoboken, N.J, 2004.
[2] A. N. Birkett and R. A. Goubran, “Limitations of handsfree acoustic echo cancellers due to nonlinear loudspeaker distortion and enclosure 1. vibration effects,” in Proc. WASPAA, 1995, pp. 103–106.
[3] M. Scarpiniti, D. Comminiello, R. Parisi, and A. Uncini, “Comparison of Hammerstein and Wiener systems for nonlinear acoustic echo cancelers in reverberant environments,” in Proc. DSP, 2011, pp. 1–6.
[4] C. Hümmer, C. Hofmann, R. Maas, A. Schwarz, and W. Kellermann, “The elitist particle filter based on evolutionary strategies as novel approach for nonlinear acoustic echo cancellation,” in Proc. ICASSP, 2014, pp. 1315–1319.
[5] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113– 120, 1979.
[6] S. Gustafsson, R. Martin, and P. Vary, “Combined acoustic echo control and noise reduction for hands-free telephony — state of the art and perspectives,” in Proc. EUSIPCO, 1996, pp. 1107–1110.
[7] C. Beaugeant, Réduction de bruit et contrôle d’éch pour les applications radiomobiles, Ph.D. thesis, Université de Rennes 1, 1999.
[8] S. Gustafsson, R. Martin, P. Jax, and P. Vary, “A psychoacoustic approach to combined acoustic echo cancellation and noise reduction,” IEEE Transactions on Speech and Audio Processing, vol. 10, no. 5, pp. 245– 256, 2002.
[9] G. Enzner, R. Martin, and P. Vary, “Unbiased residual echo power estimation for hands-free telephony,” in Proc. ICASSP, 2002, pp. 1893–1896.
[10] A. S. Chhetri, A. C. Surendran, J. W. Stokes, and J. C. Platt, “Regression-based residual acoustic echo suppression,” in Proc. IWAENC, 2005.
[11] C. Avendano, “Acoustic echo suppression in the STFT domain,” in Proc. WASPAA, 2001, pp. 175–178.
[12] C. Faller and J. Chen, “Suppressing acoustic echo in a spectral envelope space,” IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, pp. 1048–1062, 2005.
[13] H. Huang, C. Hofmann, W. Kellermann, J. Chen, and J. Benesty, “A multiframe parametric Wiener filter for acoustic echo suppression,” in Proc. IWAENC, 2016, pp. 1–5.
[14] Y. Wang, A. Narayanan, and D. L. Wang, “On training targets for supervised speech separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 12, pp. 1849–1858, 2014.
[15] F. Weninger, J. R. Hershey, J. Le Roux, and B. Schuller, “Discriminatively trained recurrent neural networks for single-channel speech separation,” in Proc. GlobalSIP, 2014, pp. 577–581.
[16] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks,” in Proc. ICASSP, 2015, pp. 708–712.
[17] A. Schwarz, C. Hofmann, and W. Kellermann, “Spectral feature-based nonlinear residual echo suppression,” in Proc. WASPAA, 2013, pp. 1–4.
[18] J. Madrid Portillo, “Deep learning applied to acoustic echo cancellation,” M.S. thesis, Aalborg University,2017.
[19] J. M. Valin, “On adjusting the learning rate in frequency domain echo cancellation with double-talk,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 3, pp. 1030–1034, 2007.
[20] O. Hoshuyama and A. Sugiyama, “An acoustic echo suppressor based on a frequency-domain model of highly nonlinear residual echo,” in Proc. ICASSP, 2006,pp. 269–272.
[21] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: an ASR corpus based on public domain audio books,” in Proc. ICASSP, 2015, pp. 5206–5210.
[22] E. Vincent, R. Gribonval, and C. Févotte, “Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 4, pp. 1462–1469, 2006.
[23] C. Breithaupt, T. Gerkmann, and R. Martin, “Cepstral smoothing of spectral filter gains for speech enhancement without musical noise,” IEEE Signal Processing Letters, vol. 14, no. 12, pp. 1036–1039, 2007.
[24] E. Vincent, “An experimental evaluation of Wiener filter smoothing techniques applied to under-determined audio source separation,” in Proc. LVA/ICA, 2010, pp.157–164.