论文翻译:https://arxiv.53yu.com/abs/2009.13931
基于高效多任务卷积神经网络的残余回声抑制
摘要
在语音通信系统中,回声会降低用户体验,需要对其进行彻底抑制。提出了一种利用卷积神经网络实现实时残余回声抑制(RAES)的方法。在多任务学习的背景下,采用双语音检测器作为辅助任务来提高性能。该训练准则基于一种新的损失函数,我们称之为抑制损失,以平衡残余回声的抑制和近端信号的失真。实验结果表明,该方法能有效抑制不同情况下的残余回声。
关键字:残余回声抑制,卷积神经网络,多任务学习,抑制损失
1 引言
在语音通信系统中,当麦克风与扬声器处于封闭空间中时,需要捕获由于麦克风与扬声器耦合而产生的回声信号时,需要进行回声抵消。传统的AEC算法由自适应线性滤波器(AF)和非线性回声处理器(NLP)两部分组成。
由于扬声器特性所带来的非线性以及对焦输出与远端信号之间的非线性关系不易发现等问题,使得AEC的研究面临诸多挑战。换句话说,在AEC系统中,NLP很可能会对近端信号造成很大的破坏,以完全去除残余回声。
近年来,机器学习被引入到回声的消除和抑制中。基于远端信号及其非线性变换信号,利用两个隐层人工神经网络对残余回声进行估计。用远端信号和AF输出信号训练深度神经网络可以更准确地预测掩模(masks)。然而,由于缺乏相位信息,在将回声全部去除的情况下,向神经网络输入幅值谱并估计输出幅值谱掩模很难保持近端信号。而增加更多的输入特征,这样的相位谱使得模型在大多数个人终端上使用过于复杂。在最近的一项研究中,利用AF输出与近端信号之间的相位关系,采用相敏(phase-sensitive)权重来修正掩模。
本文提出了一种新的基于多任务卷积神经网络的残余回声抑制方法,该方法以远端参考和AF输出信号为输入,以相敏掩模(PSM)为目标。提出了一种新的抑制损耗算法,在抑制残余回声和保持近端信号之间实现了平衡。精确的双讲检测器(double talk detector,DTD)在传统的AEC中也是必不可少的,在我们的工作中,估计双语音状态是提高掩模预测精度的辅助任务。
实验结果表明,无论在仿真声环境还是真实声环境中,该方法都能有效抑制残余回声,显著降低近端信号的失真。
本文的其余部分组织如下。第2节介绍了传统的AEC系统。第3节给出了所提出的方法,第4节给出了对比实验结果。最后,第5节对全文进行总结。
2 AEC 框架
在AEC框架中,如图1所示,传声器接收到的信号\(d(n)\)由近端信号\(s(n)\)和回声\(y(n)\)组成:
图1 线性AEC框架
AEC的目的是去除回声信号,同时保持近端信号\(\hat{s}(n)\)。
回声\(y(n)\)由两部分组成:线性回声,包括远端直接信号及其反射信号。非线性回声,由扬声器引起。AF模块自适应估计的线性回声\(\hat{y}(n)\)和从麦克风信号减去\(d(n)\)的输出信号\(e(n)\)。传统上,NLP通过计算\(e(n)\)和\(d(n)\)的抑制增益来进一步抑制残余回声。然而,近端信号极有可能被破坏。在双语音环节使用这种方法非常严重。
3 方法
3.1 特征提取
AF模块用于消除麦克风信号中的一部分线性回声。实现线性AF算法的方法有很多种。从理论上讲,所提出的RAES可适用于任何标准的AF算法,本文采用的是一种子带归一化最小均方算法(NLMS)。
输入特征包括上述AF输出误差信号\(e(n)\)和远端参考信号\(u(n)\)的对数谱。我们使用短时傅里叶变换(STFT)将\(e(n)\)和\(u(n)\)转换到频域,采用大小为K的平方根汉宁窗,因此实际频率点(frequency bins)数为\(K/2\),丢弃直流区。我们将M帧串联作为输入特征,以提供更多的时间参考信息。串联的另一个优点是,它可以推动网络了解回声和远端信号之间的延迟。
3.2 网络结构
本文网络的主干是受MobileNetV2的启发,其中大部分的全卷积操作被depthwise 和 pointwise convolution代替,以降低计算代价。整个网络架构如图2所示,其中,在Conv()和Residual BottleNeck()的前三个参数分别为输出通道数、内核大小和步长(stride)大小,如果不指定,默认步长大小为1。FC是指具有输入和输出尺寸的全连接层。Residual BottleNeck()的详细架构如图2(a)所示,其中剩余连接融合了高维和低维特征。
值得一提的是,在双讲中掩膜预测是一项具有挑战性的任务。通过4个Residual BottleNeck块提取特征后,利用右分支的DTD预测任务,以条件注意机制,减少左掩模预测分支的负担。因此,多任务学习可以使网络更加关注双语掩膜的预测,如果DTD任务检测到单语周期,则可以很容易地将掩码设置为1或0。
图2 提出K = 128时的网络架构
3.3 训练目标与损失
理想振幅掩模(IAM)在不考虑相位信息的情况下,常被用作语音增强和残余回声抑制的训练目标。在本文中,我们使用相敏掩膜(PSM),其表达如下:
\[g^{\mathrm{PSM}}(l, k)=\frac{|S(l, k)|}{|E(l, k)|} \cos (\theta) (2) \]其中\(\theta=\theta^{S(l, k)}-\theta^{E(l, k)} \cdot S(l, k)\) 和 \(E(l, k)\)表示在第\(l\)帧,第\(k\)频率点中的近端和AF输出信号。PSM在网络中截断0和1之间。然后通过频率点\((l,k)\)中所提出的RAES\(\hat{S}(l, k)\)的频域输出,通过下式计算:
\[\hat{S}(l, k)=g^{\mathrm{PSM}}(l, k) E(l, k) (3) \]在训练过程中使用最小平方误差(MSE)作为损失函数。为了彻底消除回声,在一定程度上对近端信号进行畸变是不可避免的。只要对网络的估计不完美,RAES要么会使近端信号失真,要么会保留一些残余回声,要么更糟两者都有。一方面,从本质上讲,AEC的主要目的是消除麦克风信号的所有回声,同时尽可能地保持近端信号。因此,抑制回声或多或少比保持近端信号质量要求更高。另一方面,MSE损失是一个对称的度量,因为相同数量的负偏差和正偏差将被视为完全相同的损失。因此,直接使用MSE无法控制抑制回声和保持近端信号之间的平衡。本文的解决方法是利用parametric leaky Rectified Linear Unit(ReLU)函数计算目标与频率库\((l,k)\)中估计的掩模\(\Delta(l, k)\)之间的加权均方距离,并具有抑制比\(\alpha\),
\[\Delta(l)= \begin{cases}\frac{1}{K} \sum_{k=0}^{K-1}\left[g_{t}(l, k)-g_{e}(l, k)\right]^{2}, & \text { if } g_{t}(l, k)<g_{e}(l, k) \\ \frac{1}{K} \sum_{k=0}^{K-1}\left\{\alpha_{k}\left[g_{t}(l, k)-g_{e}(l, k)\right]\right\}^{2}, & \text { else }\end{cases} (4) \]其中\(g_{t}(l, k)\) 和 \(g_{e}(l, k)\)分别是频率库\((l,k)\)中的目标和估计的相敏掩模,我们称之为抑制损失。抑制比\(\alpha_{k}\)在频率库\(k\)中作为参数,设定在0 ~ 1之间,且\(\alpha_{k}\)越小,抑制越严重。在每个频率库中,可通过设置不同的\(\alpha_{k}\)值来调节抑制程度。为了简化,我们只在所有频率区中设置相同的\(\alpha\)简化值。根据以下规则得到第\(l\)帧中的DTD状态:
\[\operatorname{DTD}(l)= \begin{cases}0, & \text { if } \max (|y(l, k)|)<0.001 \& \max (|s(l, k)|)>0.001 \\ 1, & \text { if } \max (|s(l, k)|)<0.001 \& \max (|y(l, k)|)>0.001 \\ 2, & \text { otherwise }\end{cases} (5) \]其中DTD表述0,1,2分别对应信号近端通话、单端远端通话和双端通话。由于数据集中单次和双次通话的不平衡,我们使用聚焦参数\(\gamma^{*}=2\)的focal loss作为DTD 训练任务的损失函数,我们将这两个loss结合起来,通过网络更新两个权值。
4 实验结果
4.1 数据集
实验中使用TIMIT[14]和THCHS30[15]数据集生成训练、验证和测试数据集。在训练数据集中,我们从TIMIT中随机选择423个说话者,4230个句子,从THCHS30中随机选择40个说话者,5690个句子。而验证和测试数据集的160个不同的说话者,1600个句子包含在TIMIT中,16个不同的说话者,2083个句子来自THCHS30。
在TIMIT数据集中的男女比例为(0.3,0.4,0.3),THCHS30数据集中的男女比例为(0.3,0.2,0.5)时,说话者被随机选择为对。一个远端信号是由连接三个话语从一个扬声器产生。另一个说话者的一个话语被用作近端信号,并与远端信号重复连接到相同的长度。此外,考虑到其他类型的信号,特别是在频率和时间特性上与语音有很大差异的音乐,通常也由扬声器播放,我们故意将MUSAN的音乐信号与10%的远端信号随机混合。总共生成了5400个训练混合物,其中2400个混合物来自TIMIT,其余来自THCHS30。
不同类型的设备表现出不同的非线性特性以及远端和传声器信号之间不同的系统固有延迟。为了模拟不同的设备,首先对70%的远端信号采用硬剪辑模拟功率放大器的不同剪辑:
\[u(n)_{\text {clip }}= \begin{cases}u_{\max }, & \text { if } u(n) \geq u_{\max } \\ u(n), & \text { if }-u_{\max }<u(n)<u_{\max } \\ -u_{\max }, & \text { if } u(n) \leq-u_{\max }\end{cases} (6) \]从0.75到0.99随机选取\(u_{\max }\)。采用无记忆sigmoid函数对扬声器非线性进行了仿真。
\[u_{\text {nonlinear }}=\gamma\left(\frac{2}{1+\exp (-a b(n))}\right) (7) \]其中\(b(n)=1.5 u_{\text {clip }}(n)-0.3 u_{\text {clip }}^{2}(n)\),增益\(\gamma\)在 0.15至0.3之间随机设置。当\(b(n)\)大于0时,斜率a在0.05至0.45之间随机设置,否则在0.1至0.4之间随机设置。
然后我们需要在失真的远端信号\(u_{\text {nonlinear }}\)的基础上产生回声信号。在失真的远端信号中加入\(8ms-40ms\)的延迟来模拟系统内部延迟。利用模拟和真实的记录房间脉冲响应(room impulse response,RIR)与失真的远端信号进行卷积,得到最终的回声信号。使用图像方法生成仿真的大小\((a, b, c)\)的RIRs,本文使用两个典型房间大小分别为\([6.5 \mathrm{~m}, 4.1 \mathrm{~m}, 2.95 \mathrm{~m}]\) 和 \([4.2 \mathrm{~m}, 3.83 \mathrm{~m}, 2.75 \mathrm{~m}]\),混响时间范围为\([0.3\mathrm{s}, 0.4 \mathrm{~s}, 0.5 \mathrm{~s}, 0.6 \mathrm{~s}]\),采样长度分别为\([2048,2048,4096,4096]\)。我们会在每个房间内设置4个不同的麦克风位置,以及围绕每个麦克风设置5个不同的扬声器位置。真实的录音室脉冲响应选取自AIR[19],BUT[20]和MARDY[21],在话筒距离1.2m以内。90%的远端信号与随机选择的RIRs卷积从模拟和真实的记录上的RIR数据集以上。训练数据集中一半的近端信号被替换为无声信号,以产生单一的远端对话。在双通话期间,SER从-13dB到0随机选择。在生成验证数据集时实现了相同的过程。
4.2 实验配置
STFT的窗口长度设置为128,重叠率为50%。并将远端和AF输出信号的20帧串接形成2×20×64形状的输入特征,丢弃直流和负频区域。然后我们将其重塑为2×40×32作为单个输入,批大小设置为1024。Adam optimizer的初始学习率为0.003。抑制比压缩值\(\alpha\)设置为0.5或1.0。
4.3 评价指标
该方法在双通话时段对语音质量评价指标(PESQ)和短时目标可懂度(STOI)进行了感知评价,在远端单通话时段对回声回波增强(ERLE)进行了评价。线性AEC框架中的ERLE通过下式计算:
\[\mathrm{ERLE}=10 \log 10\left(\frac{\sum_{n} d^{2}(n)}{\sum_{n} e^{2}(n)}\right) (8) \]我们延长测量回波抑制程度上非线性RAES框架通过将\(\hat{s}(n)\)代替\(e(n)\)。
4.4 性能比较
在大多数硬件设备中,麦克风和扬声器之间的距离比较近,导致低SER。我们用0 dB、-5 dB和-10 dB SER生成测试混合物,并将所提方法与WebRTC中的AEC3和[4]的DNN方法进行比较。DNN结构由三层隐层组成,每层有2048个节点,没有预先训练受限玻尔兹曼机(RBM)来初始化DNN参数。在DNN方法中,我们也连接20帧作为输入特征。在与RAES学习速率相同的情况下,选择理想振幅掩模和MSE损失函数进行DNN训练。
表1 单远端通话平均ERLE(dB)
表2 双讲过程中的平均PESQ和STOI
我们为每个案例生成50对TIMIT和50对THCHS30测试混合物。表1显示了不同算法在单次远端通话场景下的ERLE结果。在回声信号中同时存在语音和音乐的情况下,RAES方法的回声抑制能力优于AEC3和DNN方法。
表2和表3显示的是不同方法的PESQ和STOI得分。结果表明,RAES算法在双语音过程中能够保持较好的语音质量和清晰度。利用抑制比抑制图可以调节模型的抑制程度,使用较小的抑制图对回声和近端信号都有较强的抑制作用。在训练和验证过程中,DTD task的F1值分别为93.0%和90.3%。这些结果表明,可以根据可靠的DTD对掩模进行进一步的后处理。计算复杂度的比较如表4所示。AEC3启动了SSE2优化。我们基于自己开发的神经网络推理库运行DNN和RAES模型。采用2.5 GHz CPU, x86 64处理器处理60s长语音时,DNN和RAES的实时速率(RT)分别为0.89和0.05,说明RAES可以很容易地在个人平台上实现。
表3 双讲(演讲+音乐)时的平均PESQ和STOI
表4 操作比较复杂
5 结论
提出了一种高效的多任务残留回声抑制方法。我们在不同的模拟和真实房间中评估了该方法在不同的SER说话情况下。实验结果表明,与传统的回声消除方法相比,该方法具有更好的回声抑制性能,并且易于在大多数个人设备上实时部署和运行。
6 参考文献
[1] Abhishek Deb, Asutosh Kar, and Mahesh Chandra, “A technical review on adaptive algorithms for acoustic echo cancellation,” in International Conference on Communication and Signal Processing. IEEE, 2014, pp. 041–045.
[2] Kun Shi, Xiaoli Ma, and G. Tong Zhou, “A residual echo suppression technique for systems with nonlinear acoustic echo paths,” in ICASSP. IEEE, 2008, pp. 257–260.
[3] Andreas Schwarz, Christian Hofmann, and Walter Kellermann, “Spectral feature-based nonlinear residual echo suppression,” in WASPAA. IEEE, 2013, pp. 1–4.
[4] Chul Min Lee, Jong Won Shin, and Nam Soo Kim, “Dnn-based residual echo suppression,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015.
[5] Qinhui Lei, Hang Chen, Junfeng Hou, Liang Chen, and Lirong Dai, “Deep Neural Network Based Regression Approach for Acoustic Echo Cancellation,” in Proceedings of the 2019 4th International Conference on Multimedia Systems and Signal Processing, 2019, pp. 94–98.
[6] Hao Zhang and DeLiang Wang, “Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios,” in Proc. Interspeech, 2018, vol. 161, p. 322.
[7] Amin Fazel, Mostafa El-Khamy, and Jungwon Lee, “CAD-AEC: Context-Aware Deep Acoustic Echo Cancellation,” in ICASSP. IEEE, 2020, pp. 6919–6923.
[8] Hao Zhang, Ke Tan, and DeLiang Wang, “Deep Learning for Joint Acoustic Echo and Noise Cancellation with Nonlinear Distortions,” in Proc. Interspeech, 2019, pp. 4255–4259.
[9] Guillaume Carbajal, Romain Serizel, Emmanuel Vincent, and Eric Humbert, “Multiple-input neural network-based residual echo suppression,” in ICASSP. IEEE, 2018, pp. 231–235.
[10] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen, “Mobilenetv2: Inverted residuals and linear bottlenecks,” in CVPR. IEEE, 2018, pp. 4510–4520.
[11] Hakan Erdogan, John R. Hershey, Shinji Watanabe, and Jonathan Le Roux, “Phase-sensitive and recognitionboosted speech separation using deep recurrent neural networks,” in ICASSP. IEEE, 2015, pp. 708–712.
[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollar, “Focal loss for dense object detection,” ´ in ICCV. IEEE, 2017, pp. 2980–2988.
[13] Alex Kendall, Yarin Gal, and Roberto Cipolla, “Multitask learning using uncertainty to weigh losses for scene geometry and semantics,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 7482–7491.
[14] Lori F Lamel, Robert H Kassel, and Stephanie Seneff, “Speech database development: Design and analysis of the acoustic-phonetic corpus,” in Speech Input/Output Assessment and Speech Databases, 1989.
[15] Dong Wang and Xuewei Zhang, “Thchs-30: A free chinese speech corpus,” arXiv preprint arXiv:1512.01882,2015.
[16] David Snyder, Guoguo Chen, and Daniel Povey, “Musan: A music, speech, and noise corpus,” arXiv preprint arXiv:1510.08484, 2015.
[17] Sarmad Malik and Gerald Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Transactions on audio, speech, and language processing, vol. 20, no. 7, pp. 2065–2079, 2012.
[18] Jont B Allen and David A Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979.
[19] M. Jeub, M. Schafer, and P. Vary, “A binaural room impulse response database for the evaluation of dereverberation algorithms,” in 16th International Conference on Digital Signal Processing, 2009, pp. 1–5.
[20] Igor Szoke, Miroslav Sk ¨ acel, Ladislav Mo ´ sner, Jakub ˇ Paliesek, and Jan Honza Cernock ˇ y, “Building and eval- ` uation of a real room impulse response dataset,” IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 4, pp. 863–876, 2019.
[21] Jimi YC Wen, Nikolay D. Gaubitch, Emanuel AP Habets, Tony Myatt, and Patrick A. Naylor, “Evaluation of speech dereverberation algorithms using the MARDY database,” in In Proc. Intl. Workshop Acoust. Echo Noise Control. 2006, Citeseer.
[22] Antony W Rix, John G Beerends, Michael P Hollier, and Andries P Hekstra, “Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs,” in ICASSP. IEEE, 2001, vol. 2, pp. 749–752.
[23] Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen, “An algorithm for intelligibility prediction of time–frequency weighted noisy speech,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125–2136, 2011.