论文地址:https://ieeexplore.ieee.org/abstract/document/9357975/
基于半盲源分离的非线性回声消除
摘要:
当使用非线性自适应滤波器时,数值模型与实际非线性模型之间的不匹配是非线性声回声消除(NAEC)的一个挑战。为了解决这一问题,我们提出了一种基于半盲源分离(SBSS)的有效方法,该方法对无记忆非线性进行基泛展开,然后将未知的非线性展开系数合并到回声路径中。将远端输入信号的所有基函数视为已知的等效参考信号,推导了一种基于约束比例自然梯度策略的SBSS更新算法。与常用的自适应算法不同,该算法基于近端信号与参考信号之间的独立性,对数值模型与实际模型之间的非线性不匹配不敏感。仿真和实际捕获数据的实验结果验证了该方法在NAEC中的有效性。
关键字:约束尺度自然梯度,非线性声学回声消除,半盲源分离
1 引言
线性声学回声消除假设远端输入信号与回声路径线性卷积得到回声信号,通常可以采用线性自适应滤波方法估计回声路径,消除回声信号[1]-[3]。然而,非线性在实际应用中总是不可避免的,特别是在使用微型扬声器的智能手机和笔记本电脑等便携式设备中。因此,非线性声学回声消除(NAEC)具有更好的回声消除性能。大量的模型被用来描述NAEC系统中的非线性,如WienerHammerstein[4]和Volterra[5]模型,多项式饱和[6]和神经网络[7]。
无记忆非线性可以很好地模拟扬声器[8]的非线性失真,其中回声路径可以分解为非线性模型的级联结构和线性回声路径[9]-[10]。在[9]中,采用RLS算法学习有限脉冲响应滤波器的系数和预处理器中高达七阶的多项式,学习率高。在[10]中提出了非线性级联滤波器和双线性滤波器等方法来补偿非线性回声。在[8]中提出了一种隐式联合学习策略,将未知的多项式系数吸收到未知的回声路径中,形成了等效的时域多通道自适应结构,即功率滤波器。通过减小功率滤波器通道[8]、[11]之间的互相关,可以提高非线性回声路径的估计。在[12]中,采用Hammerstein模型来描述与线性房间脉冲响应连接的扬声器的无记忆非线性,并提出了一种利用伪幅度平方相干函数来识别Hammerstein系统非线性的在线AEC算法。通过考虑无记忆非线性[13]的基泛展开,并将非线性展开系数吸收到未知的回声路径中,可将级联观测模型转化为等效的线性多通道结构[14]。在[14]中,进一步利用多通道一阶马尔可夫模型建立多通道状态空间模型,并在[15]卡尔曼滤波器的基础上得到多通道状态空间频域自适应滤波器(MCSSFDAF)。该滤波器自适应速度快,性能优于最小均方(LMS)和递归最小二乘(RLS)自适应滤波器[1]。将[14]中提出的方法作为最先进的解决方案,进一步扩展并实现在麦克风阵列[16]中。
自适应滤波在很大程度上取决于数值非线性模型的准确性,因为自适应滤波的本质是识别扬声器激励和麦克风捕获信号之间的传递函数。数值模型与实际非线性模型的不匹配将对系统产生不利影响,并可能导致系统性能恶化。半盲源分离(SBSS)源于盲源分离(BSS)[17],也可用于AEC的[18]-[20]。SBSS方法在[21]中首次提出,并在[18]中成功实现了多通道BSS和单通道AEC在频域的结合。随后在[19]和[20]中表明,BSS和多通道AEC可以有效地结合,从而产生没有双话检测的SBSS。SBSS也被证明能够估计双说话[22]-[24]的回声路径。基于独立半盲信号源分离的非线性声回声消除算法通常是基于独立半盲信号源分离的非线性声回声消除算法。理论上对数值和实际传递函数之间的不匹配不太敏感。然而,现有的SBSS是用来解决线性AEC问题的,不能直接应用于NAEC系统。
在本文中,我们将SBSS与一个非线性模型相结合,旨在提高NAEC在实际应用中非线性模型偏离实际模型的性能。首先对参考信号进行无记忆非线性[13]-[14]的基泛展开,并将扩展系数合并到回声路径中。将远端输入信号的每个基函数视为已知的等效参考信号,采用约束比例自然梯度策略[20],[25]设计更新过程。
2 NAEC的SBSS模型
图1 在无记忆非线性存在的NAEC的SBSS模型
NAEC系统的SBSS模型如图1所示。扬声器的非线性模型为无记忆非线性函数\(f(·)\),它将时间指数为t的远端输入信号\(x(t)\)转换为非线性映射的输入信号\(f(x(t))\)。信号\(f(x(t))\)与回声路径\(h(t)\)线性卷积,得到回声信号\(d(t)\)。将近端信号\(s(t)\)叠加到回声信号\(d(t)\)上,得到麦克风信号\(y(t)\)为
\[y(t)=d(t)+s(t)=h(t) * f(x(t))+s(t) (1) \]在实际应用中,实际的非线性模型是未知的,非线性映射输入信号\(f(x(t))\)的基泛展开通常被用作[13]-[14]
\[f(x(t))=\sum_{i=1}^{p} a_{i} \phi_{i}(x(t)) (2) \]其中\(\phi_{i}(\cdot)\)为第i阶基函数,\(a_{i}\)为对应系数,\(p\)为展开阶。将(2)代入(1):
\[y(t)=h(t) *\left[\sum_{i=1}^{p} a_{i} \phi_{i}(x(t))\right]+s(t) (3) \]将膨胀系数\(a_{i}\)合并到回声路径\(h(t)\)中,(3)可以表示为
\[y(t)=\sum_{i=1}^{p} h_{i}^{\prime}(t) * \phi_{i}(x(t))+s(t) (4) \]其中\(h_{i}^{\prime}(t)\)表示\(i\)阶基函数对应的回声路径为:
\[h_{i}^{\prime}(t)=a_{i} h(t) (5) \]利用短时傅里叶变换(STFT),可以得到(4)的频域表示为:
\[Y(k, n)=\sum_{i=1}^{p} H_{i}(k, n) X_{i}(k, n)+S(k, n) (6) \]其中\(Y(k, n), H_{i}(k, n), X_{i}(k, n)\), 和 \(S(k, n)\)分别是\(y(t), h_{i}^{\prime}(t), \phi_{1}(x(t))\), 和 \(s(t)\)的频域表示,其频率指标为\(k\),框架指标为\(n\)。将\(X_{i}(k, n)\) with \(Y(k, n)\) 和 \(S(k, n)\)分别组合成向量形式为:
\[\mathbf{y}(k, n)=\left[Y(k, n), X_{1}(k, n), \ldots, X_{p}(k, n)\right]^{T} (7) \] \[\mathbf{s}(k, n)=\left[S(k, n), X_{1}(k, n), \ldots, X_{p}(k, n)\right]^{T} (8) \]则(6)的矩阵形式可以表示为
\[\mathbf{y}(k, n)=\mathbf{H}(k, n) \mathbf{s}(k, n) (9) \]式中,\(\mathbf{H}(k, n)\)为大小为\((p+1) \times(p+1)\)的混合矩阵,分块公式为
\[\mathbf{H}(k, n)=\left[\begin{array}{cc} 1 & \mathbf{h}^{T}(k, n) \\ \mathbf{0}_{p \times 1} & \mathbf{I}_{p} \end{array}\right] (10) \]设\(\mathbf{0}_{p \times 1}\)为大小为\(p×1\)的零向量,\(\mathbf{I}_{p}\)为大小为\(p \times p\)的单位矩阵, \(\mathbf{h}(k, n)\)为大小为\(p \times 1\)的混合向量
\[\mathbf{h}(k, n)=\left[H_{1}(k, n), \ldots, H_{p}(k, n)\right]^{T} (11) \]由于\(x(t)\)是已知的输入信号,因此\(\phi_{1}(x(t))\) 和 \(X_{i}(k, n)\)也是已知的。以\(X_{i}(k, n)\)为参考信号,利用SBSS方法提取未知近端信号\(S(k, n)\)。分解过程描述为:
\[\mathbf{e}(k, n)=\mathbf{W}(k, n) \mathbf{y}(k, n) (12) \]其中\(\mathrm{e}(k, n)\)为大小为\((p+1) \times 1\)的估计向量,\(\mathbf{W}(k,n)\)为大小为\((p+1) \times(p+1)\)的分解矩阵
\[\mathbf{e}(k, n)=\left[E(k, n), X_{1}(k, n), \ldots, X_{p}(k, n)\right]^{T} (13) \] \[\mathbf{W}(k, n)=\left[\begin{array}{cc} 1 & \mathbf{w}^{T}(k, n) \\ \mathbf{0}_{p \times 1} & \mathbf{I}_{p} \end{array}\right] (14) \]其中\(E(k, n)\)为近端信号\(S(k, n)\)的估计,\(\mathbf{w}(k, n)\)为大小为\(p \times 1\)的解混向量。
有人可能会说所有的\(X_{l}(k, n)\)都是从同一个参考信号\(x(t)\)变换而来的;因此它们不满足独立假设,而独立假设是BSS方法的基础。然而,对于NAEC中使用的SBSS,近端信号独立于参考信号,混合和分解矩阵都受到约束,因此近端信号仍然可以有效地恢复。在多通道AEC[20]中,已经验证了具有线性相关参考信号的SBSS的可行性。
3 在线SBSS算法
采用独立分量分析(ICA)和独立矢量分析(IVA)[26]、[27]常用的自然梯度在线SBSS算法对(12)中的分解矩阵进行优化。根据IVA中类似的推导,\(\mathbf{W}(k, n)\)的更新规则为:
\[\mathbf{W}(k, n+1)=\mathbf{W}(k, n)+\eta\left[\mathbf{I}_{p+1}-\Phi(\mathbf{e}(k, n)) \mathbf{e}^{H}(k, n)\right] \mathbf{W}(k, n) (15) \]其中,\(\eta\)为学习率,\((\cdot)^{H}\)为厄米特转置,非线性函数\(\Phi(\cdot)\)为多元评分函数。该多元评分函数的典型形式来自于[26]中依赖的多元超高斯分布:
\[\Phi(\mathbf{e}(k, n))=\left[\Phi\left(e_{1}(k, n)\right), \ldots, \Phi\left(e_{p+1}(k, n)\right)\right]^{T} (16) \] \[\Phi\left(e_{j}(k, n)\right)=\frac{e_{j}(k, n)}{\sqrt{\sum_{k=1}^{K}\left|e_{j}(k, n)\right|^{2}}} (17) \]其中\(e_{j}(k, n)\)表示向量\(\mathrm{e}(k, n)\)的第\(j\)个元素,\(k\)为频率点的个数。为了在保持(14)分解矩阵约束结构的同时获得稳定的算法,我们进一步使用约束比例自然梯度策略[20],[25],更新方程表示为:
\[\Delta \mathbf{W}(k, n)=\left[\mathbf{I}_{p+1}-\frac{1}{d(k, n)} \Phi(\mathbf{e}(k, n)) \mathbf{e}^{H}(k, n)\right] \mathbf{W}(k, n), (18) \] \[\Delta \mathbf{W}_{2 p+1,:}(k, n)=\mathbf{O}_{p \times(p+1)} (19) \] \[\mathbf{W}(k, n+1)=c(k, n)[\mathbf{W}(k, n)+\eta \Delta \mathbf{W}(k, n)] (20) \] \[\mathbf{W}_{1, ;}(k, n+1)=\frac{\mathbf{W}_{1,}(k, n+1)}{\mathbf{W}_{1,1}(k, n+1)} (21) \] \[\mathbf{W}_{2: p+1,2: p+1}(k, n+1)=\mathbf{I}_{p} (22) \]其中\(\Delta \mathbf{W}(k, n)\)是更新的\(\mathbf{W}(k, n)\), \(\mathbf{O}_{p \times(p+1)}\)代表一个零矩阵的大小\(p \times(p+1)\), \(\Delta \mathbf{W}_{2: p+1,:}(k, n)\)代表由矩阵\(\Delta \mathbf{W}(k, n)\)的第2到第\((p+1)\)行组成的矩阵, \(\mathbf{W}_{1,(k, n+1)}\)代表矩阵\(\mathbf{W}(k, n+1)\)的第一行, \(\mathbf{W}_{1,1}(k, n+1)\)代表矩阵\(\mathbf{W}(k, n+1)\)元素的第一行和第一列, \(\mathbf{W}_{2: p+1,2 \cdot p+1}(k, n+1)\)代表矩阵\(\mathbf{W}(k, n+1)\)右下角\(p \times p\)大小的一个方阵,\(d(k, n)\)和\(c(k, n)\)的缩放因子,计算在[25]。
该算法基于近端信号与参考信号之间的独立性。因此,它对数值模型与实际模型之间的非线性不匹配不敏感。
4 实验和仿真
为了验证该算法的有效性,我们使用仿真数据和真实捕获数据,比较了SBSS算法和基于子矩阵对角MCSSFDAF (SD-MCSSFDAF)[14]的最先进NAEC算法的性能。可在网上找到示例音频样本https://github.com/ChengGuoliang0/audio-samples
A 仿真
我们考虑两种类型的非线性映射来模拟无记忆扬声器的非线性:硬剪切[9]和软饱和[6]。硬剪切模型表示为:
\[f(x(t))= \begin{cases}-x_{\max }, & x(t)<-x_{\max } \\ x(t), & |x(t)| \leq x_{\max } \\ x_{\max }, & x(t)>x_{\max }\end{cases} (23) \]其中,\(x_{\max }\)是剪切阈值。软饱和度模型表示为:
\[f(x(t))=\frac{x_{\max } x(t)}{\sqrt[\rho]{\left|x_{\max }\right|^{\rho}+|x(t)|^{\rho}}} (24) \]其中\(\rho\)是一个非自适应形状参数。
算法的实现考虑了匹配条件和不匹配条件。在匹配条件下,算法采用了与实际模型和数值模型相同的非线性。在不匹配条件下,利用奇数幂级数[14]作为(2)中的基函数\(\phi_{i}(\cdot)\),描述为:
\[\phi_{i}(x(t))=x^{2 i-1}(t), \quad i=1,2, \ldots, p (25) \]在所有的仿真和实验中,两种算法的非线性展开阶均设为\(p = 3\)。
(1)单讲情况
将10秒长的语音信号作为远端输入信号\(x(t)\),利用这两个非线性映射进行失真,生成麦克风信号\(y(t)\),并利用高斯白噪声\(s(t)\)表示单音情况下的背景噪声。我们使用信失真比(SDR)来量化非线性程度,定义为\(10 \log _{10}\left\{\mathrm{E}\left[x^{2}(t)\right] / \mathrm{E}\left[(f(x(t))-x(t))^{2}\right]\right\}\) [14],并设置为5 dB。回声近端信号功率比(ESR)设为ESR = 60 dB,定义为\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[s^{2}(t)\right]\right\}\) [14]。回声路径为图像法[28]产生的房间脉冲响应,采样率为16 kHz,混响时间为0.2 s。SBSS算法的学习率\(\eta\)设为0.1。SD-MCSSFDAF算法的参数设置为[14]。性能由回声损耗增强(ERLE)来衡量,定义为\(10 \log _{10}\left\{\mathrm{E}\left[y^{2}(t)\right] / \mathrm{E}\left[e^{2}(t)\right]\right\}\)[14]。两种非线性情况下的ERLE结果如图2所示。可以看出,在非线性完全匹配的情况下,SD-MCSSFDAF算法收敛后的性能明显优于SBSS算法。然而,当利用(25)中的基函数时,由于非线性失配的影响,SDMCSSFDAF算法的性能明显下降,所提出的非线性SBSS方法的优势显而易见。
图2 ERLE会产生匹配和不匹配的条件。(a)硬剪裁。(b)软饱和。
(1)双讲情况
利用SDR = 5 dB的两个非线性映射,对远端语音信号\(x(t)\)再次进行了失真处理。将近端信号\(s(t)\)与回声信号\(d(t)\)叠加,得到ESR = 0 dB的麦克风信号\(y(t)\)。近端信号\(s(t)\)也是一个10 s长的语音信号。双讲情况下只考虑更实际的不匹配条件,性能由真ERLE (tERLE)度量,定义为\(10 \log _{10}\left\{\mathrm{E}\left[d^{2}(t)\right] / \mathrm{E}\left[(e(t)-s(t))^{2}\right]\right\}\)[20]。此外,还采用感知语音质量评价(PESQ)[29]和短时客观可理解性(STOI)[30]-[31]作为评价近端信号语音质量的客观指标。两种非线性映射的tERLE结果如图3所示,近端语音质量评价结果如表1所示,从中可以看出本文方法的有效性。
表1 近端语音质量评价结果
图3 tERLE的结果是不匹配的条件。(1)硬剪裁。(b)饱和度较低
B 真实实验
我们还评估了提出的SBSS算法的性能使用真实捕获的数据。微型扬声器发出的语音信号,不可避免地包含未知非线性,由一个信噪比(SNR)约为20 dB的麦克风记录下来。信号长度为10 s,采样率为16 kHz。图4显示了单对话情况下的ERLE结果。显然,在这种不匹配条件下,SBSS算法的ERLE性能优于SD-MCSSFDAF算法。在双讲情况下,使用一个10秒长的语音信号作为近端信号,并调整音量,以达到0 dB的ESR。tERLE结果和近端语音质量评价结果分别如图5和表2所示。由此可见,SBSS算法不仅在双讲条件下实现了更多的回声消除,而且具有更好的近端语音质量。
表2 使用真实数据的近端语音质量评价结果
图4 ERLE结果的真实数据为单讲的情况。
图5 tERLE结果的真实数据的双讲情况。
5 结论
在本文中,我们提出了一种新的基于SBSS的NAEC算法。我们将基函数的非线性展开系数合并到回声路径中。将远端输入信号的所有基函数视为已知的等效参考信号,利用约束比例自然梯度策略导出了一种在线SBSS算法。与基于自适应滤波的NAEC算法相比,基于近端信号和参考信号之间的独立性的SBSS算法对数值模型和实际模型之间非线性不匹配的敏感性较低。两类非线性映射的仿真和真实捕获数据的实验验证了所提出的SBSS算法在数值非线性模型与实际模型不匹配的情况下取得了更好的回声消除性能。
6 参考文献
[1] E. Hänsler and G. Schmidt, Acoustic Echo and Noise Control: A Practical Approach. Hoboken, NJ, USA: Wiley, 2004.
[2] H. Zhao, Y. Yu, S. Gao, X. Zeng and Z. He, “Memory proportionate APA with individual activation factors for acoustic echo cancellation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 6, pp. 1047–1055, Jun. 2014.
[3] W. Fan, K. Chen, J. Lu and J. Tao, “Effective improvement of undermodeling frequency-domain Kalman filter,” IEEE Signal Process. Lett., vol. 26, no. 2, pp. 342–346, Feb. 2019.
[4] M. Zeller and W. Kellermann, “Coefficient pruning for higher-order diagonals of Volterra filters representing Wiener-Hammerstein models,” in Proc. Int. Workshop, Acoust. Echo, Noise Control, Seattle, WA, Sep. 2008.
[5] M. Zeller and W. Kellermann, “Fast and robust adaptation of DFTdomain Volterra filters in diagonal coordinates using iterated coefficient updates,” IEEE Trans. Signal Process., vol. 58, no. 3, pp. 1589–1604, Mar. 2010.
[6] B. S. Nollett and D. L. Jones, “Nonlinear echo cancellation for hands-free speakerphones,” in Proc. IEEE Workshop, Nonlinear Signal, Image Process., Mackinac Island, MI, Sep. 1997.
[7] A. N. Birkett and R. A. Goubran, “Acoustic echo cancellation using NLMS-neural network structures,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Detroit, MI, May 1995, vol. 5, pp. 3035–3038.
[8] F. Küch, A. Mitnacht, and W. Kellermann, “Nonlinear acoustic echo cancellation using adaptive orthogonalized power filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Philadelphia, PA, Mar. 2005, vol. 3, pp. 105–108.
[9] A. Stenger and W. Kellermann, “Adaptation of a memoryless preprocessor for nonlinear acoustic echo cancelling,” Signal Process., vol. 80, no. 9, pp. 1747–1760, Sep. 2000.
[10] J. P. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., *, China, Apr. 2003, vol. 5, pp. 389–392.
[11] F. Kuech and W. Kellermann, “Orthogonalized power filters for nonlinear acoustic echo cancellation,” Signal Process., vol. 86, no. 6, pp. 1168–1181, Jun. 2006.
[12] K. Shi, X. Ma, and G. T. Zhou, “Acoustic echo cancellation using a pseudocoherence function in the presence of memoryless nonlinearity,” IEEE Trans. Circuits Syst. I, vol. 55, no. 9, pp. 2639–2649, Oct. 2008.
[13] S. Malik and G. Enzner, “Fourier expansion of Hammerstein models for nonlinear acoustic system identification,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Prague, CZ, May 2011, pp. 85–88.
[14] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 7, pp. 2065–2079, Sep. 2012.
[15] G. Enzner and P. Vary, “Frequency-domain adaptive Kalman filter for acoustic echo control in hands-free telephones,” Signal Process., vol. 86, no. 6, pp. 1140–1156, Jun. 2006.
[16] J. Park and J. Chang, “State-space microphone array nonlinear acoustic echo cancellation using multi-microphone near-end speech covariance,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 27, no. 10, pp. 1520–1534, Oct. 2019.
[17] J. F. Cardoso, “Blind signal separation: statistical principles,” Proceedings of the IEEE, vol. 86, no. 10, pp. 2009–2025, Oct. 1998.
[18] S. Miyabe, T. Takatani, H. Saruwatari, K. Shikano, and Y. Tatekura, “Barge-in and noise-free spoken dialogue interface based on sound field control and semi-blind source separation,” in Proc. Eur. Signal Process. Conf., Florence, Italy, Sep. 2007, pp. 232–236.
[19] T. S. Wada, S. Miyabe, and B. H. Juang, “Use of decorrelation procedure for source and echo suppression,” in Proc. IWAENC, Seattle, WA, Sep. 2008.
[20] F. Nesta, T. S. Wada, and B. H. Juang, “Batch-online semi-blind sourceseparation applied to multi-channel acoustic echo cancellation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 3, pp. 583–599, Mar. 2011.
[21] M. Joho, H. Mathis, and G. S. Moschytz, “Combined blind/nonblind source separation based on the natural gradient,” IEEE Signal Process. Lett., vol. 8, no. 8, pp. 236–238, Aug. 2001.
[22] J. Gunther, “Learning echo paths during continuous double-talk using semi-blind source separation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 2, pp. 646–660, Feb. 2012.
[23] Z. Koldovský, J. Málek, M. Müller, and P. Tichavský, “On semi-blind estimation of echo paths during double-talk based on nonstationarity,” in Proc. IWAENC, Juan-les-Pins, France, 2014, pp. 198–202.
[24] J. Gunther and T. Moon, “Blind acoustic echo cancellation without double-talk detection,” in Proc. IEEE Workshop Appl. Signal Process. Audio Acoust., New Paltz, NY, USA, Oct. 2015, pp. 1–5.
[25] S. Douglas and M. Gupta, “Scaled natural gradient algorithms for instantaneous and convolutive blind source separation,” in Proc. ICASSP, Apr. 2007, vol. II, pp. 637–640.
[26] T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher-order frequency dependencies,” IEEE Trans. Audio, Speech, Lang. Process., vol. 15, no. 1, pp. 70–79, Jan. 2007.
[27] T. Kim, “Real-time independent vector analysis for convolutive blind source separation,” IEEE Trans. on Circuit and systems, vol. 57, no. 7, pp. 1431–1438, Jul. 2010.
[28] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Amer., vol. 65, no. 4, pp. 943–950, Apr. 1979.
[29] ITU-T, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. 862, International Telecommunications Union, 2000.
[30] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “A short-time objective intelligibility measure for time-frequency weighted noisy speech,” in ICASSP, Dallas, TX, USA, Mar. 2010, pp. 4214–4217.
[31] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time–frequency weighted noisy speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125–2136, Sep. 2011.