论文翻译:2020_Acoustic Echo Cancellation With The Dual-Signal Transformation Lstm Network

论文地址:声学回声消除与双信号变换LSTM网络

博客作者:


摘要

  本文将双信号变换LSTM网络(dual-signal transformation LSTM network,DTLN)应用于实时声学回声消除(AEC)任务。DTLN在堆叠网络方法中结合了短时傅里叶变换和learned 特征表示,从而可以在时频和时域中进行可靠的信息处理,其中还包括相位信息。该模型在真实和合成的回声场景中训练60小时。训练设置包括多语种语音,数据增强,额加噪音和混响,以创建一个模型,该模型应能很好地推广到各种现实世界中。DTLN方法可在干净和嘈杂的回声条件下产生最先进的性能,从而有效减少声回声和额外的噪声。 该方法的平均意见得分(MOS)优于AEC挑战基线0.30。

索引词:AEC, real-time, deep learning, audio, voicecommunication

1  引言

 

2  方法

2.1  问题公式化 

  对于声学回声消除系统,通常可以使用两个输入信号,即麦克风信号$y(n)$和远端麦克风信号$x(n)$。 可以将近端麦克风信号描述为以下信号的组合:

$$公式1:y((n)=s(n)+v(n)+d(n)$$

其中$s(n)$是近端语音信号,$v(n)$是可能的近端噪声信号,$d(n)$对应于回声信号,它是远端麦克风信号$x(n)$与传输路径的脉冲响应$h(n)$的卷积。传输路径是由音频设备的缓冲产生的系统延迟、扬声器与放大器的结合特性以及近端扬声器和近端麦克风之间的传递函数的组合。 声学回声场景如图1所示。所需信号是近端语音信号$s(n)$,而所有其他信号部分都应删除。 此任务是音频源分离任务。 如果只有远端信号和噪声信号存在,那么期望的信号就是安静。

论文翻译:2020_Acoustic Echo Cancellation With The Dual-Signal Transformation Lstm Network

 图1  带有附加噪声的回声场景说明

2.2  适用于AEC的DTLN模型

  在Interspeech 2020的DNS挑战[12]的背景下,开发了双信号转换LSTM网络(DTLN)[15]以减少嘈杂语音混合物中的噪声。 DTLN方法适用于AEC任务(DTLN-aec1),下面将进行介绍。

  该网络由两个separation cores(分离核心)组成。 每个separation cores都有两个LSTM层和一个全连接层,并通过S型激活函数来预测masks(掩模)。 第一 separation cores 由近端和远端麦克风信号的串联归一化对数功率谱fed。 每个麦克风信号通过即时层归一化(iLN)分别归一化,以解决电平变化问题。 即时层归一化类似于标准层归一化[20],其中每个帧都单独归一化,但不随时间累积统计信息。 该概念在[21]中作为通道层标准化引入。 第一核心预测时频掩码,该时频掩码应用于近端麦克风信号的非标准化幅度STFT。 使用原始近端麦克风信号的相位,通过逆FFT将估计的幅度转换回时域。

2.3  数据集和数据集准备

 

2.4  训练和数据增强

 

2.5  基线系统

 

2.6  客观和主观评价

 

3  结果

4 总结

论文翻译:2020_Acoustic Echo Cancellation With The Dual-Signal Transformation Lstm Network

上一篇:DB-Engines 数据库流行度排行


下一篇:web手尝试解密(水文章)