语音增强、去噪文献调研

语音增强

paper1:

简介

论文 (期刊和发表时间)
Speech Enhancement Using a- Minimum Mean- Square Error Short-Time Spectral Amplitude Estimator (IEEE Transactions on acoustics, speech, and signal processing-1984)
论文链接
https://ieeexplore.ieee.org/abstract/document/1164453

主要 idea

本文介绍一类语音增强系统,它利用语音信号的短时频谱幅度(STSA)在感知中的重要作用,提出了一种基于最小均方误差(MMSE)的STSA估计器。

paper2:

简介

论文:
MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement

主要Idea:
用于训练语音增强模型的成本函数与人类听觉感知之间的差异通常会使增强语音的质量不令人满意。 因此,考虑人类感知的客观评估指标可以作为缩小差距的桥梁。 在这项研究中,我们提出了一个 MetricGAN+,其中提出了三种结合语音处理领域知识的训练技术。

代码链接:
https://github.com/speechbrain/speechbrain/tree/develop/recipes/Voicebank/enhance/MetricGAN

paper3:

简介

论文 (期刊和发表时间):
Deep learning for minimum mean-square error approaches to speech enhancement (Speech communication 2019)

论文链接:论文链接

主要idea:最近,语音增强的研究重点已经从最小均方误差(MMSE)方法,如MMSE短时谱幅度(MMSE-STSA)估计器,转向最新的基于掩蔽和映射的深度学习方法。我们的目标是弥合这两种不同的语音增强方法之间的差距。本文研究了MMSE方法的深度学习方法,目的是产生高质量的可理解增强语音。

代码:代码链接

语音去噪

paper1:

简介

论文 (期刊和发表时间)
Speech Denoising with Deep Feature Losses. (Interspeech 2018)

论文链接:https://arxiv.org/pdf/1806.10522.pdf

主要Idea:
我们提出了一种端到端的深度学习方法,通过直接处理原始波形来去除语音信号中的噪声。给定包含被附加背景信号破坏的语音的输入音频,该系统的目标是产生仅包含语音内容的处理信号。在本文中,我们提出使用深度特征损失来训练全卷积上下文聚合网络。我们的方法在客观语音质量度量和在人类听者的大规模感知实验中的表现都优于最先进的语音质量度量标准。它的性能也优于使用传统回归损失训练的相同网络。

代码链接:https://github.com/francoisgermain/SpeechDenoisingWithDeepFeatureLosses

paper2:

简介

论文 (期刊和发表时间)
Speech Denoising by Accumulating Per-Frequency Modeling Fluctuations.

论文链接:https://arxiv.org/pdf/1904.07612v3.pdf

主要Idea:
我们提出了一种结合时域和时频域处理的音频去噪方法。在给定一个有噪声的音频片段的情况下,该方法训练一个深度神经网络来适应该信号。由于拟合只有部分成功,并且能够比噪声更好地捕获潜在的干净信号,因此网络的输出有助于将干净的音频从信号的其余部分中分离出来。这是通过在每个时频单元中累积合适的分数并基于所获得的分数应用时频域滤波来实现的。该方法是完全无人监督的,并且仅针对正在被去噪的特定音频剪辑进行训练。实验结果表明,与文献方法相比,该方法具有较好的性能。

代码链接:https://github.com/mosheman5/dnp

paper3:

简介

论文 (期刊和发表时间)
Listening to Sounds of Silence for Speech Denoising. (NeurIPS 2020)

论文链接:https://proceedings.neurips.cc//paper/2020/file/6d7d394c9d0c886e9247542e06ebb705-Paper.pdf

主要Idea:
我们引入了一种用于语音去噪的深度学习模型,这是许多应用中出现的音频分析中的长期挑战。我们的方法基于对人类语音的关键观察:每个句子或单词之间通常会有短暂的停顿。在录制的语音信号中,这些暂停会引入一系列仅存在噪声的时间段。我们利用这些偶然的静音间隔来学习仅给出单通道音频的自动语音去噪模型。随着时间的推移检测到的静音间隔不仅暴露纯噪声,而且还暴露其时变特征,允许模型学习噪声动态并从语音信号中抑制噪声动态。

代码链接:https://github.com/henryxrl/Listening-to-Sound-of-Silence-for-Speech-Denoising

上一篇:基于pyttsx3+speech_recognition


下一篇:【独家】2017年大数据圈最关注的是?世界顶尖大数据峰会SHW见闻(三)Keynote Speech