1.语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪声信号都是随机产生的,而且产生的原因和特性相当复杂,因此,完全消除噪声几乎不可能。
实际语音增强的目标主要有,提高语音质量和可懂度这两个指标。
语音增强技术是语音处理的一个重要技术,多年来学者们不懈努力,寻求各种优良的语音增强算法。在近三年的研究中,各种语音增强方法不断被提出,
如基于小波变换的方法,基于人耳掩蔽效应的方法,基于听觉屏蔽的语音增强算法,基于最小均方误差MMSE-LSA语音增强算法,谱减法等,奠定了语音增强理论的基础并使之逐渐走向成熟。
2.几种语音增强算法简介
对于语音增强的分类可以按以下四大块进行划分:
1)参数方法:如维纳滤波、梳状滤波器、卡尔曼滤波器等。此类方法依赖于使用的语言
生成模型(例如AR模型),需要提取模型参数(如基音周期、LPC系数),常常使用迭代方法。
如果实际噪音或语音条件与模型有较大的差距或提取模型参数有困难,则此类方法较容易失效。
2)非参数方法:如谱减法、自适应滤波等。因为不需要从带噪信号中估计模型参数,非
参数方法的应用范围较广,限制比较少。也因为约束条件较少,没有利用可能的统计信息,
结果一般不是最优化的。
3)统计方法:如隐马尔科夫模型、纯净语音谱和带噪语音谱对应映射、极大后验概率估
计(MAP),最小均方误差估计(MMSE)等。统计方法较充分地利用了语音和噪音的统计特
性,一般要建立模型库,需要训练过程获得初始统计参数,与语音识别系统的联系很密切。
4)其它方法:如小波滤波、卡维南一洛维变换、人工神经网络等。这些方法不像前三类
方法那样成熟,可以概括地称为非主流方法。
下面对几种常用的语音增强算法其进行简单介绍。
1)噪声对消法:噪声对消法的基本原理是从带噪语音中直接减去噪声(从频域或时域均
可)。其最大特点是需要采集背景噪声作为参考信号(大部分需要一个或多个麦克风以便采集
背景噪声数据),参考信号准确与否直接决定着噪声对消法的性能。在采集背景噪声时,往
往采用自适应滤波技术,以便使参考信号尽可能接近带噪语音中的噪声分量。
2)谐波增强法(自适应梳状滤波):
语音中的浊音部分能量很大,往往占据一段语音的大部分能量,同时它具有明显的周期性。
这种周期性反映到频域中则为一系列分别对应基频(基音)及其谐波的一个个峰值分量,这些频率分量占据了整个频段的大部分能量,利用这种周期性。
可采用自适应梳状滤波器来提取基音及其谐波分量,抑制其他周期性噪声和非周期的
宽带噪声。由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周
期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。
3)幅度谱相减法:对带噪语音信号进行傅立叶变换,在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱。
利用人耳对语音相位的不敏感性,语音相位谱则近似用带噪语音的相位谱代替。
4)功率谱相减法:这种方法是从带噪语音功率谱中减去噪声的功率谱,从而得到语音
信号的功率谱,进而决定语音信号各频谱分量增益,最终得到语音信号的估计。
5)维纳滤波法:维纳滤波法是为得到语音信号的时域波形,在最小均方误差准则下得
到的最优估计器。实际应用中,多采用非因果维纳滤波器的频域实现形式。
6)语音参数模型法:语音的发声过程可以建模为一个线性时变滤波器.对不同类型的语
音采用不同的激励源。例如对于浊音,可以使用周期与基音周期相同的脉冲串来模拟激励;
而对于清音,则可以使用高斯白噪声来模拟。在语音的生成模型中,应用最广泛的是全极点模型。
基于语音生成模型可以得到一系列语音增强方法,比如时变参数维纳滤波及卡尔曼滤波方法。
卡尔曼滤波就是基于语音生成模型的一种有效语音增强方法,它能有效消除有色噪声。