(转载)plp特征提取原理和方法

2024-03-21 07:53:57

LPC(Linear Predictive Coding，线性预测分析)：由于语音信号的发音特性，提取特征后的帧与帧之间是不独立的，那么我们可以用前面的帧或后面的帧预测当前帧。所求的的预测系数就是我们要用到的特征。线性预测分析中，我们可以用一个全极点滤波器为声道响应函数建模，

即y(z)=x(z).H(z).以最小化预测误差为目标优化系数a,就可以得到特征系数。通常采用自相关方法，利用durbin算法求解方程。这里给出参数计算公式:

1) 给定一个窗内的采样点信号{sn,n=1,N},它的自相关序列计算公式为：

，i=0,p.

2) 滤波器还有一个反射系数{ki},可以理解为声道的反射系数，和预测误差E，初始化为r0,设{kj(i-1)}和{aj(i-1)}是i-1阶滤波器的反射系数和预测系数，关于i阶滤波器的反射系数和预测系数可以通过三个步骤求得：

1、

，j=1,i-1

2、

3、

4、

，j=1,i-1

5、

这样就得到了p个预测系数，我们也可以用p个反射系数ki,i=1,p当做特征。在HTK中设置参数为：

另外，也可以求预测倒谱系数作为特征。推导如下：

用倒谱系数是因为使用DCT变换，将系数去相关，那么就可以利用对角协方差矩阵去描述状态的高斯分布。倒谱特征的维数应与预测系数个数相同，HTK中有参数NUMCEPS设定。

plp(Perceptual Linear Predict ive，感知线性预测):是一种基于听觉模型的特征参数。该特征参数是全极点模型预测多项式的一组系数[ 2] ,等效于一种LPC( Linear Pr edict ion Coef f icient , 线性预测系数) 特征。它们的不同之处是PLP 技术将人耳听觉试验获得的一些结论, 通过近似计算的方法进行了工程化处理, 应用到频谱分析中, 将输入的语音信号经听觉模型处理后所得到的信号替代传统的LPC 分析所用的时域信号。经过这样处理后的语音频谱考虑到了人耳的听觉特点, 因而有利于抗噪语音特征提取。

PLP 技术主要在三个层次上模仿了人耳的听
觉感知机理:
1) 临界频带分析处理;
2) 等响度曲线预加重;
3) 信号强度- 听觉响度变换。
PLP 特征提取步骤如图所示。

1 频谱分析
语音信号经过采样、加窗、离散傅立叶变换后,
取短时语音频谱的实部和虚部的平方和, 得到短时
功率谱
P ( f ) = Rx [ X ( f ) ]² + I m [ X ( f ) ]² ------ ( 1)
2 临界频带分析
临界频带的划分反映了人耳听觉的掩蔽效应,
是人耳听觉模型的体现。利用公式
Z( f ) = 6ln{ f / 600+ [ ( f / 600)² + 1] ^0.5 }------- ( 2)
将频谱P ( f ) 的频率轴f 映射到Bark 频率Z, 总共
得到17 个频带。
这17 个频带中每个频带内的能量谱与式( 3) 的加权系数相乘, 求和后得到临界带宽听觉谱θ( k) 。

其中Z₀ ( k ) 表示第k 个临界带听觉谱的中心频率.

3 等响度预加重
用模拟人耳大约40 dB 等响曲线E( f ) 对θ( k)
进行等响度曲线预加重, 即
Γ( k) = E[f0(k)]θ( k) , ( k = 1, 2, ..., 17) ------ ( 5)
f₀ ( k ) 表示第k 个临界带听觉谱的中心频率所对应的频率( 单位为Hz) 。其中
E[ f0(k)] =(f0(k)² + 1. 44 * 10⁶ )f₀(k)⁴/( f0(k)² + 1.6*10⁵)²*( f0( k)² + 9.61*10⁹)------ ( 6)
4 强度-响度转换
为了近似模拟声音的强度与人耳感受的响度间的非线性关系, 进行强度-响度转换
θ(k) = Γ( k )^0.33 ------- ( 7)
经过离散傅里叶反变换后, 用德宾算法计算12阶全极点模型, 并求出16 阶倒谱系数, 最后的结果即为PLP 特征参数。

参考文献：噪声条件下的语音特征PLP 参数的提取；魏艳, 张雪英；太原理工大学学报第40卷第3期。

转：https://www.cnblogs.com/wb-DarkHorse/archive/2012/10/12/2721110.html

码农公寓

相关文章