LPC(Linear Predictive Coding,线性预测分析):由于语音信号的发音特性,提取特征后的帧与帧之间是不独立的,那么我们可以用前面的帧或后面的帧预测当前帧。所求的的预测系数就是我们要用到的特征。线性预测分析中,我们可以用一个全极点滤波器为声道响应函数建模,
即y(z)=x(z).H(z).以最小化预测误差为目标优化系数a,就可以得到特征系数。通常采用自相关方法,利用durbin算法求解方程。这里给出参数计算公式:
1) 给定一个窗内的采样点信号{sn,n=1,N},它的自相关序列计算公式为:
,i=0,p.
2) 滤波器还有一个反射系数{ki},可以理解为声道的反射系数,和预测误差E,初始化为r0,设{kj(i-1)}和{aj(i-1)}是i-1阶滤波器的反射系数和预测系数,关于i阶滤波器的反射系数和预测系数可以通过三个步骤求得:
1、
,j=1,i-1
2、
3、
4、
,j=1,i-1
5、
这样就得到了p个预测系数,我们也可以用p个反射系数ki,i=1,p当做特征。在HTK中设置参数为:
另外,也可以求预测倒谱系数作为特征。推导如下:
用倒谱系数是因为使用DCT变换,将系数去相关,那么就可以利用对角协方差矩阵去描述状态的高斯分布。倒谱特征的维数应与预测系数个数相同,HTK中有参数NUMCEPS设定。
plp(Perceptual Linear Predict ive,感知线性预测):是一种基于听觉模型的特征参数。该特征参数是全极点模型预测多项式的一组系数[ 2] ,等效于一种LPC( Linear Pr edict ion Coef f icient , 线性预测系数) 特征。它们的不同之处是PLP 技术将人耳听觉试验获得的一些结论, 通过近似计算的方法进行了工程化处理, 应用到频谱分析中, 将输入的语音信号经听觉模型处理后所得到的信号替代传统的LPC 分析所用的时域信号。经过这样处理后的语音频谱考虑到了人耳的听觉特点, 因而有利于抗噪语音特征提取。
PLP 技术主要在三个层次上模仿了人耳的听
觉感知机理:
1) 临界频带分析处理;
2) 等响度曲线预加重;
3) 信号强度- 听觉响度变换。
PLP 特征提取步骤如图所示。
1 频谱分析
语音信号经过采样、加窗、离散傅立叶变换后,
取短时语音频谱的实部和虚部的平方和, 得到短时
功率谱
P ( f ) = Rx [ X ( f ) ]2 + I m [ X ( f ) ]2 ------ ( 1)
2 临界频带分析
临界频带的划分反映了人耳听觉的掩蔽效应,
是人耳听觉模型的体现。利用公式
Z( f ) = 6ln{ f / 600+ [ ( f / 600)2 + 1] 0.5 }------- ( 2)
将频谱P ( f ) 的频率轴f 映射到Bark 频率Z, 总共
得到17 个频带。
这17 个频带中每个频带内的能量谱与式( 3) 的加权系数相乘, 求和后得到临界带宽听觉谱θ( k) 。
其中Z0 ( k ) 表示第k 个临界带听觉谱的中心频率.
3 等响度预加重
用模拟人耳大约40 dB 等响曲线E( f ) 对θ( k)
进行等响度曲线预加重, 即
Γ( k) = E[f0(k)]θ( k) , ( k = 1, 2, ..., 17) ------ ( 5)
f 0 ( k ) 表示第k 个临界带听觉谱的中心频率所对应的频率( 单位为Hz) 。其中
E[ f0(k)] =(f0(k)2 + 1. 44 * 106 )f0(k)4/( f0(k)2 + 1.6*105)2*( f0( k)2 + 9.61*109)------ ( 6)
4 强度-响度转换
为了近似模拟声音的强度与人耳感受的响度间的非线性关系, 进行强度-响度转换
θ(k) = Γ( k )0.33 ------- ( 7)
经过离散傅里叶反变换后, 用德宾算法计算12阶全极点模型, 并求出16 阶倒谱系数, 最后的结果即为PLP 特征参数。
参考文献:噪声条件下的语音特征PLP 参数的提取;魏 艳, 张雪英;太原理工大学学报第40卷第3期。
转:https://www.cnblogs.com/wb-DarkHorse/archive/2012/10/12/2721110.html