MFCC语音处理的简要流程

最近在培训师弟时发现,有些师弟对于MFCC的特征提取流程还不熟悉,故写这篇博客。

      梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC),顾名思义,该方法的特征提取简单讲包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。

整体过程主要包含以下步骤:

1)预加重,作用就是为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分。并且能突显

高频的共振峰。

2)分帧,将语音信号分为帧

3)加窗,分帧后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征。在语音信号处理中一般加汉明窗对每帧信号加一个hamming/hanning窗,使每帧信号两端衰减至接近0

4)DFT(Discrete Fourier Transform),得到向量特征,并将能量(幅值)谱转化为功率谱

5)Mel滤波,通过Mel滤波器组进行滤波,以得到mel频谱(符合人耳听觉习惯的声谱)

6)倒谱分析:首先取对数,然后做逆变换。在实现过程中逆变换一般是通过Discrete cosine Transform(DCT)来实现,取DCT后的系数即为梅尔频率倒谱系数MFCC,也就是这帧语音的特征。

参考的博客:http://www.voidcn.com/article/p-aifqjucc-bqe.html

 

 

上一篇:状态模式


下一篇:ros(8)自定义service数据