最近在培训师弟时发现,有些师弟对于MFCC的特征提取流程还不熟悉,故写这篇博客。
梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC),顾名思义,该方法的特征提取简单讲包含两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
整体过程主要包含以下步骤:
1)预加重,作用就是为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分。并且能突显
高频的共振峰。
2)分帧,将语音信号分为帧
3)加窗,分帧后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征。在语音信号处理中一般加汉明窗对每帧信号加一个hamming/hanning窗,使每帧信号两端衰减至接近0
4)DFT(Discrete Fourier Transform),得到向量特征,并将能量(幅值)谱转化为功率谱
5)Mel滤波,通过Mel滤波器组进行滤波,以得到mel频谱(符合人耳听觉习惯的声谱)
6)倒谱分析:首先取对数,然后做逆变换。在实现过程中逆变换一般是通过Discrete cosine Transform(DCT)来实现,取DCT后的系数即为梅尔频率倒谱系数MFCC,也就是这帧语音的特征。
参考的博客:http://www.voidcn.com/article/p-aifqjucc-bqe.html