零基础入门语音识别-食物声音识别
音频数据特征值的提取及MFCC特征提取知识
Task3 音频特征提取介绍打卡
本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。
baseline由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning
任务介绍
本次任务,要求我们在初步理解了数据集的信息后。当我们拿到这些音频数据,需要如何进行特征提取,筛选出我们需要的信息。学习MFCC特征提取知识。
音频数据的特征值
对于一段音频信息来说,通过对不同特征的提取,我们可以选择我们需要体现的特征信息,进而对其进行分辨,识别等。在此次赛程中,对咀嚼声音的识别关键我觉得是对其进行MFCC特征提取的精度。
MFCC特征提取
在对咀嚼声音进行识别时,我们要模仿让机器和人听到的声音相仿。这就要用到MFCC特征提取。
MFCC特征提取的步骤如下:
1.对语音信号进行分帧处理
上面对音频进行分帧,加窗,是在进行短时傅里叶变换。所谓的短时傅里叶变换,即把一段长信号分帧、加窗,再对每一帧做快速傅里叶变换(FFT),最后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式。
声谱图往往是像上图一样很大的一张图,且依旧包含了大量无用的信息,所以我们需要通过梅尔标度滤波器组(mel-scale filter banks)将其变为梅尔频谱。进一步突出我们想要的特征值。
我们可以发现,上面的滤波器组中,区间的频率越高,滤波器就越宽(但是如果把它变换到美尔尺度则是一样宽的)。这就是为了模拟人耳对声音的感知,人耳对声音的低频部分会比高频部分更敏感。
我们可以观察一下转换后的映射图,可以发现人耳对于低频声音的分辨率要高于高频的声音,因为赫兹到梅尔是log的关系,所以当频率较小时,mel随Hz变化较快;当频率很大时,mel的上升很缓慢,曲线的斜率很小。这说明了人耳对低频音调的感知较灵敏,在高频时人耳是很迟钝的,梅尔标度滤波器组启发于此。
Task3里,我最大的收获就是理解了为什么要用梅尔谱来提取咀嚼声音的特征值,但对之后的梅尔倒谱的理解还不是很透彻,因此就不在此描述。