当前的采样频率为11025HZ,overlap=0.5,取的是1024个采样点为1帧。则time step为256时的时间长度为11秒。即以11秒为单位分割原始的音频,生成一张语普图。
>>> 512.0*256/11025.0
11.888616780045352
当采样频率为16000HZ,overlap=0.5,取的是1024个采样点为1帧。则time step为256时的时间长度为8秒。
>>> 512.0*256/16000.0
8.192
当采样频率为44100HZ,overlap=0.5,取的是1024个采样点为1帧。则time step为256时的时间长度为3秒。
>>> 512.0*256/44100.0
2.972154195011338
假设以s秒为单位分割语音,即每s秒生成一张语普图,设采样频率为rhz,overlap=0.5,则应该取多少个采样点(设为x)为1帧呢?time step应该为多少(设为y)呢?
满足如下公式:x*0.5*y/r = s
设s = 1,r=16000,则 x* y = 2*r*s = 32000,假设x=1000,则 y=32