推薦一個非常好的網(wǎng)址,它介紹 filter banks 和 MFCCs 得非常好鸳君。
并且我的總結(jié)就是來自于這個網(wǎng)址, 并且學(xué)習(xí)到的代碼記錄在github
首先 Filter? Banks 和 MFCCs 的原理流程框圖如圖1 所示倒得。
圖1??Filter? Banks 和 MFCCs 的原理流程框圖
總結(jié)的一些知識點:
1泻红、預(yù)加重使用公式? y(t)=x(t)?αx(t?1) ,?α 一般取 0.95 或 0.97
在存在均值歸一化的情況下霞掺,預(yù)加重可能起到的作用并不大谊路,因此在現(xiàn)在的語音識別系統(tǒng)中并不要求有預(yù)加重這一操作。
2菩彬、語音處理中的典型幀大小范圍為20ms至40ms缠劝,連續(xù)幀之間具有50%(+/- 10%)重疊。
3骗灶、hanming window :??, 其中 N 是 一幀包含的點數(shù)惨恭。
4、N 點 FFT 一般 N 取 256 或 512 且功率譜的計算公式為:?
5耙旦、filter banks 的個數(shù)即為三角濾波器的個數(shù)脱羡,一般取 40 。 頻率 f 和 mel 頻率的映射公式如下免都,記得在編程時使用小數(shù)(例如:700 --> 700.0)
6轻黑、三角濾波器的方程及圖為:
7、如果機(jī)器學(xué)習(xí)算法不易受高度相關(guān)輸入的影響琴昆,請使用Mel縮放濾波器組。 如果機(jī)器學(xué)習(xí)算法易受相關(guān)輸入的影響馆揉,請使用MFCC业舍。(不太理解這句話的意思。升酣。舷暮。)