一、簡介
F-LSTM和TF-LSTM主要目的是為了取代CNN作為特征提取的工具蹲坷,來達(dá)到對頻帶間相關(guān)性建模的目的驶乾。F-LSTM和TF-LSTM也是通過類似卷積的方式,通過一個小的滑動窗來捕獲語音的平移不變性循签。
因為使用Peephole方式的LSTM效果更好一些级乐,因此本文提到了LSTM都是使用Peephole連接方式。
通過對比實(shí)驗县匠,Grid-LSTM與TF-LSTM特征提取的效果要比CNN好很多风科,但同時計算速度也慢很多。
二乞旦、T-LSTM
T-LSTM就是原始的LSTM贼穆,沿著時間軸,將每幀輸入LSTM中進(jìn)行預(yù)測兰粉。即上圖橫向故痊。
三、F-LSTM
F-LSTM的形式與T-LSTM類似玖姑,只不過輸入有變化愕秫,其中的
x0 = xt0:F慨菱,x1 = xt1:1+F,x2 = xt2:2+F戴甩,......符喝,
即將每幀語音按照長為 F的滑動窗 進(jìn)行分割,并且 步長為S等恐,輸入到F-LSTM中洲劣。
則特征維度為N的一幀語音被分割為L = (N - F)/S + 1 塊。
形式化表述:
其中:
- ij :輸入門
- fj :遺忘門
- cj:memory cell
- oj:輸出門
- mj:LSTM的輸出
F-LSTM單元引入了如下信息:
- 當(dāng)前時刻輸入:xj
- 上一時刻輸出:mt-1
- 上一時刻memory:ct-1
優(yōu)點(diǎn):
- 與CNN類似课蔬,也是采用權(quán)值共享減少參數(shù)個數(shù)囱稽;
- 可以提取頻帶局部結(jié)構(gòu);
- 卷積通過pooling捕獲頻率的平移不變性二跋,F(xiàn)-LSTM能夠?qū)崿F(xiàn)類似max-pooling的作用战惊,并且省去了對pooling操作調(diào)參的步驟;
四扎即、TF-LSTM
因為語音的時域和頻域存在相關(guān)性吞获,因此對時頻同時建模來引入時頻之間的相關(guān)性。
形式化表述:
TF-LSTM單元引入了如下信息:
- 當(dāng)前時刻輸入:xt,k
- 當(dāng)前時刻第k-1個block的輸出:mt,k-1
- 上一時刻第 k 個block的輸出:mt-1,k
- 上一時刻第 k 個block的memory:ct-1,k
五谚鄙、Grid-LSTM
TF-LSTM與Grid-LSTM的最大差別就是Grid-LSTM在time-domain和frequency-domain分別各有一個LSTM單元各拷,而TF-LSTM是將time-domain和frequency-domain放在一個LSTM單元里。
Grid-LSTM分別得到時域和頻域的輸出闷营,然后將兩者拼接(concatenate)到一起烤黍。
但是兩個LSTM單元在訓(xùn)練時計算量很大,導(dǎo)致Grid-LSTM訓(xùn)練速度比TF-LSTM慢很多傻盟,但是也可以令gF-LSTM和gT-LSTM的權(quán)值共享速蕊,可以加快LSTM的訓(xùn)練速度,降低計算開銷娘赴。
形式化表述:
Grid-LSTM單元引入了如下信息:
- 當(dāng)前時刻輸入:xt,k
- 當(dāng)前時刻第k-1個block的輸出:mt,k-1
- 上一時刻第 k 個block的輸出:mt-1,k
- 上一時刻第 k 個block的memory:ct-1,k
- 當(dāng)前時刻第k-1個block的memory:ct,k-1