背景:針對(duì)聲學(xué)模型的調(diào)研壳影,時(shí)間2019年8月
Speech Recognition on LibriSpeech test-other
1.google的語(yǔ)音識(shí)別技術(shù)(LAS:LSTM+Attentionn)
論文1(2018年):STATE-OF-THE-ART SPEECH RECOGNITION
WITH SEQUENCE-TO-SEQUENCE MODELS
摘要:基于注意力機(jī)制的編碼器-解碼器架構(gòu),如 Listen扰肌、Attend 和 Spell(LAS)可以將傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)上的聲學(xué)、發(fā)音和語(yǔ)言模型組件集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中句柠。
在結(jié)構(gòu)上秕铛,我們證明了詞塊模型可以用來(lái)代替字素住涉。我們引入了新型的多頭注意力架構(gòu)木人,它比常用的單頭注意力架構(gòu)有所提升信柿。在優(yōu)化方面,我們探索了同步訓(xùn)練醒第、定期采樣渔嚷、平滑標(biāo)簽(label smoothing),也應(yīng)用了最小誤碼率優(yōu)化稠曼,這些方法都提升了準(zhǔn)確度形病。我們使用一個(gè)單向 LSTM 編碼器進(jìn)行串流識(shí)別并展示了結(jié)果。
LAS模型:5層lstm + 4個(gè)attention + 2層lstm
等效----> encoder(am) + ctc + decoder(lm)
ps:參考鏈接
2.Facebook:wav2letter(CNN+ASG)
最近蒲列,F(xiàn)acebook的AI研究中心(FAIR)發(fā)表的一個(gè)研究論文, 提出了一種新的單純基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)的語(yǔ)音識(shí)別技術(shù)搀罢,而且 提供了開源的實(shí)現(xiàn)wav2letter++蝗岖,一個(gè)完全基于卷積模型的高性能的語(yǔ)音識(shí)別工具箱。
全卷積語(yǔ)音識(shí)別架構(gòu)
經(jīng)過(guò)很多次實(shí)驗(yàn)榔至,F(xiàn)AIR團(tuán)隊(duì)決定依賴于一個(gè)整合多個(gè)不同CNN層的架構(gòu)來(lái)實(shí)現(xiàn)端對(duì)端的語(yǔ)音識(shí)別 流水線抵赢,從音頻波形處理到語(yǔ)言轉(zhuǎn)錄。該架構(gòu)基于下圖所示的散射模型:
模型的第一層CNN用來(lái)處理原始音頻并提取一些關(guān)鍵特征;接下來(lái)的卷積聲學(xué)模型是一個(gè)具有 門限單元的CNN铅鲤,可通過(guò)訓(xùn)練從音頻流中預(yù)測(cè)字母划提;卷積語(yǔ)言模型層則根據(jù)來(lái)自聲學(xué)模型的 輸入生成候選轉(zhuǎn)錄文本;最后環(huán)節(jié)的集束搜索(Beam-Search)編碼器則完成最終的轉(zhuǎn)錄單詞序列邢享。
論文和代碼(2019年):Fully Convolutional Speech Recognition
摘要:在本文中鹏往,我們提出了一個(gè)完全基于卷積神經(jīng)網(wǎng)絡(luò)的方法,利用原始波形骇塘,聲學(xué)模型和語(yǔ)言模型建模伊履。采用端到端的全卷積,用原始波形訓(xùn)練預(yù)測(cè)字符款违,完全去除特征提取步驟唐瀑。采用外部卷積語(yǔ)言模型進(jìn)行解碼單詞。
3.科大訊飛(CNN+CTC+Attention)
聲學(xué)模型DFCNN(CNN+CTC:2016年):https://blog.csdn.net/chinatelecom08/article/details/85013535
語(yǔ)言模型(基于attention):https://blog.csdn.net/chinatelecom08/article/details/85051817
4.NVIDIA : wav2letter變種->jasper
論文和代碼(2019年):Jasper: An End-to-End Convolutional Neural Acoustic Model
摘要:在文中插爹, 我們的模型Jasper使用1D卷積哄辣,batch normalization,ReLU赠尾,dropout力穗,residual
connections。 為了改進(jìn)培訓(xùn)萍虽,我們進(jìn)一步介紹了一個(gè)新的逐層優(yōu)化器叫做NovoGrad睛廊。 通過(guò)實(shí)驗(yàn),
我們證明了所提出的深層體系結(jié)構(gòu)的性能比更復(fù)雜的選擇好或好杉编。 我們最深的Jasper變體使用54個(gè)卷積層超全。 有了這個(gè)架構(gòu),我們使用帶語(yǔ)言模型的框架實(shí)現(xiàn)3.86%WER邓馒。
5.百度(DS2:CNN+GRU+CTC)
Deep Speach 2
論文和代碼(2015年):Deep Speech 2: End-to-End Speech Recognition in English and Mandarin
網(wǎng)絡(luò)結(jié)構(gòu)共11層嘶朱,3層CNN,7層RNN光酣,1層FC
摘要:試驗(yàn)表明疏遏,端到端的深度學(xué)習(xí)方法可以用來(lái)識(shí)別英語(yǔ)或漢語(yǔ)普通話 - 兩種截然不同的語(yǔ)言。 因?yàn)樗蒙窠?jīng)網(wǎng)絡(luò)取代了手工設(shè)計(jì)組件的整個(gè)管道救军,端到端學(xué)習(xí)使我們能夠處理各種各樣的語(yǔ)音财异,包括嘈雜的環(huán)境,重音和不同的語(yǔ)言唱遭。 我們的方法的關(guān)鍵是我們應(yīng)用HPC技術(shù)戳寸,可以比我們以前的系統(tǒng)加速7倍。 由于這種效率拷泽,以前需要幾周的實(shí)驗(yàn)現(xiàn)在可以在幾天內(nèi)完成疫鹊。 這使我們能夠更快地進(jìn)行迭代袖瞻,以確定優(yōu)秀的架構(gòu)和算法。 因此拆吆,在一些情況下聋迎,我們的系統(tǒng)在標(biāo)準(zhǔn)數(shù)據(jù)集基準(zhǔn)測(cè)試時(shí)與人類工作者的轉(zhuǎn)錄競(jìng)爭(zhēng)。 最后枣耀,在數(shù)據(jù)中心使用一種稱為Batch Dispatch with GPU的技術(shù)霉晕,我們表明我們的系統(tǒng)可以在線設(shè)置中低成本部署,在大規(guī)模服務(wù)用戶時(shí)提供低延遲奕枢。