各大公司的語(yǔ)音技術(shù)調(diào)研

背景:針對(duì)聲學(xué)模型的調(diào)研壳影,時(shí)間2019年8月

Speech Recognition on LibriSpeech test-other

LibriSpeech上的WER排名

1.google的語(yǔ)音識(shí)別技術(shù)(LAS:LSTM+Attentionn)

論文1(2018年):STATE-OF-THE-ART SPEECH RECOGNITION
WITH SEQUENCE-TO-SEQUENCE MODELS

摘要:基于注意力機(jī)制的編碼器-解碼器架構(gòu),如 Listen扰肌、Attend 和 Spell(LAS)可以將傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)上的聲學(xué)、發(fā)音和語(yǔ)言模型組件集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中句柠。

在結(jié)構(gòu)上秕铛,我們證明了詞塊模型可以用來(lái)代替字素住涉。我們引入了新型的多頭注意力架構(gòu)木人,它比常用的單頭注意力架構(gòu)有所提升信柿。在優(yōu)化方面,我們探索了同步訓(xùn)練醒第、定期采樣渔嚷、平滑標(biāo)簽(label smoothing),也應(yīng)用了最小誤碼率優(yōu)化稠曼,這些方法都提升了準(zhǔn)確度形病。我們使用一個(gè)單向 LSTM 編碼器進(jìn)行串流識(shí)別并展示了結(jié)果。

las.png

LAS模型:5層lstm + 4個(gè)attention + 2層lstm
等效----> encoder(am) + ctc + decoder(lm)

ps:參考鏈接

2.Facebook:wav2letter(CNN+ASG)

最近蒲列,F(xiàn)acebook的AI研究中心(FAIR)發(fā)表的一個(gè)研究論文, 提出了一種新的單純基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)的語(yǔ)音識(shí)別技術(shù)搀罢,而且 提供了開源的實(shí)現(xiàn)wav2letter++蝗岖,一個(gè)完全基于卷積模型的高性能的語(yǔ)音識(shí)別工具箱。

全卷積語(yǔ)音識(shí)別架構(gòu)

經(jīng)過(guò)很多次實(shí)驗(yàn)榔至,F(xiàn)AIR團(tuán)隊(duì)決定依賴于一個(gè)整合多個(gè)不同CNN層的架構(gòu)來(lái)實(shí)現(xiàn)端對(duì)端的語(yǔ)音識(shí)別 流水線抵赢,從音頻波形處理到語(yǔ)言轉(zhuǎn)錄。該架構(gòu)基于下圖所示的散射模型:

wav2letter

模型的第一層CNN用來(lái)處理原始音頻并提取一些關(guān)鍵特征;接下來(lái)的卷積聲學(xué)模型是一個(gè)具有 門限單元的CNN铅鲤,可通過(guò)訓(xùn)練從音頻流中預(yù)測(cè)字母划提;卷積語(yǔ)言模型層則根據(jù)來(lái)自聲學(xué)模型的 輸入生成候選轉(zhuǎn)錄文本;最后環(huán)節(jié)的集束搜索(Beam-Search)編碼器則完成最終的轉(zhuǎn)錄單詞序列邢享。

參考:wav2letter++簡(jiǎn)介

論文和代碼(2019年):Fully Convolutional Speech Recognition

摘要:在本文中鹏往,我們提出了一個(gè)完全基于卷積神經(jīng)網(wǎng)絡(luò)的方法,利用原始波形骇塘,聲學(xué)模型和語(yǔ)言模型建模伊履。采用端到端的全卷積,用原始波形訓(xùn)練預(yù)測(cè)字符款违,完全去除特征提取步驟唐瀑。采用外部卷積語(yǔ)言模型進(jìn)行解碼單詞。

Fully Convolutional Speech Recognition

3.科大訊飛(CNN+CTC+Attention)

聲學(xué)模型DFCNN(CNN+CTC:2016年):https://blog.csdn.net/chinatelecom08/article/details/85013535

dfcnn.png

語(yǔ)言模型(基于attention):https://blog.csdn.net/chinatelecom08/article/details/85051817

4.NVIDIA : wav2letter變種->jasper

論文和代碼(2019年):Jasper: An End-to-End Convolutional Neural Acoustic Model

摘要:在文中插爹, 我們的模型Jasper使用1D卷積哄辣,batch normalization,ReLU赠尾,dropout力穗,residual
connections
。 為了改進(jìn)培訓(xùn)萍虽,我們進(jìn)一步介紹了一個(gè)新的逐層優(yōu)化器叫做NovoGrad睛廊。 通過(guò)實(shí)驗(yàn),
我們證明了所提出的深層體系結(jié)構(gòu)的性能比更復(fù)雜的選擇好或好杉编。 我們最深的Jasper變體使用54個(gè)卷積層超全。 有了這個(gè)架構(gòu),我們使用帶語(yǔ)言模型的框架實(shí)現(xiàn)3.86%WER邓馒。

Figure 2: Jasper Dense Residual

5.百度(DS2:CNN+GRU+CTC)

Deep Speach 2

論文和代碼(2015年):Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

網(wǎng)絡(luò)結(jié)構(gòu)共11層嘶朱,3層CNN,7層RNN光酣,1層FC


ds2.png

摘要:試驗(yàn)表明疏遏,端到端的深度學(xué)習(xí)方法可以用來(lái)識(shí)別英語(yǔ)或漢語(yǔ)普通話 - 兩種截然不同的語(yǔ)言。 因?yàn)樗蒙窠?jīng)網(wǎng)絡(luò)取代了手工設(shè)計(jì)組件的整個(gè)管道救军,端到端學(xué)習(xí)使我們能夠處理各種各樣的語(yǔ)音财异,包括嘈雜的環(huán)境,重音和不同的語(yǔ)言唱遭。 我們的方法的關(guān)鍵是我們應(yīng)用HPC技術(shù)戳寸,可以比我們以前的系統(tǒng)加速7倍。 由于這種效率拷泽,以前需要幾周的實(shí)驗(yàn)現(xiàn)在可以在幾天內(nèi)完成疫鹊。 這使我們能夠更快地進(jìn)行迭代袖瞻,以確定優(yōu)秀的架構(gòu)和算法。 因此拆吆,在一些情況下聋迎,我們的系統(tǒng)在標(biāo)準(zhǔn)數(shù)據(jù)集基準(zhǔn)測(cè)試時(shí)與人類工作者的轉(zhuǎn)錄競(jìng)爭(zhēng)。 最后枣耀,在數(shù)據(jù)中心使用一種稱為Batch Dispatch with GPU的技術(shù)霉晕,我們表明我們的系統(tǒng)可以在線設(shè)置中低成本部署,在大規(guī)模服務(wù)用戶時(shí)提供低延遲奕枢。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末娄昆,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子缝彬,更是在濱河造成了極大的恐慌萌焰,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谷浅,死亡現(xiàn)場(chǎng)離奇詭異扒俯,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)一疯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門撼玄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人墩邀,你說(shuō)我怎么就攤上這事掌猛。” “怎么了眉睹?”我有些...
    開封第一講書人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵荔茬,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我竹海,道長(zhǎng)慕蔚,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任斋配,我火速辦了婚禮孔飒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘艰争。我一直安慰自己坏瞄,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開白布甩卓。 她就那樣靜靜地躺著鸠匀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪猛频。 梳的紋絲不亂的頭發(fā)上狮崩,一...
    開封第一講書人閱讀 49,031評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音鹿寻,去河邊找鬼睦柴。 笑死,一個(gè)胖子當(dāng)著我的面吹牛毡熏,可吹牛的內(nèi)容都是我干的坦敌。 我是一名探鬼主播,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼痢法,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼狱窘!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起财搁,我...
    開封第一講書人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蘸炸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后尖奔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體搭儒,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年提茁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了淹禾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡茴扁,死狀恐怖铃岔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情峭火,我是刑警寧澤毁习,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站躲胳,受9級(jí)特大地震影響蜓洪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜坯苹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一隆檀、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧粹湃,春花似錦恐仑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至孤钦,卻和暖如春歧斟,著一層夾襖步出監(jiān)牢的瞬間纯丸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工静袖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留觉鼻,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓队橙,卻偏偏與公主長(zhǎng)得像坠陈,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子捐康,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345