谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng):詞錯(cuò)率降低至5.6%

姓名:崔哲琪

學(xué)號(hào):16040120090

轉(zhuǎn)載自https://zhuanlan.zhihu.com/p/32053520?

【嵌牛導(dǎo)讀】

近日首妖,谷歌發(fā)表博客介紹了他們對(duì)端到端語(yǔ)音識(shí)別模型的最新研究成果,新模型結(jié)合了多種優(yōu)化算法提升 LAS 模型的性能爷恳。相較于分離訓(xùn)練的傳統(tǒng)系統(tǒng)有缆,新方法充分地發(fā)揮了聯(lián)合訓(xùn)練的優(yōu)勢(shì),在語(yǔ)音搜索任務(wù)中取得了當(dāng)前業(yè)內(nèi)最低的詞錯(cuò)率結(jié)果温亲。

【嵌牛鼻子】谷歌妒貌,語(yǔ)音識(shí)別系統(tǒng),詞錯(cuò)率低

【嵌牛提問(wèn)】

谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)到底是什么樣的呢铸豁?

【嵌牛正文】

當(dāng)前最佳語(yǔ)音搜索模型

傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)一直被谷歌的多種語(yǔ)音搜索應(yīng)用所使用灌曙,它由聲學(xué)模型(AM)、發(fā)音模型(PM)和語(yǔ)言模型(LM)組成节芥,所有這些都會(huì)經(jīng)過(guò)獨(dú)立訓(xùn)練在刺,同時(shí)通常是由手動(dòng)設(shè)計(jì)的,各個(gè)組件會(huì)在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練头镊。AM 提取聲學(xué)特征并預(yù)測(cè)一系列子字單元(subword unit)蚣驼,通常是語(yǔ)境依賴或語(yǔ)境獨(dú)立的音素。然后相艇,手動(dòng)設(shè)計(jì)的詞典(PM)將聲學(xué)模型生成的音素序列映射到單詞上颖杏。最后,LM 為單詞序列分配概率坛芽。獨(dú)立地訓(xùn)練各個(gè)組件會(huì)產(chǎn)生額外的復(fù)雜性留储,最終得到的性能低于聯(lián)合訓(xùn)練所有的組件翼抠。過(guò)去幾年來(lái)出現(xiàn)了越來(lái)越多開(kāi)發(fā)中的端到端系統(tǒng)嘗試以單個(gè)系統(tǒng)的方式聯(lián)合學(xué)習(xí)這些分離的組件。雖然相關(guān)文獻(xiàn)表明這些端到端模型具有潛在價(jià)值 [2,3]获讳,但對(duì)于這樣的方法是否能提升當(dāng)前最佳的傳統(tǒng)系統(tǒng)的性能阴颖,尚無(wú)定論。

最近丐膝,谷歌發(fā)布了其最新研究量愧,「使用序列到序列模型的當(dāng)前最佳語(yǔ)音識(shí)別系統(tǒng)」(State-of-the-art Speech Recognition With Sequence-to-Sequence Models[4])。這篇論文描述了一種新型的端到端模型帅矗,它的性能優(yōu)于目前已商用的傳統(tǒng)方法 [1]偎肃。在谷歌的研究中,新的端到端系統(tǒng)的詞錯(cuò)率(WER)可以降低到 5.6%浑此,相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升(6.7%WER)累颂。此外,該端到端模型可以在任何的假設(shè)再評(píng)分(hypothesis rescoring)之前輸出初始詞假設(shè)尤勋。該模型的大小只有傳統(tǒng)模型的 1/18,因?yàn)樗话蛛x的 LM 和 PM茵宪。

谷歌的新系統(tǒng)建立在 Listen-Attend-Spell(LAS最冰,在文獻(xiàn) [2] 中首次提出)端到端架構(gòu)之上。LAS 架構(gòu)由三個(gè)組件組成稀火。listener 編碼器組件暖哨,和標(biāo)準(zhǔn)的 AM 相似,取輸入語(yǔ)音信號(hào) x 的時(shí)間-頻率表征凰狞,然后使用一系列的神經(jīng)網(wǎng)絡(luò)層將輸入映射到一個(gè)高級(jí)特征表示篇裁,henc。編碼器的輸出被傳遞到 attender赡若,其使用 henc 學(xué)習(xí)輸入特征 x 和預(yù)測(cè)子字單元的 {y_n,...y_0} 之間的對(duì)齊方式达布,其中每個(gè)子字通常是一個(gè)字素或字片。最后逾冬,attention 模塊的輸出被傳遞給 speller(即解碼器)黍聂,speller 和 LM 相似,可以生成一系列假設(shè)詞的概率分布身腻。

圖片發(fā)自簡(jiǎn)書App

LAS 端到端模型的組件

LAS 模型的所有組件通過(guò)單個(gè)端到端神經(jīng)網(wǎng)絡(luò)聯(lián)合地訓(xùn)練产还,相較于傳統(tǒng)系統(tǒng)的分離模塊更加簡(jiǎn)單。

此外嘀趟,因?yàn)?LAS 模型都是神經(jīng)網(wǎng)絡(luò)類型脐区,因此并不需要添加外部的手動(dòng)設(shè)計(jì)組件,例如有限狀態(tài)轉(zhuǎn)換器她按、詞典或文本歸一化模塊牛隅。最后炕柔,和傳統(tǒng)模型不同,訓(xùn)練端到端模型不需要決策樹的引導(dǎo)或一個(gè)分離系統(tǒng)生成的時(shí)間序列倔叼,給定了文本副本和相關(guān)的聲學(xué)特征之后汗唱,就可以進(jìn)行訓(xùn)練。

在文獻(xiàn) [4] 中丈攒,谷歌引入了一種新型的結(jié)構(gòu)化提升哩罪,包括優(yōu)化傳遞給解碼器的注意力向量,以及優(yōu)化更長(zhǎng)的子字單元(即字片巡验,wordpieces)的訓(xùn)練過(guò)程际插。此外,谷歌在新模型中還引入了大量的優(yōu)化訓(xùn)練過(guò)程的方法显设,包括最小詞錯(cuò)率訓(xùn)練法(minimum word error rate training[5])框弛。正是這些結(jié)構(gòu)化和優(yōu)化提升使新模型取得了相對(duì)于傳統(tǒng)模型 16% 的性能提升。

這項(xiàng)研究的另一個(gè)潛在應(yīng)用是多方言和多語(yǔ)言系統(tǒng)捕捂,僅需優(yōu)化單個(gè)神經(jīng)網(wǎng)絡(luò)所帶來(lái)的簡(jiǎn)單性是很有吸引力的瑟枫。所有的方言/語(yǔ)言可以被組合以訓(xùn)練一個(gè)網(wǎng)絡(luò),而不需要為每個(gè)方言/語(yǔ)言分配分離的 AM指攒、PM 和 LM慷妙。谷歌生成這些模型在 7 種英語(yǔ)方言 [6] 和 9 種印度方言 [7] 上都工作得很好,優(yōu)于分離地訓(xùn)練模型的性能允悦。

雖然結(jié)果很吸引人膝擂,但是研究人員認(rèn)為目前的探索還尚未完成。第一隙弛,這些模型還不能實(shí)時(shí)地處理語(yǔ)音 [8,9,10]架馋,而實(shí)時(shí)處理對(duì)于延遲敏感的應(yīng)用如語(yǔ)音搜索而言是必要的。第二全闷,這些模型在實(shí)際生產(chǎn)數(shù)據(jù)上進(jìn)行評(píng)估的時(shí)候表現(xiàn)仍然不佳叉寂。第三,谷歌目前的端到端模型是在 22,000 個(gè)錄音-文本對(duì)上學(xué)習(xí)的总珠,而傳統(tǒng)系統(tǒng)通嘲炀可以在顯著大得多的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。最后姚淆,新模型還不能為生僻詞學(xué)習(xí)合適的拼寫孕蝉,例如專有名詞(一般還需要使用手動(dòng)設(shè)計(jì)的 PM)。谷歌接下來(lái)的目標(biāo)將是解決這些問(wèn)題腌逢。

論文:State-of-the-art Speech Recognition With Sequence-to-Sequence Models

圖片發(fā)自簡(jiǎn)書App


論文鏈接:https://arxiv.org/abs/1712.01769

摘要:基于注意力機(jī)制的編碼器-解碼器架構(gòu)降淮,如 Listen、Attend 和 Spell(LAS)可以將傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)上的聲學(xué)、發(fā)音和語(yǔ)言模型組件集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中佳鳖。在我們以前的工作中霍殴,我們已經(jīng)證明了這樣的架構(gòu)在聽(tīng)寫任務(wù)中與業(yè)內(nèi)頂尖水平的 ASR 系統(tǒng)具有相當(dāng)水平,但此前還不清楚這樣的架構(gòu)是否可以勝任語(yǔ)音搜索等更具挑戰(zhàn)性的任務(wù)系吩。

在本研究中来庭,我們探索了多種優(yōu)化和提升 LAS 模型的方法,其中的一些顯著提升了系統(tǒng)表現(xiàn)穿挨。在結(jié)構(gòu)上月弛,我們證明了詞塊模型可以用來(lái)代替字素。我們引入了新型的多頭注意力架構(gòu)科盛,它比常用的單頭注意力架構(gòu)有所提升帽衙。在優(yōu)化方面,我們探索了同步訓(xùn)練贞绵、定期采樣厉萝、平滑標(biāo)簽(label smoothing),也應(yīng)用了最小誤碼率優(yōu)化榨崩,這些方法都提升了準(zhǔn)確度谴垫。我們使用一個(gè)單向 LSTM 編碼器進(jìn)行串流識(shí)別并展示了結(jié)果。在 12,500 小時(shí)的語(yǔ)音搜索任務(wù)中母蛛,我們發(fā)現(xiàn)新模型將 LAS 系統(tǒng)的詞錯(cuò)率(WER)從 9.2% 降低到了 5.6%翩剪,相對(duì)于目前業(yè)內(nèi)最佳系統(tǒng)的 6.7% 提高了 16% 的水平。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末溯祸,一起剝皮案震驚了整個(gè)濱河市肢专,隨后出現(xiàn)的幾起案子舞肆,更是在濱河造成了極大的恐慌焦辅,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件椿胯,死亡現(xiàn)場(chǎng)離奇詭異筷登,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)哩盲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門前方,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人廉油,你說(shuō)我怎么就攤上這事惠险。” “怎么了抒线?”我有些...
    開(kāi)封第一講書人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵班巩,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我嘶炭,道長(zhǎng)抱慌,這世上最難降的妖魔是什么逊桦? 我笑而不...
    開(kāi)封第一講書人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮抑进,結(jié)果婚禮上强经,老公的妹妹穿的比我還像新娘。我一直安慰自己寺渗,他們只是感情好匿情,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著户秤,像睡著了一般码秉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鸡号,一...
    開(kāi)封第一講書人閱讀 51,365評(píng)論 1 302
  • 那天转砖,我揣著相機(jī)與錄音,去河邊找鬼鲸伴。 笑死府蔗,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的汞窗。 我是一名探鬼主播姓赤,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼仲吏!你這毒婦竟也來(lái)了不铆?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤裹唆,失蹤者是張志新(化名)和其女友劉穎誓斥,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體许帐,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡劳坑,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了成畦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片距芬。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖循帐,靈堂內(nèi)的尸體忽然破棺而出框仔,到底是詐尸還是另有隱情,我是刑警寧澤拄养,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布离斩,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏捐腿。R本人自食惡果不足惜纵朋,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望茄袖。 院中可真熱鬧操软,春花似錦、人聲如沸宪祥。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蝗羊。三九已至藏澳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間耀找,已是汗流浹背翔悠。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留野芒,地道東北人蓄愁。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像狞悲,于是被迫代替她去往敵國(guó)和親撮抓。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 姓名:蘆凱 學(xué)號(hào):17011210546 轉(zhuǎn)載自:公眾號(hào)“機(jī)器之心”摇锋,原文鏈接:https://mp.weix...
    XDTY17_LK閱讀 1,471評(píng)論 0 4
  • 這一篇文章其實(shí)是參考了很多篇文章之后寫出的一篇對(duì)于語(yǔ)言模型的一篇科普文,目的是希望大家可以對(duì)于語(yǔ)言模型有著更好地理...
    云時(shí)之間閱讀 4,460評(píng)論 2 8
  • 承接前面的《淺談機(jī)器學(xué)習(xí)基礎(chǔ)》丹拯、《淺談深度學(xué)習(xí)基礎(chǔ)》和《淺談自然語(yǔ)言處理基礎(chǔ)》,主要參考了《解析深度學(xué)習(xí):語(yǔ)音識(shí)別...
    我偏笑_NSNirvana閱讀 23,515評(píng)論 6 67
  • 我讓自己身邊的人不開(kāi)心了荸恕。 我錯(cuò)了乖酬,不是諷刺意味的說(shuō)我錯(cuò)了,是真心承認(rèn)錯(cuò)誤戚炫。 我在“表現(xiàn)自己”剑刑,我在嘗試“證明自己...
    鄭在踐行閱讀 230評(píng)論 2 0
  • 不要活在別人的故事里媳纬,而忘了出演自己的角色双肤。
    情小司閱讀 86評(píng)論 0 1