姓名:崔哲琪
學(xué)號(hào):16040120090
轉(zhuǎn)載自https://zhuanlan.zhihu.com/p/32053520?
【嵌牛導(dǎo)讀】
近日首妖,谷歌發(fā)表博客介紹了他們對(duì)端到端語(yǔ)音識(shí)別模型的最新研究成果,新模型結(jié)合了多種優(yōu)化算法提升 LAS 模型的性能爷恳。相較于分離訓(xùn)練的傳統(tǒng)系統(tǒng)有缆,新方法充分地發(fā)揮了聯(lián)合訓(xùn)練的優(yōu)勢(shì),在語(yǔ)音搜索任務(wù)中取得了當(dāng)前業(yè)內(nèi)最低的詞錯(cuò)率結(jié)果温亲。
【嵌牛鼻子】谷歌妒貌,語(yǔ)音識(shí)別系統(tǒng),詞錯(cuò)率低
【嵌牛提問(wèn)】
谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)到底是什么樣的呢铸豁?
【嵌牛正文】
當(dāng)前最佳語(yǔ)音搜索模型
傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)一直被谷歌的多種語(yǔ)音搜索應(yīng)用所使用灌曙,它由聲學(xué)模型(AM)、發(fā)音模型(PM)和語(yǔ)言模型(LM)組成节芥,所有這些都會(huì)經(jīng)過(guò)獨(dú)立訓(xùn)練在刺,同時(shí)通常是由手動(dòng)設(shè)計(jì)的,各個(gè)組件會(huì)在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練头镊。AM 提取聲學(xué)特征并預(yù)測(cè)一系列子字單元(subword unit)蚣驼,通常是語(yǔ)境依賴或語(yǔ)境獨(dú)立的音素。然后相艇,手動(dòng)設(shè)計(jì)的詞典(PM)將聲學(xué)模型生成的音素序列映射到單詞上颖杏。最后,LM 為單詞序列分配概率坛芽。獨(dú)立地訓(xùn)練各個(gè)組件會(huì)產(chǎn)生額外的復(fù)雜性留储,最終得到的性能低于聯(lián)合訓(xùn)練所有的組件翼抠。過(guò)去幾年來(lái)出現(xiàn)了越來(lái)越多開(kāi)發(fā)中的端到端系統(tǒng)嘗試以單個(gè)系統(tǒng)的方式聯(lián)合學(xué)習(xí)這些分離的組件。雖然相關(guān)文獻(xiàn)表明這些端到端模型具有潛在價(jià)值 [2,3]获讳,但對(duì)于這樣的方法是否能提升當(dāng)前最佳的傳統(tǒng)系統(tǒng)的性能阴颖,尚無(wú)定論。
最近丐膝,谷歌發(fā)布了其最新研究量愧,「使用序列到序列模型的當(dāng)前最佳語(yǔ)音識(shí)別系統(tǒng)」(State-of-the-art Speech Recognition With Sequence-to-Sequence Models[4])。這篇論文描述了一種新型的端到端模型帅矗,它的性能優(yōu)于目前已商用的傳統(tǒng)方法 [1]偎肃。在谷歌的研究中,新的端到端系統(tǒng)的詞錯(cuò)率(WER)可以降低到 5.6%浑此,相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升(6.7%WER)累颂。此外,該端到端模型可以在任何的假設(shè)再評(píng)分(hypothesis rescoring)之前輸出初始詞假設(shè)尤勋。該模型的大小只有傳統(tǒng)模型的 1/18,因?yàn)樗话蛛x的 LM 和 PM茵宪。
谷歌的新系統(tǒng)建立在 Listen-Attend-Spell(LAS最冰,在文獻(xiàn) [2] 中首次提出)端到端架構(gòu)之上。LAS 架構(gòu)由三個(gè)組件組成稀火。listener 編碼器組件暖哨,和標(biāo)準(zhǔn)的 AM 相似,取輸入語(yǔ)音信號(hào) x 的時(shí)間-頻率表征凰狞,然后使用一系列的神經(jīng)網(wǎng)絡(luò)層將輸入映射到一個(gè)高級(jí)特征表示篇裁,henc。編碼器的輸出被傳遞到 attender赡若,其使用 henc 學(xué)習(xí)輸入特征 x 和預(yù)測(cè)子字單元的 {y_n,...y_0} 之間的對(duì)齊方式达布,其中每個(gè)子字通常是一個(gè)字素或字片。最后逾冬,attention 模塊的輸出被傳遞給 speller(即解碼器)黍聂,speller 和 LM 相似,可以生成一系列假設(shè)詞的概率分布身腻。
LAS 端到端模型的組件
LAS 模型的所有組件通過(guò)單個(gè)端到端神經(jīng)網(wǎng)絡(luò)聯(lián)合地訓(xùn)練产还,相較于傳統(tǒng)系統(tǒng)的分離模塊更加簡(jiǎn)單。
此外嘀趟,因?yàn)?LAS 模型都是神經(jīng)網(wǎng)絡(luò)類型脐区,因此并不需要添加外部的手動(dòng)設(shè)計(jì)組件,例如有限狀態(tài)轉(zhuǎn)換器她按、詞典或文本歸一化模塊牛隅。最后炕柔,和傳統(tǒng)模型不同,訓(xùn)練端到端模型不需要決策樹的引導(dǎo)或一個(gè)分離系統(tǒng)生成的時(shí)間序列倔叼,給定了文本副本和相關(guān)的聲學(xué)特征之后汗唱,就可以進(jìn)行訓(xùn)練。
在文獻(xiàn) [4] 中丈攒,谷歌引入了一種新型的結(jié)構(gòu)化提升哩罪,包括優(yōu)化傳遞給解碼器的注意力向量,以及優(yōu)化更長(zhǎng)的子字單元(即字片巡验,wordpieces)的訓(xùn)練過(guò)程际插。此外,谷歌在新模型中還引入了大量的優(yōu)化訓(xùn)練過(guò)程的方法显设,包括最小詞錯(cuò)率訓(xùn)練法(minimum word error rate training[5])框弛。正是這些結(jié)構(gòu)化和優(yōu)化提升使新模型取得了相對(duì)于傳統(tǒng)模型 16% 的性能提升。
這項(xiàng)研究的另一個(gè)潛在應(yīng)用是多方言和多語(yǔ)言系統(tǒng)捕捂,僅需優(yōu)化單個(gè)神經(jīng)網(wǎng)絡(luò)所帶來(lái)的簡(jiǎn)單性是很有吸引力的瑟枫。所有的方言/語(yǔ)言可以被組合以訓(xùn)練一個(gè)網(wǎng)絡(luò),而不需要為每個(gè)方言/語(yǔ)言分配分離的 AM指攒、PM 和 LM慷妙。谷歌生成這些模型在 7 種英語(yǔ)方言 [6] 和 9 種印度方言 [7] 上都工作得很好,優(yōu)于分離地訓(xùn)練模型的性能允悦。
雖然結(jié)果很吸引人膝擂,但是研究人員認(rèn)為目前的探索還尚未完成。第一隙弛,這些模型還不能實(shí)時(shí)地處理語(yǔ)音 [8,9,10]架馋,而實(shí)時(shí)處理對(duì)于延遲敏感的應(yīng)用如語(yǔ)音搜索而言是必要的。第二全闷,這些模型在實(shí)際生產(chǎn)數(shù)據(jù)上進(jìn)行評(píng)估的時(shí)候表現(xiàn)仍然不佳叉寂。第三,谷歌目前的端到端模型是在 22,000 個(gè)錄音-文本對(duì)上學(xué)習(xí)的总珠,而傳統(tǒng)系統(tǒng)通嘲炀可以在顯著大得多的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。最后姚淆,新模型還不能為生僻詞學(xué)習(xí)合適的拼寫孕蝉,例如專有名詞(一般還需要使用手動(dòng)設(shè)計(jì)的 PM)。谷歌接下來(lái)的目標(biāo)將是解決這些問(wèn)題腌逢。
論文:State-of-the-art Speech Recognition With Sequence-to-Sequence Models
論文鏈接:https://arxiv.org/abs/1712.01769
摘要:基于注意力機(jī)制的編碼器-解碼器架構(gòu)降淮,如 Listen、Attend 和 Spell(LAS)可以將傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)上的聲學(xué)、發(fā)音和語(yǔ)言模型組件集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中佳鳖。在我們以前的工作中霍殴,我們已經(jīng)證明了這樣的架構(gòu)在聽(tīng)寫任務(wù)中與業(yè)內(nèi)頂尖水平的 ASR 系統(tǒng)具有相當(dāng)水平,但此前還不清楚這樣的架構(gòu)是否可以勝任語(yǔ)音搜索等更具挑戰(zhàn)性的任務(wù)系吩。
在本研究中来庭,我們探索了多種優(yōu)化和提升 LAS 模型的方法,其中的一些顯著提升了系統(tǒng)表現(xiàn)穿挨。在結(jié)構(gòu)上月弛,我們證明了詞塊模型可以用來(lái)代替字素。我們引入了新型的多頭注意力架構(gòu)科盛,它比常用的單頭注意力架構(gòu)有所提升帽衙。在優(yōu)化方面,我們探索了同步訓(xùn)練贞绵、定期采樣厉萝、平滑標(biāo)簽(label smoothing),也應(yīng)用了最小誤碼率優(yōu)化榨崩,這些方法都提升了準(zhǔn)確度谴垫。我們使用一個(gè)單向 LSTM 編碼器進(jìn)行串流識(shí)別并展示了結(jié)果。在 12,500 小時(shí)的語(yǔ)音搜索任務(wù)中母蛛,我們發(fā)現(xiàn)新模型將 LAS 系統(tǒng)的詞錯(cuò)率(WER)從 9.2% 降低到了 5.6%翩剪,相對(duì)于目前業(yè)內(nèi)最佳系統(tǒng)的 6.7% 提高了 16% 的水平。