姓名:楊凱航 學(xué)號:17101223381
【嵌牛導(dǎo)讀】 語音識別的夢想是一個能在不同的環(huán)境下、能應(yīng)對多種口音和語言的诵原、真正理解人類語言的系統(tǒng)愤诱。幾十年來,對這個問題的嘗試都沒有成功丐膝。尋找一個能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來是不可能完成的任務(wù)量愧。
【嵌牛鼻子】AI、深度學(xué)習(xí)帅矗、語音識別
【嵌牛提問】語音識別應(yīng)該考慮那種算法偎肃?在實(shí)際應(yīng)用中遇到那些問題?如何解決浑此?
【嵌牛正文】
語音識別的夢想是一個能在不同的環(huán)境下累颂、能應(yīng)對多種口音和語言的、真正理解人類語言的系統(tǒng)凛俱。幾十年來紊馏,對這個問題的嘗試都沒有成功。尋找一個能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來是不可能完成的任務(wù)蒲犬≈旒啵 然而,在過去的幾年間原叮,人工智能和深度學(xué)習(xí)領(lǐng)域的突破已經(jīng)顛覆了對語音識別探索的一切赫编。深度學(xué)習(xí)技術(shù)在語音識別領(lǐng)域的運(yùn)用已經(jīng)取得了顯著的進(jìn)步。現(xiàn)在我們已經(jīng)在非常多樣的產(chǎn)品(比如Amazon Echo奋隶、Apple Sir等)里面看到了展示出來的發(fā)展的躍升擂送。在這篇博文里,我會回顧一下近期語音識別的發(fā)展唯欣,檢視帶來這些快速進(jìn)步的因素嘹吨,并會討論一下未來的發(fā)展以及我們離完全解決這個問題還有多遠(yuǎn)∈蚰簦
一點(diǎn)背景知識
多年以來躺苦,人工智能的主要任務(wù)之一就是去理解人類身腻。人們希望機(jī)器不僅能理解人說了什么,還能理解他們說的是什么意思匹厘,并基于這些理解的信息采取相應(yīng)的動作嘀趟。這個目標(biāo)就是對話人工智能的精髓∮希
對話人工智能包括兩個主要類別:人機(jī)交互界面和人與人交互界面她按。在人機(jī)界面里,人類主要是通過語音和文字與機(jī)器交互炕柔。機(jī)器能理解人類的意思(即使只是在一個有限的形式下)并采取某個動作酌泰。如圖1所示,這個機(jī)器可以是個人助理(比如Siri匕累、Alexa等)陵刹,或是某種聊天機(jī)器人。
為了能更好地理解對話人工智能所面臨的挑戰(zhàn)和背后的技術(shù),我們必須先看看人工智能里的基本概念:機(jī)器感知和機(jī)器認(rèn)知掐隐。
機(jī)器感知是機(jī)器所具有和人類使用他們的感官去感知世界所類似的形式來分析數(shù)據(jù)的能力狗热。換句話說,就是給予機(jī)器類似人的感官虑省。很多使用計算機(jī)相機(jī)(例如目標(biāo)檢測和識別)的人工智能算法都可以歸到計算機(jī)感知這一類里匿刮,他們關(guān)注的是視覺。語音識別和畫像是機(jī)器使用聽覺的感知技術(shù)探颈。
機(jī)器認(rèn)知是在機(jī)器感知產(chǎn)生的元數(shù)據(jù)上的推理能力僻焚。機(jī)器認(rèn)知包括決策、專家系統(tǒng)膝擂、采取行動、用戶傾向等隙弛。通常如果沒有機(jī)器認(rèn)知不會對機(jī)器感知的輸出產(chǎn)生影響架馋。機(jī)器感知為決策和采用什么動作提供合適的元數(shù)據(jù)信息。
在對話人工智能里全闷,機(jī)器感知包括所有的語音分析技術(shù)叉寂,比如識別和畫像;機(jī)器認(rèn)知包括所有和理解語言相關(guān)的技術(shù),它們是自然語言處理(Natural Language Processing, NLP)技術(shù)的一部分总珠。
語音識別領(lǐng)域的演進(jìn)
語音識別技術(shù)的研究和發(fā)展主要包括三個時期:
2011年之前
語音識別的研究已經(jīng)有幾十年了屏鳍。實(shí)際上勘纯,甚至是在上世紀(jì)50和60年代,就已經(jīng)有了構(gòu)建語音識別系統(tǒng)的嘗試了钓瞭。不過驳遵,在2011年前,深度學(xué)習(xí)山涡、大數(shù)據(jù)堤结、云計算的進(jìn)步尚未發(fā)生,這個時期的系統(tǒng)離能被廣泛采用和商業(yè)化都很遠(yuǎn)鸭丛。本質(zhì)上竞穷,算法都不夠好、沒有足夠的數(shù)據(jù)來訓(xùn)練算法鳞溉、缺少必要的高性能計算機(jī)硬件都在妨礙研究人員嘗試更復(fù)雜的試驗(yàn)瘾带。
2011-2014年
深度學(xué)習(xí)(在語音識別里)的第一個主要影響發(fā)生在2011年。一組來自微軟的研究人員——Li Deng熟菲、Dong Yu和Alex Acero——與Geoffrey Hinton和他的學(xué)生George Dahl創(chuàng)造了第一個基于深度學(xué)習(xí)的語音識別系統(tǒng)看政,并立刻就產(chǎn)生了影響:錯誤率降低了25%多。這個系統(tǒng)是語音識別領(lǐng)域繁盛發(fā)展和提升的起點(diǎn)科盛。憑借更多的數(shù)據(jù)帽衙、可用的云計算資源以及被諸如Apple(Siri)、Amazon(Alexa)和Google這樣的公司重視贞绵,語音識別的性能得到了顯著的提升厉萝,并伴隨著不少商業(yè)化產(chǎn)品被投放到市場。
2015年至今
到2014年底榨崩,循環(huán)神經(jīng)網(wǎng)絡(luò)獲得了更多的關(guān)注谴垫。它與關(guān)注模型、記憶網(wǎng)絡(luò)和其他的技術(shù)一起母蛛,形成了第三波的進(jìn)展◆婕簦現(xiàn)在,幾乎每種類型的算法和解決方案都使用某種類型的神經(jīng)網(wǎng)絡(luò)模型彩郊。實(shí)際上前弯,幾乎所有的語音研究都在轉(zhuǎn)向使用深度學(xué)習(xí)。
近期語音領(lǐng)域里神經(jīng)網(wǎng)絡(luò)模型的進(jìn)展
語音識別領(lǐng)域在過去6年里的突破比之前40多年加起來還要多秫逝。這些非凡的進(jìn)展主要是來源于神經(jīng)網(wǎng)絡(luò)恕出。為了更好地理解深度學(xué)習(xí)的影響和它的作用,我們需要先理解一下語音識別是如何工作的违帆。
雖然語音識別作為一個活躍的研究領(lǐng)域已經(jīng)存在幾乎50年了浙巫,構(gòu)建可以理解人類語言的機(jī)器依然是最具挑戰(zhàn)的任務(wù)之一。它比看起來要困難得多。語音識別有一個清晰明確定義的任務(wù):對于一些人類的語言的畴,盡量把語音轉(zhuǎn)化成文字渊抄。然而,語音可能是一個噪聲信號的一部分丧裁,這就需要先把語音從噪音里面抽取出來护桦,然后再轉(zhuǎn)化成相應(yīng)的有意義的文字。
語音識別系統(tǒng)的基本構(gòu)造模塊
基本上語音識別可以被分為三個層面:
信號層面:信號層面的目標(biāo)是從信號里抽取出語音渣慕,增強(qiáng)它(如果需要)嘶炭,進(jìn)行適當(dāng)?shù)念A(yù)處理和清理,再提取出特征逊桦。這一層面的內(nèi)容與其他機(jī)器學(xué)習(xí)任務(wù)很類似眨猎。換句話說就是對于一些數(shù)據(jù),我們需要進(jìn)行預(yù)處理和特征提取强经。
聲音層面:聲音層面的主要目標(biāo)是把特性分到不同的聲音類睡陪。另外一種說法就是,聲音自身并沒能提供足夠精確的標(biāo)準(zhǔn)匿情,而是有時被稱為聲音狀態(tài)的音素來提供兰迫。
語言層面:因?yàn)槲覀兗俣ㄟ@些不同類型的音是由人類產(chǎn)生的并有意義,我們需要把音組合成字和詞炬称,再把詞組合成句子汁果。這些語言層面的技術(shù)通常是一些不同類型的NLP技術(shù)。
深度學(xué)習(xí)帶來的提升
深度學(xué)習(xí)對語音識別領(lǐng)域帶來了顯著的影響玲躯。這一影響是如此深遠(yuǎn)据德,以至于語音識別領(lǐng)域的幾乎每個解決方案里都可能有一個或多個基于神經(jīng)網(wǎng)絡(luò)的算法嵌在其中。
通常跷车,對語音識別系統(tǒng)進(jìn)行的評估都是基于一個叫做Swithboard(SWBD)的行業(yè)標(biāo)準(zhǔn)棘利。SWDB是一套語音庫,由一些電話通話的內(nèi)容所組成朽缴。SWDB包括語音和人工生成的文字記錄善玫。
語音識別系統(tǒng)的評估是基于一個叫詞錯誤率(WER)的指標(biāo)。WER是指識別系統(tǒng)錯誤地識別出來的詞的數(shù)量密强。圖3顯示了從2008到2017年期間WER的提升情況茅郎。
秘方
是什么帶來了系統(tǒng)性能的顯著提升?是某個技術(shù)把WER從23.6%降到5.5%嗎?不幸的是离斩,并不是一個單一的技術(shù)银舱。深度學(xué)習(xí)和語音識別交織得非常緊密,它創(chuàng)造了一個涉及非常多種跛梗、不同的技術(shù)和方法的先進(jìn)系統(tǒng)寻馏。
例如在信號層面,有不同的基于神經(jīng)網(wǎng)絡(luò)的模型來提取和增強(qiáng)語音里面的信號(如圖4所示)核偿。而且诚欠,還有使用復(fù)雜和高效的基于神經(jīng)網(wǎng)絡(luò)的方法替換掉經(jīng)典的特征抽取的方法。
最前沿的研究
看到語音識別領(lǐng)域在近期有如此多的突破,讀者可能會很自然地問:下一步會發(fā)生什么?下面三個領(lǐng)域看起來會是近期主要受關(guān)注的研究領(lǐng)域:算法捅儒、數(shù)據(jù)和可擴(kuò)展性液样。
算法
隨著Amazon的Echo和Google的Home的成功,很多公司都在開發(fā)和投放能理解語音的智能音箱和家用設(shè)備野芒。然而這些設(shè)備帶來了一個新的問題蓄愁,即用戶不會像和手機(jī)通話那樣靠近麥克風(fēng),而是離的比較遠(yuǎn)狞悲。應(yīng)對遠(yuǎn)距離語音已經(jīng)成為很多研究組正在挑戰(zhàn)的一個問題了〈樽ィ現(xiàn)在,創(chuàng)新性的深度學(xué)習(xí)和信號處理技術(shù)已經(jīng)能提升識別的質(zhì)量了摇锋。
當(dāng)前最有趣的研究主題之一就是找到新的丹拯、奇特的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。我們已經(jīng)在應(yīng)用語言和語音模型方面看到一些有希望的結(jié)果荸恕。其中的兩個例子是語音模型里的Grid-LSTM和基于注意力的記憶網(wǎng)絡(luò)的語言模型乖酬。
數(shù)據(jù)
語音識別系統(tǒng)的一個關(guān)鍵問題就是缺乏真實(shí)世界的數(shù)據(jù)。例如融求,很難獲得高質(zhì)量的遠(yuǎn)距離語音數(shù)據(jù)咬像。不過有很多其他來源的數(shù)據(jù)可用。一個問題就是,我們能創(chuàng)造合適的合成器來生成訓(xùn)練數(shù)據(jù)嗎?產(chǎn)生合成的數(shù)據(jù)并用它來訓(xùn)練系統(tǒng)目前正在獲得很多的關(guān)注县昂。
為了訓(xùn)練一個語言識別系統(tǒng)肮柜,語音和標(biāo)注數(shù)據(jù)我們都需要。人工標(biāo)注是一項(xiàng)繁瑣的工作倒彰,對于海量語音數(shù)據(jù)進(jìn)行標(biāo)注有時候會帶來問題审洞。相應(yīng)的,使用半監(jiān)督訓(xùn)練和構(gòu)建恰當(dāng)?shù)淖R別器的置信測量就成為了一個活躍的研究主題待讳。
可擴(kuò)展性
由于深度學(xué)習(xí)和語音識別是高度交織的芒澜,它會使用非常多的計算資源(CPU和內(nèi)存)。當(dāng)用戶廣泛采用了語音識別系統(tǒng)后创淡,如何構(gòu)造一個高效的云端解決方案就成為一個有挑戰(zhàn)性的重要問題痴晦。正在進(jìn)行的研究就包括如何降低計算花銷和開發(fā)更有效的解決方案。現(xiàn)在大部分的語音識別系統(tǒng)都是基于云端的辩昆,這就帶來兩個需要解決的主要問題:網(wǎng)絡(luò)延遲和長時間連接阅酪。網(wǎng)絡(luò)延遲是那些需要立刻反應(yīng)的設(shè)備(比如機(jī)器人)面對的關(guān)鍵問題。對于一個需要持續(xù)監(jiān)聽的系統(tǒng)汁针,因?yàn)閹挼馁M(fèi)用术辐,長時間連接就是一個問題。對此施无,已經(jīng)有研究關(guān)注面向邊緣設(shè)備的辉词、和云端系統(tǒng)有一樣質(zhì)量的語音識別能力的系統(tǒng)。
完全解決語音識別問題
近幾年猾骡,語音識別領(lǐng)域無論是性能還是商用都取得了跨越式的提升瑞躺。那么離完全解決這個問題還有多遠(yuǎn)?我們能在5年或許10年內(nèi)宣布最終勝利?答案是:有可能,不過還是有不少挑戰(zhàn)性的問題需要時間來解決兴想。
第一個問題是對于噪音的敏感性幢哨。語音識別系統(tǒng)對于靠近麥克風(fēng)的無噪音環(huán)境可以工作的很好。但是遠(yuǎn)距離語音加上噪音數(shù)據(jù)會很快地降低系統(tǒng)性能嫂便。第二個問題是語言的擴(kuò)展問題捞镰。人類世界有大約7000種語言,目前的大部分語音識別系統(tǒng)支持了大概80種毙替。擴(kuò)展到更多的語言帶來了大量的挑戰(zhàn)岸售。另外,對很多語言我們?nèi)狈?shù)據(jù)厂画,而語音識別系統(tǒng)在數(shù)據(jù)源很少的情況下很難被構(gòu)建出來凸丸。
結(jié)論
深度學(xué)習(xí)已經(jīng)在語音識別和對話式人工智能領(lǐng)域留下了烙印。因?yàn)榻诘耐黄聘ぴ海覀円呀?jīng)處在革命的前沿∈郝現(xiàn)在最大的問題就是瞭稼,我們能取得最終的勝利,解決語音識別的問題腻惠,從而可以像其他很多商業(yè)化的技術(shù)那樣使用語音識別嗎?或者是還有一個新的解決方案在等待被發(fā)現(xiàn)?畢竟弛姜,語音識別近期的進(jìn)步僅僅只是整個問題的一個部分的答案。這個問題就是理解語言妖枚,它本身是一個復(fù)雜的謎題,甚至是一個更大的問題苍在。