深度學(xué)習(xí)顛覆了對話人工智能

姓名:楊凱航 學(xué)號:17101223381

【嵌牛導(dǎo)讀】 語音識別的夢想是一個能在不同的環(huán)境下、能應(yīng)對多種口音和語言的诵原、真正理解人類語言的系統(tǒng)愤诱。幾十年來,對這個問題的嘗試都沒有成功丐膝。尋找一個能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來是不可能完成的任務(wù)量愧。

【嵌牛鼻子】AI、深度學(xué)習(xí)帅矗、語音識別

【嵌牛提問】語音識別應(yīng)該考慮那種算法偎肃?在實(shí)際應(yīng)用中遇到那些問題?如何解決浑此?

【嵌牛正文】

語音識別的夢想是一個能在不同的環(huán)境下累颂、能應(yīng)對多種口音和語言的、真正理解人類語言的系統(tǒng)凛俱。幾十年來紊馏,對這個問題的嘗試都沒有成功。尋找一個能有效地創(chuàng)建這樣的系統(tǒng)的策略看起來是不可能完成的任務(wù)蒲犬≈旒啵  然而,在過去的幾年間原叮,人工智能和深度學(xué)習(xí)領(lǐng)域的突破已經(jīng)顛覆了對語音識別探索的一切赫编。深度學(xué)習(xí)技術(shù)在語音識別領(lǐng)域的運(yùn)用已經(jīng)取得了顯著的進(jìn)步。現(xiàn)在我們已經(jīng)在非常多樣的產(chǎn)品(比如Amazon Echo奋隶、Apple Sir等)里面看到了展示出來的發(fā)展的躍升擂送。在這篇博文里,我會回顧一下近期語音識別的發(fā)展唯欣,檢視帶來這些快速進(jìn)步的因素嘹吨,并會討論一下未來的發(fā)展以及我們離完全解決這個問題還有多遠(yuǎn)∈蚰簦  

一點(diǎn)背景知識  

多年以來躺苦,人工智能的主要任務(wù)之一就是去理解人類身腻。人們希望機(jī)器不僅能理解人說了什么,還能理解他們說的是什么意思匹厘,并基于這些理解的信息采取相應(yīng)的動作嘀趟。這個目標(biāo)就是對話人工智能的精髓∮希  

對話人工智能包括兩個主要類別:人機(jī)交互界面和人與人交互界面她按。在人機(jī)界面里,人類主要是通過語音和文字與機(jī)器交互炕柔。機(jī)器能理解人類的意思(即使只是在一個有限的形式下)并采取某個動作酌泰。如圖1所示,這個機(jī)器可以是個人助理(比如Siri匕累、Alexa等)陵刹,或是某種聊天機(jī)器人。

圖片發(fā)自簡書App
在人和人交互里欢嘿,人工智能形成了兩個或多個人之間對話的橋梁衰琐,進(jìn)行交互或是創(chuàng)造一些洞察(如圖2所示)。一個這樣的例子可能是人工智能參與一個電話會議炼蹦,然后產(chǎn)生一個會議的紀(jì)要羡宙,并交付給相關(guān)的人
圖片發(fā)自簡書App
機(jī)器感知和認(rèn)知

  為了能更好地理解對話人工智能所面臨的挑戰(zhàn)和背后的技術(shù),我們必須先看看人工智能里的基本概念:機(jī)器感知和機(jī)器認(rèn)知掐隐。

  機(jī)器感知是機(jī)器所具有和人類使用他們的感官去感知世界所類似的形式來分析數(shù)據(jù)的能力狗热。換句話說,就是給予機(jī)器類似人的感官虑省。很多使用計算機(jī)相機(jī)(例如目標(biāo)檢測和識別)的人工智能算法都可以歸到計算機(jī)感知這一類里匿刮,他們關(guān)注的是視覺。語音識別和畫像是機(jī)器使用聽覺的感知技術(shù)探颈。

  機(jī)器認(rèn)知是在機(jī)器感知產(chǎn)生的元數(shù)據(jù)上的推理能力僻焚。機(jī)器認(rèn)知包括決策、專家系統(tǒng)膝擂、采取行動、用戶傾向等隙弛。通常如果沒有機(jī)器認(rèn)知不會對機(jī)器感知的輸出產(chǎn)生影響架馋。機(jī)器感知為決策和采用什么動作提供合適的元數(shù)據(jù)信息。

在對話人工智能里全闷,機(jī)器感知包括所有的語音分析技術(shù)叉寂,比如識別和畫像;機(jī)器認(rèn)知包括所有和理解語言相關(guān)的技術(shù),它們是自然語言處理(Natural Language Processing, NLP)技術(shù)的一部分总珠。

  語音識別領(lǐng)域的演進(jìn)

  語音識別技術(shù)的研究和發(fā)展主要包括三個時期:

  2011年之前

  語音識別的研究已經(jīng)有幾十年了屏鳍。實(shí)際上勘纯,甚至是在上世紀(jì)50和60年代,就已經(jīng)有了構(gòu)建語音識別系統(tǒng)的嘗試了钓瞭。不過驳遵,在2011年前,深度學(xué)習(xí)山涡、大數(shù)據(jù)堤结、云計算的進(jìn)步尚未發(fā)生,這個時期的系統(tǒng)離能被廣泛采用和商業(yè)化都很遠(yuǎn)鸭丛。本質(zhì)上竞穷,算法都不夠好、沒有足夠的數(shù)據(jù)來訓(xùn)練算法鳞溉、缺少必要的高性能計算機(jī)硬件都在妨礙研究人員嘗試更復(fù)雜的試驗(yàn)瘾带。

2011-2014年

  深度學(xué)習(xí)(在語音識別里)的第一個主要影響發(fā)生在2011年。一組來自微軟的研究人員——Li Deng熟菲、Dong Yu和Alex Acero——與Geoffrey Hinton和他的學(xué)生George Dahl創(chuàng)造了第一個基于深度學(xué)習(xí)的語音識別系統(tǒng)看政,并立刻就產(chǎn)生了影響:錯誤率降低了25%多。這個系統(tǒng)是語音識別領(lǐng)域繁盛發(fā)展和提升的起點(diǎn)科盛。憑借更多的數(shù)據(jù)帽衙、可用的云計算資源以及被諸如Apple(Siri)、Amazon(Alexa)和Google這樣的公司重視贞绵,語音識別的性能得到了顯著的提升厉萝,并伴隨著不少商業(yè)化產(chǎn)品被投放到市場。

  2015年至今

  到2014年底榨崩,循環(huán)神經(jīng)網(wǎng)絡(luò)獲得了更多的關(guān)注谴垫。它與關(guān)注模型、記憶網(wǎng)絡(luò)和其他的技術(shù)一起母蛛,形成了第三波的進(jìn)展◆婕簦現(xiàn)在,幾乎每種類型的算法和解決方案都使用某種類型的神經(jīng)網(wǎng)絡(luò)模型彩郊。實(shí)際上前弯,幾乎所有的語音研究都在轉(zhuǎn)向使用深度學(xué)習(xí)。

近期語音領(lǐng)域里神經(jīng)網(wǎng)絡(luò)模型的進(jìn)展

  語音識別領(lǐng)域在過去6年里的突破比之前40多年加起來還要多秫逝。這些非凡的進(jìn)展主要是來源于神經(jīng)網(wǎng)絡(luò)恕出。為了更好地理解深度學(xué)習(xí)的影響和它的作用,我們需要先理解一下語音識別是如何工作的违帆。

  雖然語音識別作為一個活躍的研究領(lǐng)域已經(jīng)存在幾乎50年了浙巫,構(gòu)建可以理解人類語言的機(jī)器依然是最具挑戰(zhàn)的任務(wù)之一。它比看起來要困難得多。語音識別有一個清晰明確定義的任務(wù):對于一些人類的語言的畴,盡量把語音轉(zhuǎn)化成文字渊抄。然而,語音可能是一個噪聲信號的一部分丧裁,這就需要先把語音從噪音里面抽取出來护桦,然后再轉(zhuǎn)化成相應(yīng)的有意義的文字。

  語音識別系統(tǒng)的基本構(gòu)造模塊

  基本上語音識別可以被分為三個層面:

  信號層面:信號層面的目標(biāo)是從信號里抽取出語音渣慕,增強(qiáng)它(如果需要)嘶炭,進(jìn)行適當(dāng)?shù)念A(yù)處理和清理,再提取出特征逊桦。這一層面的內(nèi)容與其他機(jī)器學(xué)習(xí)任務(wù)很類似眨猎。換句話說就是對于一些數(shù)據(jù),我們需要進(jìn)行預(yù)處理和特征提取强经。

聲音層面:聲音層面的主要目標(biāo)是把特性分到不同的聲音類睡陪。另外一種說法就是,聲音自身并沒能提供足夠精確的標(biāo)準(zhǔn)匿情,而是有時被稱為聲音狀態(tài)的音素來提供兰迫。

  語言層面:因?yàn)槲覀兗俣ㄟ@些不同類型的音是由人類產(chǎn)生的并有意義,我們需要把音組合成字和詞炬称,再把詞組合成句子汁果。這些語言層面的技術(shù)通常是一些不同類型的NLP技術(shù)。

  深度學(xué)習(xí)帶來的提升

  深度學(xué)習(xí)對語音識別領(lǐng)域帶來了顯著的影響玲躯。這一影響是如此深遠(yuǎn)据德,以至于語音識別領(lǐng)域的幾乎每個解決方案里都可能有一個或多個基于神經(jīng)網(wǎng)絡(luò)的算法嵌在其中。

  通常跷车,對語音識別系統(tǒng)進(jìn)行的評估都是基于一個叫做Swithboard(SWBD)的行業(yè)標(biāo)準(zhǔn)棘利。SWDB是一套語音庫,由一些電話通話的內(nèi)容所組成朽缴。SWDB包括語音和人工生成的文字記錄善玫。

語音識別系統(tǒng)的評估是基于一個叫詞錯誤率(WER)的指標(biāo)。WER是指識別系統(tǒng)錯誤地識別出來的詞的數(shù)量密强。圖3顯示了從2008到2017年期間WER的提升情況茅郎。

圖片發(fā)自簡書App
 從2008年到2011年,WER處于一個比較穩(wěn)定的狀態(tài)或渤,在23%到24%左右只洒。深度學(xué)習(xí)在2011年出現(xiàn),把WER從23.6%降到5.5%劳坑。這一改進(jìn)是顛覆性的,取得了77%的提升〕善瑁現(xiàn)在語音識別已經(jīng)有了非常廣泛的應(yīng)用距芬,比如Apple的Siri涝开、Amazon的Alexa、微軟的Cortana和Google的Now框仔。我們也看到了由語音識別所激活的種類繁多的應(yīng)用設(shè)備的出現(xiàn)舀武,比如Amazon的Echo和谷歌的Home。

  秘方

  是什么帶來了系統(tǒng)性能的顯著提升?是某個技術(shù)把WER從23.6%降到5.5%嗎?不幸的是离斩,并不是一個單一的技術(shù)银舱。深度學(xué)習(xí)和語音識別交織得非常緊密,它創(chuàng)造了一個涉及非常多種跛梗、不同的技術(shù)和方法的先進(jìn)系統(tǒng)寻馏。

  例如在信號層面,有不同的基于神經(jīng)網(wǎng)絡(luò)的模型來提取和增強(qiáng)語音里面的信號(如圖4所示)核偿。而且诚欠,還有使用復(fù)雜和高效的基于神經(jīng)網(wǎng)絡(luò)的方法替換掉經(jīng)典的特征抽取的方法。

圖片發(fā)自簡書App
語音層面和語言層面也包括了多種深度學(xué)習(xí)技術(shù)漾岳,從使用不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)的聲音狀態(tài)分類轰绵,到語言層面的基于神經(jīng)網(wǎng)絡(luò)的語言模型。
圖片發(fā)自簡書App
創(chuàng)造一個最前沿的系統(tǒng)并不是件容易的事情尼荆,包括實(shí)現(xiàn)和集成上面所說的不同的技術(shù)左腔。

  最前沿的研究

  看到語音識別領(lǐng)域在近期有如此多的突破,讀者可能會很自然地問:下一步會發(fā)生什么?下面三個領(lǐng)域看起來會是近期主要受關(guān)注的研究領(lǐng)域:算法捅儒、數(shù)據(jù)和可擴(kuò)展性液样。

  算法

  隨著Amazon的Echo和Google的Home的成功,很多公司都在開發(fā)和投放能理解語音的智能音箱和家用設(shè)備野芒。然而這些設(shè)備帶來了一個新的問題蓄愁,即用戶不會像和手機(jī)通話那樣靠近麥克風(fēng),而是離的比較遠(yuǎn)狞悲。應(yīng)對遠(yuǎn)距離語音已經(jīng)成為很多研究組正在挑戰(zhàn)的一個問題了〈樽ィ現(xiàn)在,創(chuàng)新性的深度學(xué)習(xí)和信號處理技術(shù)已經(jīng)能提升識別的質(zhì)量了摇锋。

  當(dāng)前最有趣的研究主題之一就是找到新的丹拯、奇特的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。我們已經(jīng)在應(yīng)用語言和語音模型方面看到一些有希望的結(jié)果荸恕。其中的兩個例子是語音模型里的Grid-LSTM和基于注意力的記憶網(wǎng)絡(luò)的語言模型乖酬。

數(shù)據(jù)

  語音識別系統(tǒng)的一個關(guān)鍵問題就是缺乏真實(shí)世界的數(shù)據(jù)。例如融求,很難獲得高質(zhì)量的遠(yuǎn)距離語音數(shù)據(jù)咬像。不過有很多其他來源的數(shù)據(jù)可用。一個問題就是,我們能創(chuàng)造合適的合成器來生成訓(xùn)練數(shù)據(jù)嗎?產(chǎn)生合成的數(shù)據(jù)并用它來訓(xùn)練系統(tǒng)目前正在獲得很多的關(guān)注县昂。

  為了訓(xùn)練一個語言識別系統(tǒng)肮柜,語音和標(biāo)注數(shù)據(jù)我們都需要。人工標(biāo)注是一項(xiàng)繁瑣的工作倒彰,對于海量語音數(shù)據(jù)進(jìn)行標(biāo)注有時候會帶來問題审洞。相應(yīng)的,使用半監(jiān)督訓(xùn)練和構(gòu)建恰當(dāng)?shù)淖R別器的置信測量就成為了一個活躍的研究主題待讳。

可擴(kuò)展性

  由于深度學(xué)習(xí)和語音識別是高度交織的芒澜,它會使用非常多的計算資源(CPU和內(nèi)存)。當(dāng)用戶廣泛采用了語音識別系統(tǒng)后创淡,如何構(gòu)造一個高效的云端解決方案就成為一個有挑戰(zhàn)性的重要問題痴晦。正在進(jìn)行的研究就包括如何降低計算花銷和開發(fā)更有效的解決方案。現(xiàn)在大部分的語音識別系統(tǒng)都是基于云端的辩昆,這就帶來兩個需要解決的主要問題:網(wǎng)絡(luò)延遲和長時間連接阅酪。網(wǎng)絡(luò)延遲是那些需要立刻反應(yīng)的設(shè)備(比如機(jī)器人)面對的關(guān)鍵問題。對于一個需要持續(xù)監(jiān)聽的系統(tǒng)汁针,因?yàn)閹挼馁M(fèi)用术辐,長時間連接就是一個問題。對此施无,已經(jīng)有研究關(guān)注面向邊緣設(shè)備的辉词、和云端系統(tǒng)有一樣質(zhì)量的語音識別能力的系統(tǒng)。

完全解決語音識別問題

  近幾年猾骡,語音識別領(lǐng)域無論是性能還是商用都取得了跨越式的提升瑞躺。那么離完全解決這個問題還有多遠(yuǎn)?我們能在5年或許10年內(nèi)宣布最終勝利?答案是:有可能,不過還是有不少挑戰(zhàn)性的問題需要時間來解決兴想。

  第一個問題是對于噪音的敏感性幢哨。語音識別系統(tǒng)對于靠近麥克風(fēng)的無噪音環(huán)境可以工作的很好。但是遠(yuǎn)距離語音加上噪音數(shù)據(jù)會很快地降低系統(tǒng)性能嫂便。第二個問題是語言的擴(kuò)展問題捞镰。人類世界有大約7000種語言,目前的大部分語音識別系統(tǒng)支持了大概80種毙替。擴(kuò)展到更多的語言帶來了大量的挑戰(zhàn)岸售。另外,對很多語言我們?nèi)狈?shù)據(jù)厂画,而語音識別系統(tǒng)在數(shù)據(jù)源很少的情況下很難被構(gòu)建出來凸丸。

結(jié)論

  深度學(xué)習(xí)已經(jīng)在語音識別和對話式人工智能領(lǐng)域留下了烙印。因?yàn)榻诘耐黄聘ぴ海覀円呀?jīng)處在革命的前沿∈郝現(xiàn)在最大的問題就是瞭稼,我們能取得最終的勝利,解決語音識別的問題腻惠,從而可以像其他很多商業(yè)化的技術(shù)那樣使用語音識別嗎?或者是還有一個新的解決方案在等待被發(fā)現(xiàn)?畢竟弛姜,語音識別近期的進(jìn)步僅僅只是整個問題的一個部分的答案。這個問題就是理解語言妖枚,它本身是一個復(fù)雜的謎題,甚至是一個更大的問題苍在。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绝页,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子寂恬,更是在濱河造成了極大的恐慌续誉,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件初肉,死亡現(xiàn)場離奇詭異酷鸦,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)牙咏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進(jìn)店門臼隔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人妄壶,你說我怎么就攤上這事摔握。” “怎么了丁寄?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵氨淌,是天一觀的道長。 經(jīng)常有香客問我伊磺,道長盛正,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任屑埋,我火速辦了婚禮豪筝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘雀彼。我一直安慰自己壤蚜,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布徊哑。 她就那樣靜靜地躺著袜刷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪莺丑。 梳的紋絲不亂的頭發(fā)上著蟹,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天墩蔓,我揣著相機(jī)與錄音,去河邊找鬼萧豆。 笑死奸披,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的涮雷。 我是一名探鬼主播阵面,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼洪鸭!你這毒婦竟也來了样刷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤览爵,失蹤者是張志新(化名)和其女友劉穎置鼻,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜓竹,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡箕母,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了俱济。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘶是。...
    茶點(diǎn)故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖姨蝴,靈堂內(nèi)的尸體忽然破棺而出俊啼,到底是詐尸還是另有隱情,我是刑警寧澤左医,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布授帕,位于F島的核電站,受9級特大地震影響浮梢,放射性物質(zhì)發(fā)生泄漏跛十。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一秕硝、第九天 我趴在偏房一處隱蔽的房頂上張望芥映。 院中可真熱鬧,春花似錦远豺、人聲如沸奈偏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惊来。三九已至,卻和暖如春棺滞,著一層夾襖步出監(jiān)牢的瞬間裁蚁,已是汗流浹背矢渊。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留枉证,地道東北人矮男。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像室谚,于是被迫代替她去往敵國和親毡鉴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容