2018-10-29 聊聊藏在AI智能音箱背后的ASR技術(shù)

人與人之間的語(yǔ)言交流過(guò)程，往往會(huì)經(jīng)過(guò)【聽(tīng)音-辨意-表達(dá)】的三個(gè)步驟，用通俗的話(huà)解釋?zhuān)聪扔梦业摹岸洹甭?tīng)清楚你在說(shuō)什么？收到你發(fā)來(lái)的信息后蓄氧，“大腦”已經(jīng)開(kāi)始同步運(yùn)作，后臺(tái)解析你說(shuō)話(huà)目的意圖（intention）和情緒狀態(tài)槐脏，最后將我想要表達(dá)的觀點(diǎn)喉童，用“嘴巴”說(shuō)出來(lái)。

人工智能科學(xué)家們想要實(shí)現(xiàn)的“智能交互”顿天，其實(shí)可以看做類(lèi)似的原理和過(guò)程堂氯。時(shí)至今日，自然語(yǔ)言處理NLP領(lǐng)域也取得了令人驚喜的成果牌废。不過(guò)咽白，機(jī)器要變得像人一樣聰明，能變成像電影里“瓦力”或者終結(jié)者“T-800”鸟缕，還有很長(zhǎng)一段路走晶框。無(wú)論計(jì)算機(jī)軟硬件技術(shù)突破與發(fā)展，還是科學(xué)家們對(duì)語(yǔ)言學(xué)懂从、心理學(xué)及生物學(xué)的深入研究授段，需要共同努力。但與人類(lèi)通過(guò)自然演化法則番甩，從古代智人一步步進(jìn)化成為現(xiàn)代人類(lèi)過(guò)程不同侵贵，機(jī)器人的進(jìn)化程度是呈指數(shù)級(jí)發(fā)展，它們不斷“小步快跑缘薛，迭代更新”窍育，隨著變量的累積，機(jī)器人會(huì)越來(lái)越聰明掩宜。

筆者之前介紹過(guò)的自動(dòng)語(yǔ)音合成TTS蔫骂，就好比機(jī)器人的“嘴巴”么翰，機(jī)器人是如何說(shuō)話(huà)的牺汤。今天聊聊機(jī)器人的“耳朵”，它們是如何聽(tīng)見(jiàn)浩嫌、聽(tīng)清你說(shuō)的話(huà)檐迟，即自動(dòng)語(yǔ)音識(shí)別（Automatic Speech Recognition补胚，ASR），ASR的任務(wù)是準(zhǔn)確追迟，高效的將語(yǔ)音信號(hào)轉(zhuǎn)化為文字信息溶其。

所謂自動(dòng)語(yǔ)音識(shí)別ASR，系統(tǒng)主要包含特征提取敦间、聲學(xué)模型瓶逃，語(yǔ)言模型以及字典與解碼四大部分，其中為了更有效地提取特征往往還需要對(duì)所采集到的聲音信號(hào)進(jìn)行濾波廓块、分幀等預(yù)處理工作厢绝，把要分析的信號(hào)從原始信號(hào)中提取出來(lái)。之后带猴，特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域昔汉，為聲學(xué)模型提供合適的特征向量；聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分拴清；而語(yǔ)言模型則根據(jù)語(yǔ)言學(xué)相關(guān)的理論靶病，計(jì)算該聲音信號(hào)對(duì)應(yīng)可能詞組序列的概率；最后根據(jù)已有的字典口予，對(duì)詞組序列進(jìn)行解碼娄周，得到最后可能的文本表示。

“Hey~同學(xué)苹威，你在說(shuō)啥昆咽？能不能說(shuō)點(diǎn)人話(huà)？”

“哦哦牙甫，上面是請(qǐng)教一些技術(shù)大咖后的專(zhuān)業(yè)解釋?zhuān)冶M可能的用大白話(huà)翻譯下~”

傳統(tǒng)的語(yǔ)音識(shí)別和我們現(xiàn)在常見(jiàn)的指紋識(shí)別掷酗，差不多。比如你說(shuō)一句“青春萬(wàn)歲”窟哺，智能手機(jī)會(huì)先通過(guò)麥克風(fēng)泻轰，收集到我們說(shuō)話(huà)的聲音。因?yàn)槲覀冋f(shuō)話(huà)的聲音是屬于模擬信號(hào)且轨，所以收集到我們的聲音之后浮声，要先把模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào)。轉(zhuǎn)換完成之后旋奢，就要對(duì)這個(gè)信號(hào)進(jìn)行處理泳挥。這個(gè)訓(xùn)練的過(guò)程和我們大學(xué)時(shí)軍訓(xùn)相似（訓(xùn)練目的標(biāo)準(zhǔn)化和結(jié)構(gòu)化）。軍訓(xùn)之前至朗，大家站姿屉符，走路姿勢(shì)都是千差萬(wàn)別。軍訓(xùn)完畢，大家站姿矗钟，走路姿勢(shì)基本一致唆香，我們說(shuō)話(huà)收集到的聲音也是一個(gè)道理。我們說(shuō)話(huà)的時(shí)候吨艇，除了有噪音躬它，每個(gè)人說(shuō)話(huà)聲音的大小和快慢也是不一樣的，經(jīng)過(guò)處理之后东涡，讓這些聲音大體上在聲音大小冯吓，語(yǔ)速快慢上變得差不多。這樣可以后續(xù)識(shí)別變得更容易疮跑。

完成上述步驟桑谍，接下去就是要提取語(yǔ)音信號(hào)的特征信息。但在提取信息之前祸挪，我們要先把語(yǔ)音信號(hào)給切成一小塊一小塊的锣披，然后再提取每一小塊的語(yǔ)音特征信息，比如聲調(diào)這些特征信息贿条。提取完語(yǔ)音特征信息后雹仿，會(huì)先把語(yǔ)音信號(hào)放到一個(gè)聲學(xué)模型里面，這個(gè)聲學(xué)模型里面整以，就有所有文字的發(fā)音胧辽。然后在聲學(xué)模型里面，找到和我們說(shuō)話(huà)聲音最匹配的對(duì)象公黑。找到聲學(xué)模型最匹配的聲音后邑商，再把它放到另一個(gè)語(yǔ)言模型里面，這個(gè)語(yǔ)言模型里面放了我們各種說(shuō)的話(huà)凡蚜，句子人断，古詩(shī)，文言文等等朝蜘。語(yǔ)音識(shí)別系統(tǒng)就在里面找恶迈，看哪個(gè)句子的發(fā)音最接進(jìn)“青春萬(wàn)歲”。

但這種傳統(tǒng)的ASR處理方式谱醇，工作量會(huì)非常大暇仲，你得有盡可能多的語(yǔ)音素材去匹配啊。那有沒(méi)有更好的解決方式呢副渴？有奈附！

隨著2006年之后掀起的深度學(xué)習(xí)浪潮，使得語(yǔ)音識(shí)別技術(shù)得到了突飛猛進(jìn)的發(fā)展煮剧。2009年斥滤，人工智能科學(xué)家首次將深度神經(jīng)網(wǎng)絡(luò)（Deep Nerual Network讼载，DNN）應(yīng)用到語(yǔ)音識(shí)別中。他們?cè)O(shè)計(jì)了DNN-HMM模型中跌，在3小時(shí)的數(shù)據(jù)集TIMIT上對(duì)音素識(shí)別任務(wù)取得了很好的效果。深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的作用被一步步更深地挖掘菇篡，直接采用HMM-DNN 混合模型便成了更好的選擇漩符。在 HMM-DNN 混合模型中，我們將不同狀態(tài)使用的多個(gè) GMM 模型通過(guò)一個(gè)深度神經(jīng)網(wǎng)絡(luò)代替驱还。

運(yùn)用深度學(xué)習(xí)技術(shù)嗜暴，將ASR從傳統(tǒng)的“概率圖模型”轉(zhuǎn)向計(jì)算機(jī)機(jī)器人的“自我認(rèn)知”模式。

在過(guò)去的幾個(gè)月里议蟆，語(yǔ)音技術(shù)（ASR+NLP+TTS）開(kāi)始受到越來(lái)越多人的關(guān)注與青睞闷沥。從亞馬遜的Echo到蘋(píng)果公司的HomePod，以及就在不久前華為發(fā)布的AI智能音箱咐容，每家科技公司都參與了進(jìn)來(lái)舆逃。

華為AI智能音箱_騰訊視頻

我們不得不面對(duì)更根本的問(wèn)題：語(yǔ)音技術(shù)到底增加了什么價(jià)值？給我們生活帶來(lái)了哪些變化戳粒？

百度研究顯示路狮，2014年至2016年間，API對(duì)文本朗讀服務(wù)的要求增加了20倍以上（http://www.webhostingreviewsbynerds.com/what-does-meekers-internet-trends-report-tell-us-about-voice-search/）蔚约。這表明人們不僅僅是向語(yǔ)音提出更多的問(wèn)題奄妨，還期待更多答案。

而在一些日常生活領(lǐng)域苹祟，我們也在使用著ASR以及自然語(yǔ)言處理NLP技術(shù)帶來(lái)的高效和便利性砸抛，譬如：

1、在改進(jìn)企業(yè)工作流程树枫，自動(dòng)化數(shù)據(jù)轉(zhuǎn)錄方面直焙。

中國(guó)人平均每分鐘打字40字，口述為150字左右砂轻。盡管如今的千禧一代手工靈敏箕般，但是語(yǔ)音驅(qū)動(dòng)的界面將比敲擊鍵盤(pán)快得多。我看到舔清，身邊已經(jīng)有越來(lái)越多的年輕人開(kāi)始使用微信語(yǔ)音轉(zhuǎn)文字功能丝里。醫(yī)生平均每天花費(fèi)一到兩個(gè)小時(shí)的時(shí)間手動(dòng)將數(shù)據(jù)輸入到電子健康記錄系統(tǒng)中。若使用更好的口授軟件体谒，這些寶貴的時(shí)間便可以被更好地利用杯聚。

2009 年時(shí) Google 便已經(jīng)利用語(yǔ)音識(shí)別技術(shù)在 YouTube上提供實(shí)時(shí)的“自動(dòng)字幕（Automatic Captions）”功能，讓客戶(hù)可以在避免干擾到他人的前提上在不開(kāi)啟喇叭的狀況下觀賞網(wǎng)絡(luò)上各種影片內(nèi)容抒痒，YouTube則利用Google的自動(dòng)語(yǔ)音識(shí)別技術(shù)（ASR）給YouTube視頻加入字幕幌绍。

2、減少了信息導(dǎo)航的時(shí)間，包括高德地圖駕駛導(dǎo)航：

在一些實(shí)體環(huán)境中傀广，例如一些工業(yè)場(chǎng)地或者正在開(kāi)車(chē)颁独，使用屏幕將會(huì)受到限制。在這種情況下伪冰，語(yǔ)音驅(qū)動(dòng)界面不僅可以加速對(duì)信息服務(wù)的訪(fǎng)問(wèn)誓酒，還可以使其更加安全。超過(guò)三分之一的語(yǔ)音用戶(hù)已經(jīng)將其汽車(chē)引用為語(yǔ)音應(yīng)用程序的主要載體贮聂。

3靠柑、增強(qiáng)員工培訓(xùn)，改善客戶(hù)服務(wù)/銷(xiāo)售吓懈，使對(duì)話(huà)透明（語(yǔ)音質(zhì)檢）

一些企業(yè)每年跟蹤記錄數(shù)百萬(wàn)小時(shí)的客戶(hù)服務(wù)和銷(xiāo)售電話(huà)歼冰。目前，這些記錄主要用于監(jiān)控常規(guī)的統(tǒng)計(jì)數(shù)據(jù)耻警，如通話(huà)量隔嫡、解決問(wèn)題時(shí)長(zhǎng)和滿(mǎn)意度調(diào)查分?jǐn)?shù)查剖。然而寥枝，只關(guān)注統(tǒng)計(jì)數(shù)據(jù)而不是對(duì)話(huà)內(nèi)容，將會(huì)增大忽視重要見(jiàn)解的風(fēng)險(xiǎn)蕊温。通過(guò)實(shí)際監(jiān)控這些通話(huà)扒磁，企業(yè)可以發(fā)現(xiàn)新的以客戶(hù)為導(dǎo)向的建議庆揪，找出更能引起顧客共鳴的產(chǎn)品介紹。通過(guò)語(yǔ)音驅(qū)動(dòng)的分析工具妨托，這些見(jiàn)解可以在一定規(guī)模上從那些被認(rèn)為的茫茫電話(huà)錄音庫(kù)數(shù)據(jù)中提取缸榛。

“同學(xué)，我看到你不僅提到ASR兰伤，還有叫NLP的詞内颗，這是啥意思？”

“Bingo敦腔，回到開(kāi)頭介紹的人與人之間溝通交流【聽(tīng)音-辨意-表達(dá)】三個(gè)過(guò)程均澳，對(duì)于人機(jī)交互而言，計(jì)算機(jī)功能不僅在于聽(tīng)清楚人說(shuō)的話(huà)符衔，更重要的在于找前，計(jì)算機(jī)是否能聽(tīng)懂理解人的所述說(shuō)感，識(shí)別分析人的情感和意圖判族，這就是自然語(yǔ)言處理技術(shù)NLP”

“很難嗎躺盛？”

“很難，尤其是中文領(lǐng)域形帮，更需要先行者們?nèi)L試槽惫，去突破周叮。”

最后編輯于：2018.10.29 06:31:16

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末界斜，一起剝皮案震驚了整個(gè)濱河市仿耽，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌各薇，老刑警劉巖项贺，帶你破解...
沈念sama閱讀 216,544評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異得糜，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)晰洒，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,430評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)朝抖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人谍珊，你說(shuō)我怎么就攤上這事治宣。” “怎么了砌滞？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,764評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵侮邀，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我贝润，道長(zhǎng)绊茧，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,193評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任打掘，我火速辦了婚禮华畏，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘尊蚁。我一直安慰自己亡笑，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,216評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布横朋。她就那樣靜靜地躺著仑乌，像睡著了一般。火紅的嫁衣襯著肌膚如雪琴锭。梳的紋絲不亂的頭發(fā)上晰甚，一...
開(kāi)封第一講書(shū)人閱讀 51,182評(píng)論 1贊 299
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音决帖，去河邊找鬼压汪。笑死，一個(gè)胖子當(dāng)著我的面吹牛古瓤，可吹牛的內(nèi)容都是我干的止剖。我是一名探鬼主播腺阳，決...
沈念sama閱讀 40,063評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼穿香！你這毒婦竟也來(lái)了亭引？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,917評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤皮获，失蹤者是張志新（化名）和其女友劉穎焙蚓，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體洒宝，經(jīng)...
沈念sama閱讀 45,329評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡购公，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,543評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雁歌。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宏浩。...
茶點(diǎn)故事閱讀 39,722評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖靠瞎，靈堂內(nèi)的尸體忽然破棺而出比庄，到底是詐尸還是另有隱情，我是刑警寧澤乏盐，帶...
沈念sama閱讀 35,425評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布佳窑，位于F島的核電站，受9級(jí)特大地震影響父能，放射性物質(zhì)發(fā)生泄漏神凑。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,019評(píng)論 3贊 326
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一何吝、第九天我趴在偏房一處隱蔽的房頂上張望耙厚。院中可真熱鬧，春花似錦岔霸、人聲如沸薛躬。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,671評(píng)論 0贊 22
一樁弒父案呆细，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)型宝。三九已至，卻和暖如春絮爷，著一層夾襖步出監(jiān)牢的瞬間趴酣，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,825評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工坑夯，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岖寞，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,729評(píng)論 2贊 368
代替公主和親
正文我出身青樓柜蜈，卻偏偏與公主長(zhǎng)得像仗谆，于是被迫代替她去往敵國(guó)和親指巡。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,614評(píng)論 2贊 353

2018-10-29 聊聊藏在AI智能音箱背后的ASR技術(shù)

推薦閱讀更多精彩內(nèi)容