2018-10-29 聊聊藏在AI智能音箱背后的ASR技術(shù)

人與人之間的語(yǔ)言交流過(guò)程,往往會(huì)經(jīng)過(guò)【聽(tīng)音-辨意-表達(dá)】的三個(gè)步驟,用通俗的話(huà)解釋?zhuān)聪扔梦业摹岸洹甭?tīng)清楚你在說(shuō)什么?收到你發(fā)來(lái)的信息后蓄氧,“大腦”已經(jīng)開(kāi)始同步運(yùn)作,后臺(tái)解析你說(shuō)話(huà)目的意圖(intention)和情緒狀態(tài)槐脏,最后將我想要表達(dá)的觀點(diǎn)喉童,用“嘴巴”說(shuō)出來(lái)。

人工智能科學(xué)家們想要實(shí)現(xiàn)的“智能交互”顿天,其實(shí)可以看做類(lèi)似的原理和過(guò)程堂氯。時(shí)至今日,自然語(yǔ)言處理NLP領(lǐng)域也取得了令人驚喜的成果牌废。不過(guò)咽白,機(jī)器要變得像人一樣聰明,能變成像電影里“瓦力”或者終結(jié)者“T-800”鸟缕,還有很長(zhǎng)一段路走晶框。無(wú)論計(jì)算機(jī)軟硬件技術(shù)突破與發(fā)展,還是科學(xué)家們對(duì)語(yǔ)言學(xué)懂从、心理學(xué)及生物學(xué)的深入研究授段,需要共同努力。但與人類(lèi)通過(guò)自然演化法則番甩,從古代智人一步步進(jìn)化成為現(xiàn)代人類(lèi)過(guò)程不同侵贵,機(jī)器人的進(jìn)化程度是呈指數(shù)級(jí)發(fā)展,它們不斷“小步快跑缘薛,迭代更新”窍育,隨著變量的累積,機(jī)器人會(huì)越來(lái)越聰明掩宜。

筆者之前介紹過(guò)的自動(dòng)語(yǔ)音合成TTS蔫骂,就好比機(jī)器人的“嘴巴”么翰,機(jī)器人是如何說(shuō)話(huà)的牺汤。今天聊聊機(jī)器人的“耳朵”,它們是如何聽(tīng)見(jiàn)浩嫌、聽(tīng)清你說(shuō)的話(huà)檐迟,即自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition补胚,ASR),ASR的任務(wù)是準(zhǔn)確追迟,高效的將語(yǔ)音信號(hào)轉(zhuǎn)化為文字信息溶其。

所謂自動(dòng)語(yǔ)音識(shí)別ASR,系統(tǒng)主要包含特征提取敦间、聲學(xué)模型瓶逃,語(yǔ)言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對(duì)所采集到的聲音信號(hào)進(jìn)行濾波廓块、分幀等預(yù)處理工作厢绝,把要分析的信號(hào)從原始信號(hào)中提取出來(lái)。之后带猴,特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域昔汉,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分拴清;而語(yǔ)言模型則根據(jù)語(yǔ)言學(xué)相關(guān)的理論靶病,計(jì)算該聲音信號(hào)對(duì)應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典口予,對(duì)詞組序列進(jìn)行解碼娄周,得到最后可能的文本表示。

“Hey~同學(xué)苹威,你在說(shuō)啥昆咽?能不能說(shuō)點(diǎn)人話(huà)?”

“哦哦牙甫,上面是請(qǐng)教一些技術(shù)大咖后的專(zhuān)業(yè)解釋?zhuān)冶M可能的用大白話(huà)翻譯下~”

傳統(tǒng)的語(yǔ)音識(shí)別和我們現(xiàn)在常見(jiàn)的指紋識(shí)別掷酗,差不多。比如你說(shuō)一句“青春萬(wàn)歲”窟哺,智能手機(jī)會(huì)先通過(guò)麥克風(fēng)泻轰,收集到我們說(shuō)話(huà)的聲音。因?yàn)槲覀冋f(shuō)話(huà)的聲音是屬于模擬信號(hào)且轨,所以收集到我們的聲音之后浮声,要先把模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào)。轉(zhuǎn)換完成之后旋奢,就要對(duì)這個(gè)信號(hào)進(jìn)行處理泳挥。這個(gè)訓(xùn)練的過(guò)程和我們大學(xué)時(shí)軍訓(xùn)相似(訓(xùn)練目的 標(biāo)準(zhǔn)化和結(jié)構(gòu)化)。軍訓(xùn)之前至朗,大家站姿屉符,走路姿勢(shì)都是千差萬(wàn)別。軍訓(xùn)完畢,大家站姿矗钟,走路姿勢(shì)基本一致唆香,我們說(shuō)話(huà)收集到的聲音也是一個(gè)道理。我們說(shuō)話(huà)的時(shí)候吨艇,除了有噪音躬它,每個(gè)人說(shuō)話(huà)聲音的大小和快慢也是不一樣的,經(jīng)過(guò)處理之后东涡,讓這些聲音大體上在聲音大小冯吓,語(yǔ)速快慢上變得差不多。這樣可以后續(xù)識(shí)別變得更容易疮跑。

完成上述步驟桑谍,接下去就是要提取語(yǔ)音信號(hào)的特征信息。但在提取信息之前祸挪,我們要先把語(yǔ)音信號(hào)給切成一小塊一小塊的锣披,然后再提取每一小塊的語(yǔ)音特征信息,比如聲調(diào)這些特征信息贿条。提取完語(yǔ)音特征信息后雹仿,會(huì)先把語(yǔ)音信號(hào)放到一個(gè)聲學(xué)模型里面,這個(gè)聲學(xué)模型里面整以,就有所有文字的發(fā)音胧辽。然后在聲學(xué)模型里面,找到和我們說(shuō)話(huà)聲音最匹配的對(duì)象公黑。找到聲學(xué)模型最匹配的聲音后邑商,再把它放到另一個(gè)語(yǔ)言模型里面,這個(gè)語(yǔ)言模型里面放了我們各種說(shuō)的話(huà)凡蚜,句子人断,古詩(shī),文言文等等朝蜘。語(yǔ)音識(shí)別系統(tǒng)就在里面找恶迈,看哪個(gè)句子的發(fā)音最接進(jìn)“青春萬(wàn)歲”。

但這種傳統(tǒng)的ASR處理方式谱醇,工作量會(huì)非常大暇仲,你得有盡可能多的語(yǔ)音素材去匹配啊。那有沒(méi)有更好的解決方式呢副渴?有奈附!

隨著2006年之后掀起的深度學(xué)習(xí)浪潮,使得語(yǔ)音識(shí)別技術(shù)得到了突飛猛進(jìn)的發(fā)展煮剧。2009年斥滤,人工智能科學(xué)家首次將深度神經(jīng)網(wǎng)絡(luò)(Deep Nerual Network讼载,DNN)應(yīng)用到語(yǔ)音識(shí)別中。他們?cè)O(shè)計(jì)了DNN-HMM模型中跌,在3小時(shí)的數(shù)據(jù)集TIMIT上對(duì)音素識(shí)別任務(wù)取得了很好的效果。深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的作用被一步步更深地挖掘菇篡,直接采用HMM-DNN 混合模型便成了更好的選擇漩符。在 HMM-DNN 混合模型中,我們將不同狀態(tài)使用的多個(gè) GMM 模型通過(guò)一個(gè)深度神經(jīng)網(wǎng)絡(luò)代替驱还。

運(yùn)用深度學(xué)習(xí)技術(shù)嗜暴,將ASR從傳統(tǒng)的“概率圖模型”轉(zhuǎn)向計(jì)算機(jī)機(jī)器人的“自我認(rèn)知”模式。

在過(guò)去的幾個(gè)月里议蟆,語(yǔ)音技術(shù)(ASR+NLP+TTS)開(kāi)始受到越來(lái)越多人的關(guān)注與青睞闷沥。 從亞馬遜的Echo到蘋(píng)果公司的HomePod,以及就在不久前華為發(fā)布的AI智能音箱咐容,每家科技公司都參與了進(jìn)來(lái)舆逃。


華為AI智能音箱_騰訊視頻

我們不得不面對(duì)更根本的問(wèn)題:語(yǔ)音技術(shù)到底增加了什么價(jià)值?給我們生活帶來(lái)了哪些變化戳粒?

百度研究顯示路狮,2014年至2016年間,API對(duì)文本朗讀服務(wù)的要求增加了20倍以上(http://www.webhostingreviewsbynerds.com/what-does-meekers-internet-trends-report-tell-us-about-voice-search/)蔚约。這表明人們不僅僅是向語(yǔ)音提出更多的問(wèn)題奄妨,還期待更多答案。


而在一些日常生活領(lǐng)域苹祟,我們也在使用著ASR以及自然語(yǔ)言處理NLP技術(shù)帶來(lái)的高效和便利性砸抛,譬如:

1、在改進(jìn)企業(yè)工作流程树枫,自動(dòng)化數(shù)據(jù)轉(zhuǎn)錄方面直焙。

中國(guó)人平均每分鐘打字40字,口述為150字左右砂轻。盡管如今的千禧一代手工靈敏箕般,但是語(yǔ)音驅(qū)動(dòng)的界面將比敲擊鍵盤(pán)快得多。我看到舔清,身邊已經(jīng)有越來(lái)越多的年輕人開(kāi)始使用微信語(yǔ)音轉(zhuǎn)文字功能丝里。醫(yī)生平均每天花費(fèi)一到兩個(gè)小時(shí)的時(shí)間手動(dòng)將數(shù)據(jù)輸入到電子健康記錄系統(tǒng)中。若使用更好的口授軟件体谒,這些寶貴的時(shí)間便可以被更好地利用杯聚。

2009 年時(shí) Google 便已經(jīng)利用語(yǔ)音識(shí)別技術(shù)在 YouTube上提供實(shí)時(shí)的“自動(dòng)字幕(Automatic Captions)”功能,讓客戶(hù)可以在避免干擾到他人的前提上在不開(kāi)啟喇叭的狀況下觀賞網(wǎng)絡(luò)上各種影片內(nèi)容抒痒,YouTube則利用Google的自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)給YouTube視頻加入字幕幌绍。

2、減少了信息導(dǎo)航的時(shí)間,包括高德地圖駕駛導(dǎo)航

在一些實(shí)體環(huán)境中傀广,例如一些工業(yè)場(chǎng)地或者正在開(kāi)車(chē)颁独,使用屏幕將會(huì)受到限制。在這種情況下伪冰,語(yǔ)音驅(qū)動(dòng)界面不僅可以加速對(duì)信息服務(wù)的訪(fǎng)問(wèn)誓酒,還可以使其更加安全。超過(guò)三分之一的語(yǔ)音用戶(hù)已經(jīng)將其汽車(chē)引用為語(yǔ)音應(yīng)用程序的主要載體贮聂。

3靠柑、增強(qiáng)員工培訓(xùn),改善客戶(hù)服務(wù)/銷(xiāo)售吓懈,使對(duì)話(huà)透明(語(yǔ)音質(zhì)檢)

一些企業(yè)每年跟蹤記錄數(shù)百萬(wàn)小時(shí)的客戶(hù)服務(wù)和銷(xiāo)售電話(huà)歼冰。目前,這些記錄主要用于監(jiān)控常規(guī)的統(tǒng)計(jì)數(shù)據(jù)耻警,如通話(huà)量隔嫡、解決問(wèn)題時(shí)長(zhǎng)和滿(mǎn)意度調(diào)查分?jǐn)?shù)查剖。然而寥枝,只關(guān)注統(tǒng)計(jì)數(shù)據(jù)而不是對(duì)話(huà)內(nèi)容,將會(huì)增大忽視重要見(jiàn)解的風(fēng)險(xiǎn)蕊温。通過(guò)實(shí)際監(jiān)控這些通話(huà)扒磁,企業(yè)可以發(fā)現(xiàn)新的以客戶(hù)為導(dǎo)向的建議庆揪,找出更能引起顧客共鳴的產(chǎn)品介紹。通過(guò)語(yǔ)音驅(qū)動(dòng)的分析工具妨托,這些見(jiàn)解可以在一定規(guī)模上從那些被認(rèn)為的茫茫電話(huà)錄音庫(kù)數(shù)據(jù)中提取缸榛。


“同學(xué),我看到你不僅提到ASR兰伤,還有叫NLP的詞内颗,這是啥意思?”

“Bingo敦腔,回到開(kāi)頭介紹的人與人之間溝通交流【聽(tīng)音-辨意-表達(dá)】三個(gè)過(guò)程均澳,對(duì)于人機(jī)交互而言,計(jì)算機(jī)功能不僅在于聽(tīng)清楚人說(shuō)的話(huà)符衔,更重要的在于找前,計(jì)算機(jī)是否能聽(tīng)懂理解人的所述說(shuō)感,識(shí)別分析人的情感和意圖判族,這就是自然語(yǔ)言處理技術(shù)NLP

“很難嗎躺盛?”

“很難,尤其是中文領(lǐng)域形帮,更需要先行者們?nèi)L試槽惫,去突破周叮。”

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末界斜,一起剝皮案震驚了整個(gè)濱河市仿耽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌各薇,老刑警劉巖项贺,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異得糜,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)晰洒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)朝抖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人谍珊,你說(shuō)我怎么就攤上這事治宣。” “怎么了砌滞?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵侮邀,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我贝润,道長(zhǎng)绊茧,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任打掘,我火速辦了婚禮华畏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘尊蚁。我一直安慰自己亡笑,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布横朋。 她就那樣靜靜地躺著仑乌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪琴锭。 梳的紋絲不亂的頭發(fā)上晰甚,一...
    開(kāi)封第一講書(shū)人閱讀 51,182評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音决帖,去河邊找鬼压汪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛古瓤,可吹牛的內(nèi)容都是我干的止剖。 我是一名探鬼主播腺阳,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼穿香!你這毒婦竟也來(lái)了亭引?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤皮获,失蹤者是張志新(化名)和其女友劉穎焙蚓,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體洒宝,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡购公,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雁歌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宏浩。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖靠瞎,靈堂內(nèi)的尸體忽然破棺而出比庄,到底是詐尸還是另有隱情,我是刑警寧澤乏盐,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布佳窑,位于F島的核電站,受9級(jí)特大地震影響父能,放射性物質(zhì)發(fā)生泄漏神凑。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一何吝、第九天 我趴在偏房一處隱蔽的房頂上張望耙厚。 院中可真熱鬧,春花似錦岔霸、人聲如沸薛躬。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)型宝。三九已至,卻和暖如春絮爷,著一層夾襖步出監(jiān)牢的瞬間趴酣,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工坑夯, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岖寞,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓柜蜈,卻偏偏與公主長(zhǎng)得像仗谆,于是被迫代替她去往敵國(guó)和親指巡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容