人與人之間的語(yǔ)言交流過(guò)程,往往會(huì)經(jīng)過(guò)【聽(tīng)音-辨意-表達(dá)】的三個(gè)步驟,用通俗的話(huà)解釋?zhuān)聪扔梦业摹岸洹甭?tīng)清楚你在說(shuō)什么?收到你發(fā)來(lái)的信息后蓄氧,“大腦”已經(jīng)開(kāi)始同步運(yùn)作,后臺(tái)解析你說(shuō)話(huà)目的意圖(intention)和情緒狀態(tài)槐脏,最后將我想要表達(dá)的觀點(diǎn)喉童,用“嘴巴”說(shuō)出來(lái)。
人工智能科學(xué)家們想要實(shí)現(xiàn)的“智能交互”顿天,其實(shí)可以看做類(lèi)似的原理和過(guò)程堂氯。時(shí)至今日,自然語(yǔ)言處理NLP領(lǐng)域也取得了令人驚喜的成果牌废。不過(guò)咽白,機(jī)器要變得像人一樣聰明,能變成像電影里“瓦力”或者終結(jié)者“T-800”鸟缕,還有很長(zhǎng)一段路走晶框。無(wú)論計(jì)算機(jī)軟硬件技術(shù)突破與發(fā)展,還是科學(xué)家們對(duì)語(yǔ)言學(xué)懂从、心理學(xué)及生物學(xué)的深入研究授段,需要共同努力。但與人類(lèi)通過(guò)自然演化法則番甩,從古代智人一步步進(jìn)化成為現(xiàn)代人類(lèi)過(guò)程不同侵贵,機(jī)器人的進(jìn)化程度是呈指數(shù)級(jí)發(fā)展,它們不斷“小步快跑缘薛,迭代更新”窍育,隨著變量的累積,機(jī)器人會(huì)越來(lái)越聰明掩宜。
筆者之前介紹過(guò)的自動(dòng)語(yǔ)音合成TTS蔫骂,就好比機(jī)器人的“嘴巴”么翰,機(jī)器人是如何說(shuō)話(huà)的牺汤。今天聊聊機(jī)器人的“耳朵”,它們是如何聽(tīng)見(jiàn)浩嫌、聽(tīng)清你說(shuō)的話(huà)檐迟,即自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition补胚,ASR),ASR的任務(wù)是準(zhǔn)確追迟,高效的將語(yǔ)音信號(hào)轉(zhuǎn)化為文字信息溶其。
所謂自動(dòng)語(yǔ)音識(shí)別ASR,系統(tǒng)主要包含特征提取敦间、聲學(xué)模型瓶逃,語(yǔ)言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對(duì)所采集到的聲音信號(hào)進(jìn)行濾波廓块、分幀等預(yù)處理工作厢绝,把要分析的信號(hào)從原始信號(hào)中提取出來(lái)。之后带猴,特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域昔汉,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分拴清;而語(yǔ)言模型則根據(jù)語(yǔ)言學(xué)相關(guān)的理論靶病,計(jì)算該聲音信號(hào)對(duì)應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典口予,對(duì)詞組序列進(jìn)行解碼娄周,得到最后可能的文本表示。
“Hey~同學(xué)苹威,你在說(shuō)啥昆咽?能不能說(shuō)點(diǎn)人話(huà)?”
“哦哦牙甫,上面是請(qǐng)教一些技術(shù)大咖后的專(zhuān)業(yè)解釋?zhuān)冶M可能的用大白話(huà)翻譯下~”
傳統(tǒng)的語(yǔ)音識(shí)別和我們現(xiàn)在常見(jiàn)的指紋識(shí)別掷酗,差不多。比如你說(shuō)一句“青春萬(wàn)歲”窟哺,智能手機(jī)會(huì)先通過(guò)麥克風(fēng)泻轰,收集到我們說(shuō)話(huà)的聲音。因?yàn)槲覀冋f(shuō)話(huà)的聲音是屬于模擬信號(hào)且轨,所以收集到我們的聲音之后浮声,要先把模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào)。轉(zhuǎn)換完成之后旋奢,就要對(duì)這個(gè)信號(hào)進(jìn)行處理泳挥。這個(gè)訓(xùn)練的過(guò)程和我們大學(xué)時(shí)軍訓(xùn)相似(訓(xùn)練目的 標(biāo)準(zhǔn)化和結(jié)構(gòu)化)。軍訓(xùn)之前至朗,大家站姿屉符,走路姿勢(shì)都是千差萬(wàn)別。軍訓(xùn)完畢,大家站姿矗钟,走路姿勢(shì)基本一致唆香,我們說(shuō)話(huà)收集到的聲音也是一個(gè)道理。我們說(shuō)話(huà)的時(shí)候吨艇,除了有噪音躬它,每個(gè)人說(shuō)話(huà)聲音的大小和快慢也是不一樣的,經(jīng)過(guò)處理之后东涡,讓這些聲音大體上在聲音大小冯吓,語(yǔ)速快慢上變得差不多。這樣可以后續(xù)識(shí)別變得更容易疮跑。
完成上述步驟桑谍,接下去就是要提取語(yǔ)音信號(hào)的特征信息。但在提取信息之前祸挪,我們要先把語(yǔ)音信號(hào)給切成一小塊一小塊的锣披,然后再提取每一小塊的語(yǔ)音特征信息,比如聲調(diào)這些特征信息贿条。提取完語(yǔ)音特征信息后雹仿,會(huì)先把語(yǔ)音信號(hào)放到一個(gè)聲學(xué)模型里面,這個(gè)聲學(xué)模型里面整以,就有所有文字的發(fā)音胧辽。然后在聲學(xué)模型里面,找到和我們說(shuō)話(huà)聲音最匹配的對(duì)象公黑。找到聲學(xué)模型最匹配的聲音后邑商,再把它放到另一個(gè)語(yǔ)言模型里面,這個(gè)語(yǔ)言模型里面放了我們各種說(shuō)的話(huà)凡蚜,句子人断,古詩(shī),文言文等等朝蜘。語(yǔ)音識(shí)別系統(tǒng)就在里面找恶迈,看哪個(gè)句子的發(fā)音最接進(jìn)“青春萬(wàn)歲”。
但這種傳統(tǒng)的ASR處理方式谱醇,工作量會(huì)非常大暇仲,你得有盡可能多的語(yǔ)音素材去匹配啊。那有沒(méi)有更好的解決方式呢副渴?有奈附!
隨著2006年之后掀起的深度學(xué)習(xí)浪潮,使得語(yǔ)音識(shí)別技術(shù)得到了突飛猛進(jìn)的發(fā)展煮剧。2009年斥滤,人工智能科學(xué)家首次將深度神經(jīng)網(wǎng)絡(luò)(Deep Nerual Network讼载,DNN)應(yīng)用到語(yǔ)音識(shí)別中。他們?cè)O(shè)計(jì)了DNN-HMM模型中跌,在3小時(shí)的數(shù)據(jù)集TIMIT上對(duì)音素識(shí)別任務(wù)取得了很好的效果。深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的作用被一步步更深地挖掘菇篡,直接采用HMM-DNN 混合模型便成了更好的選擇漩符。在 HMM-DNN 混合模型中,我們將不同狀態(tài)使用的多個(gè) GMM 模型通過(guò)一個(gè)深度神經(jīng)網(wǎng)絡(luò)代替驱还。
運(yùn)用深度學(xué)習(xí)技術(shù)嗜暴,將ASR從傳統(tǒng)的“概率圖模型”轉(zhuǎn)向計(jì)算機(jī)機(jī)器人的“自我認(rèn)知”模式。
在過(guò)去的幾個(gè)月里议蟆,語(yǔ)音技術(shù)(ASR+NLP+TTS)開(kāi)始受到越來(lái)越多人的關(guān)注與青睞闷沥。 從亞馬遜的Echo到蘋(píng)果公司的HomePod,以及就在不久前華為發(fā)布的AI智能音箱咐容,每家科技公司都參與了進(jìn)來(lái)舆逃。
我們不得不面對(duì)更根本的問(wèn)題:語(yǔ)音技術(shù)到底增加了什么價(jià)值?給我們生活帶來(lái)了哪些變化戳粒?
百度研究顯示路狮,2014年至2016年間,API對(duì)文本朗讀服務(wù)的要求增加了20倍以上(http://www.webhostingreviewsbynerds.com/what-does-meekers-internet-trends-report-tell-us-about-voice-search/)蔚约。這表明人們不僅僅是向語(yǔ)音提出更多的問(wèn)題奄妨,還期待更多答案。
而在一些日常生活領(lǐng)域苹祟,我們也在使用著ASR以及自然語(yǔ)言處理NLP技術(shù)帶來(lái)的高效和便利性砸抛,譬如:
1、在改進(jìn)企業(yè)工作流程树枫,自動(dòng)化數(shù)據(jù)轉(zhuǎn)錄方面直焙。
中國(guó)人平均每分鐘打字40字,口述為150字左右砂轻。盡管如今的千禧一代手工靈敏箕般,但是語(yǔ)音驅(qū)動(dòng)的界面將比敲擊鍵盤(pán)快得多。我看到舔清,身邊已經(jīng)有越來(lái)越多的年輕人開(kāi)始使用微信語(yǔ)音轉(zhuǎn)文字功能丝里。醫(yī)生平均每天花費(fèi)一到兩個(gè)小時(shí)的時(shí)間手動(dòng)將數(shù)據(jù)輸入到電子健康記錄系統(tǒng)中。若使用更好的口授軟件体谒,這些寶貴的時(shí)間便可以被更好地利用杯聚。
2009 年時(shí) Google 便已經(jīng)利用語(yǔ)音識(shí)別技術(shù)在 YouTube上提供實(shí)時(shí)的“自動(dòng)字幕(Automatic Captions)”功能,讓客戶(hù)可以在避免干擾到他人的前提上在不開(kāi)啟喇叭的狀況下觀賞網(wǎng)絡(luò)上各種影片內(nèi)容抒痒,YouTube則利用Google的自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)給YouTube視頻加入字幕幌绍。
2、減少了信息導(dǎo)航的時(shí)間,包括高德地圖駕駛導(dǎo)航:
在一些實(shí)體環(huán)境中傀广,例如一些工業(yè)場(chǎng)地或者正在開(kāi)車(chē)颁独,使用屏幕將會(huì)受到限制。在這種情況下伪冰,語(yǔ)音驅(qū)動(dòng)界面不僅可以加速對(duì)信息服務(wù)的訪(fǎng)問(wèn)誓酒,還可以使其更加安全。超過(guò)三分之一的語(yǔ)音用戶(hù)已經(jīng)將其汽車(chē)引用為語(yǔ)音應(yīng)用程序的主要載體贮聂。
3靠柑、增強(qiáng)員工培訓(xùn),改善客戶(hù)服務(wù)/銷(xiāo)售吓懈,使對(duì)話(huà)透明(語(yǔ)音質(zhì)檢)
一些企業(yè)每年跟蹤記錄數(shù)百萬(wàn)小時(shí)的客戶(hù)服務(wù)和銷(xiāo)售電話(huà)歼冰。目前,這些記錄主要用于監(jiān)控常規(guī)的統(tǒng)計(jì)數(shù)據(jù)耻警,如通話(huà)量隔嫡、解決問(wèn)題時(shí)長(zhǎng)和滿(mǎn)意度調(diào)查分?jǐn)?shù)查剖。然而寥枝,只關(guān)注統(tǒng)計(jì)數(shù)據(jù)而不是對(duì)話(huà)內(nèi)容,將會(huì)增大忽視重要見(jiàn)解的風(fēng)險(xiǎn)蕊温。通過(guò)實(shí)際監(jiān)控這些通話(huà)扒磁,企業(yè)可以發(fā)現(xiàn)新的以客戶(hù)為導(dǎo)向的建議庆揪,找出更能引起顧客共鳴的產(chǎn)品介紹。通過(guò)語(yǔ)音驅(qū)動(dòng)的分析工具妨托,這些見(jiàn)解可以在一定規(guī)模上從那些被認(rèn)為的茫茫電話(huà)錄音庫(kù)數(shù)據(jù)中提取缸榛。
“同學(xué),我看到你不僅提到ASR兰伤,還有叫NLP的詞内颗,這是啥意思?”
“Bingo敦腔,回到開(kāi)頭介紹的人與人之間溝通交流【聽(tīng)音-辨意-表達(dá)】三個(gè)過(guò)程均澳,對(duì)于人機(jī)交互而言,計(jì)算機(jī)功能不僅在于聽(tīng)清楚人說(shuō)的話(huà)符衔,更重要的在于找前,計(jì)算機(jī)是否能聽(tīng)懂理解人的所述說(shuō)感,識(shí)別分析人的情感和意圖判族,這就是自然語(yǔ)言處理技術(shù)NLP”
“很難嗎躺盛?”
“很難,尤其是中文領(lǐng)域形帮,更需要先行者們?nèi)L試槽惫,去突破周叮。”