語音識別中的ASR技術(shù)通識 2019-12-06

1荆忍、內(nèi)容摘要與關(guān)鍵詞

  • ASR概念(幀,多維向量准脂,隱馬爾可夫模型,神經(jīng)網(wǎng)絡(luò))
  • 遠(yuǎn)近場識別(語音激活檢測檬洞、語音喚醒狸膏、麥克風(fēng)陣列)
  • 雙全功
  • 糾錯
  • 當(dāng)前技術(shù)邊界
  • 瓶頸和機(jī)會
  • 語音識別的痛點(diǎn)在哪里
  • 從交互到精準(zhǔn)識別如何做

2、ASR的概念

ASR(Automatic speech recognition)添怔,自動語言識別湾戳,自動將語言轉(zhuǎn)化成文字的過程,作用類似于人類的耳朵广料。
流程:輸入-編碼-解碼-輸出


image.png

2.1 編碼過程

語言識別輸入的是聲音院塞,屬于計算機(jī)無法識別的模擬信號,所以需要通過模型將其轉(zhuǎn)化成數(shù)字信號性昭,并對其中的特征進(jìn)行提取拦止,編碼時,會將聲音切成很小的片段糜颠,成為汹族,類似于視頻中最小時間單位的幀。幀和幀之間會有一定的重疊其兴。
對于得到的每一幀顶瞒,按照人耳聽聲的特定的MCFF規(guī)則,提取其中的特征元旬,轉(zhuǎn)成多維向量榴徐。向量中的每一個維度可以看做是這一幀中的特征。

解碼過程

2.2 解碼過程

解碼過程是將得到的向量變成文字的過程匀归,其中用到兩個模型聲學(xué)模型語言模型坑资。聲學(xué)模型是將特征向量轉(zhuǎn)化成單個字母(中文的拼音聲母和韻母),成為音素穆端。語言模型是將音素拼接起來成為單詞或者漢字袱贮。兩種模型都需要大量的語言數(shù)據(jù)進(jìn)行訓(xùn)練。

image.png

2.3 編解碼的種類

傳統(tǒng)識別方式:隱馬爾可夫模型(HMM)
端到端識別方式:神經(jīng)網(wǎng)絡(luò)(DNN体啰,deep neural network)
兩種識別方式主要的差異在聲學(xué)模型上攒巍。
目前中文的識別率在97%以上嗽仪,距離理想的99%還有很大的差距。

在實(shí)際場景柒莉,有很多種異常情況闻坚,都會導(dǎo)致語音識別的效果大打折扣,比如距離太遠(yuǎn)了不行兢孝,發(fā)音不標(biāo)準(zhǔn)不行鲤氢,環(huán)境嘈雜不行,想打斷也不行西潘,等等卷玉。所以,還需要有各種解決方案來配合喷市。

3相种、異常處理

3.1 遠(yuǎn)場語音識別(Farfield Voice Recognition)

“遠(yuǎn)場”。下面主要說3個概念:
語音激活檢測品姓、語音喚醒寝并、以及麥克風(fēng)陣列。
1)語音激活檢測(voice active detection腹备,VAD)
A)需求背景:在近場識別場景衬潦,比如使用語音輸入法時,用戶可以用手按著語音按鍵說話植酥,結(jié)束之后松開镀岛,由于近場情況下信噪比(signal to noise ratio, SNR))比較高,信號清晰友驮,簡單算法也能做到有效可靠漂羊。
但遠(yuǎn)場識別場景下,用戶不能用手接觸設(shè)備卸留,這時噪聲比較大走越,SNR下降劇烈,必須使用VAD了耻瑟。
B)定義:判斷什么時候有語音什么時候沒有語音(靜音)旨指。
后續(xù)的語音信號處理或是語音識別都是在VAD截取出來的有效語音片段上進(jìn)行的。
2)語音喚醒 (voice trigger喳整,VT)
A)需求背景:在近場識別時谆构,用戶可以點(diǎn)擊按鈕后直接說話,但是遠(yuǎn)場識別時算柳,需要在VAD檢測到人聲之后低淡,進(jìn)行語音喚醒,相當(dāng)于叫這個AI(機(jī)器人)的名字瞬项,引起ta的注意蔗蹋,比如蘋果的“Hey Siri”,Google的“OK Google”囱淋,亞馬遜Echo的“Alexa”等猪杭。
B)定義:可以理解為喊名字,引起聽者的注意妥衣。
VT判斷是喚醒(激活)詞皂吮,那后續(xù)的語音就應(yīng)該進(jìn)行識別了;否則税手,不進(jìn)行識別蜂筹。
C)難點(diǎn):語音識別,不論遠(yuǎn)場還是進(jìn)場芦倒,都是在云端進(jìn)行艺挪,但是語音喚醒基本是在(設(shè)備)本地進(jìn)行的,要求更高——
C.1)喚醒響應(yīng)時間兵扬。據(jù)傅盛說麻裳,世界上所有的音箱,除了Echo和他們做的小雅智能音箱能達(dá)到1.5秒之外器钟,其他的都在3秒以上津坑。
C.2)功耗要低。iphone 4s出現(xiàn)Siri傲霸,但直到iphone 6s之后才允許不接電源的情況下直接喊“hey Siri”進(jìn)行語音喚醒疆瑰。這是因為有6s上有一顆專門進(jìn)行語音激活的低功耗芯片,當(dāng)然算法和硬件要進(jìn)行配合昙啄,算法也要進(jìn)行優(yōu)化乃摹。
C.3)喚醒效果。喊它的時候它不答應(yīng)這叫做漏報跟衅,沒喊它的時候它跳出來講話叫做誤報孵睬。漏報和誤報這2個指標(biāo),是此消彼長的伶跷,比如掰读,如果喚醒詞的字?jǐn)?shù)很長,當(dāng)然誤報少叭莫,但是漏報會多蹈集;如果喚醒詞的字?jǐn)?shù)很短,漏報少了雇初,但誤報會多拢肆,特別如果大半夜的突然唱歌或講故事,會特別嚇人的……
C.4)喚醒詞。技術(shù)上要求郭怪,一般最少3個音節(jié)支示。比如“OK google”和“Alexa”有四個音節(jié),“hey Siri”有三個音節(jié)鄙才;國內(nèi)的智能音箱颂鸿,比如小雅,喚醒詞是“小雅小雅”攒庵,而不能用“小雅”嘴纺。
注:一般產(chǎn)品經(jīng)理或行業(yè)交流時,直接說漢語“語音喚醒”浓冒,而英文縮寫“VT”栽渴,技術(shù)人員可能用得多些。
3)麥克風(fēng)陣列(Microphone Array)
A)需求背景:在會議室稳懒、戶外闲擦、商場等各種復(fù)雜環(huán)境下,會有噪音僚祷、混響佛致、人聲干擾、回聲等各種問題辙谜。特別是遠(yuǎn)場環(huán)境俺榆,要求拾音麥克風(fēng)的靈敏度高,這樣才能在較遠(yuǎn)的距離下獲得有效的音頻振幅装哆,同時近場環(huán)境下又不能爆音(振幅超過最大量化精度)罐脊。另外,家庭環(huán)境中的墻壁反射形成的混響對語音質(zhì)量也有不可忽視的影響蜕琴。
B)定義:由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成萍桌,用來對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。

image.png

C)能干什么
a)語音增強(qiáng)(Speech Enhancement):當(dāng)語音信號被各種各樣的噪聲(包括語音)干擾甚至淹沒后凌简,從含噪聲的語音信號中提取出純凈語音的過程上炎。
b)聲源定位(Source Localization):使用麥克風(fēng)陣列來計算目標(biāo)說話人的角度和距離,從而實(shí)現(xiàn)對目標(biāo)說話人的跟蹤以及后續(xù)的語音定向拾取雏搂。
c)去混響(Dereverberation):聲波在室內(nèi)傳播時藕施,要被墻壁、天花板凸郑、地板等障礙物形成反射聲裳食,并和直達(dá)聲形成疊加,這種現(xiàn)象稱為混響芙沥。
d)聲源信號提取/分離:聲源信號的提取就是從多個聲音信號中提取出目標(biāo)信號诲祸,聲源信號分離技術(shù)則是需要將多個混合聲音全部提取出來浊吏。
D)分類
a)按陣列形狀分:線性、環(huán)形救氯、球形麥克風(fēng)找田。
在原理上,三者并無太大區(qū)別径密,只是由于空間構(gòu)型不同午阵,導(dǎo)致它們可分辨的空間范圍也不同躺孝。
比如享扔,在聲源定位上,線性陣列只有一維信息植袍,只能分辨180度惧眠;
環(huán)形陣列是平面陣列,有兩維信息于个,能分辨360度氛魁;
球性陣列是立體三維空間陣列,有三維信息厅篓,能區(qū)分360度方位角和180度俯仰角秀存。
b)按麥克風(fēng)個數(shù)分:單麥、雙麥羽氮、多麥
麥克風(fēng)的個數(shù)越多或链,對說話人的定位精度越高,在嘈雜環(huán)境下的拾音質(zhì)量越高档押;
但如果交互距離不是很遠(yuǎn)澳盐,或者在一般室內(nèi)的安靜環(huán)境下,5麥和8麥的定位效果差異不是很大令宿。
傅盛說叼耙,全行業(yè)能做“6+1”麥克風(fēng)陣列(環(huán)形對稱分布6顆,圓心中間有1顆)的公司可能不超過兩三家粒没,包括獵戶星空(以前行業(yè)內(nèi)叫獵豹機(jī)器人)在內(nèi)筛婉。而Google Home目前采用的是2mic的設(shè)計。
4)全雙工(Full-Duplex)
A)需求背景:在傳統(tǒng)的語音喚醒方案中癞松,是一次喚醒后爽撒,進(jìn)行語音識別和交互,交互完成再進(jìn)入待喚醒狀態(tài)拦惋。但是在實(shí)際人與人的交流中匆浙,人是可以與多人對話的,而且支持被其他人插入和打斷厕妖。
B)定義:
單工:a和b說話首尼,b只能聽a說
半雙工:參考對講機(jī),A:能不能聽到我說話,over软能;B:可以可以迎捺,over
全雙工:參考打電話,A:哎查排,老王暗手Α!balabala……跋核;B:balabala……
C)包含feature
人聲檢測岖瑰、智能斷句、拒識(無效的語音和無關(guān)說話內(nèi)容)和回聲消除(Echo Cancelling砂代,在播放的同時可以拾音)
特別說下回聲消除的需求背景:近場環(huán)境下蹋订,播放音樂或是語音播報的時候可以按鍵停止這些,但遠(yuǎn)場環(huán)境下刻伊,遠(yuǎn)端揚(yáng)聲器播放的音樂會回傳給近端麥克風(fēng)露戒,此時就需要有效的回聲消除算法來抑制遠(yuǎn)端信號的干擾。
5)糾錯
A)需求背景:做了以上硬件捶箱、算法優(yōu)化后智什,語音識別就會OK了嗎?還不夠丁屎。因為還會因為同音字(詞)等各種異常情況荠锭,導(dǎo)致識別出來的文字有偏差,這時悦屏,就需要做“糾錯”了节沦。
B)用戶主動糾錯。
比如用戶語音說“我們今天础爬,不對甫贯,明天晚上吃啥?”看蚜,經(jīng)過云端的自然語言理解過程叫搁,可以直接顯示用戶真正希望的結(jié)果“我們明天晚上吃啥”。
這里寫圖片描述

C)根據(jù)場景/功能領(lǐng)域不同供炎,AI來主動糾錯渴逻。這里,根據(jù)糾錯目標(biāo)數(shù)據(jù)的來源音诫,可以進(jìn)一步劃分為3種:
a)本地為主惨奕。
比如,打電話功能竭钝。我們一位聯(lián)合創(chuàng)始人名字叫郭家梨撞,如果說“打電話給guo jia時”雹洗,一般語音識別默認(rèn)出現(xiàn)的肯定是“國家”,但(手機(jī))本地會有通訊錄卧波,所以可以根據(jù)拼音时肿,優(yōu)先在通訊錄中尋找更匹配(相似度較高)的名字——郭家。就顯示為“打電話給郭家”港粱。
b)本地+云端螃成。
比如,音樂功能查坪。用戶說寸宏,“我想聽XX(歌曲名稱)”時,可以優(yōu)先在本地的音樂庫中去找相似度較高的歌曲名稱咪惠,然后到云端曲庫去找击吱,最后再合在一起(排序)淋淀。
我們之前實(shí)際測試中發(fā)現(xiàn)過的“糾錯例子”包括:
夜半小夜曲—>月半小夜曲
讓我輕輕地告訴你—>讓我輕輕的告訴你
他說—>她說
望凝眉—>枉凝眉
一聽要幸敢C粒—>一定要幸福
苦啥—>哭砂
鴿子是個傳說—>哥只是個傳說

c)云端為主。
比如地圖功能朵纷,由于POI(Point of Interest炭臭,興趣點(diǎn),指地理位置數(shù)據(jù))數(shù)據(jù)量太大袍辞,直接到云端搜索可能更方便(除非是“家”鞋仍、“公司”等個性化場景)。比如搅吁,用戶說“從武漢火車站到東竿矗”,可以被糾正為“從武漢火車站到東湖”谎懦。

4肚豺、當(dāng)前技術(shù)邊界

各家公司在宣傳時,會說語音識別率達(dá)到了97%界拦,甚至98%吸申,但那一般是需要用戶在安靜環(huán)境下,近距離享甸、慢慢的截碴、認(rèn)真清晰發(fā)音;而在一些實(shí)際場景蛉威,很可能還不夠好的日丹,比如——

1、比如在大家都認(rèn)為相對容易做的翻譯場景蚯嫌,其實(shí)也還沒完全可用哲虾,臺上演示是一回事割坠,普通用戶使用是另一回事;特別是在一些垂直行業(yè)妒牙,領(lǐng)域知識很容易出錯彼哼;另外,還可詳見《懟一懟那些假機(jī)器同傳》
2湘今、車載
大概3敢朱、4年前,我們內(nèi)部做過針對車載場景的語言助手demo摩瞎,拿到真實(shí)場景內(nèi)去驗證拴签,結(jié)果發(fā)現(xiàn),車內(nèi)語音識別效果非常不理想旗们。而且直到今年蚓哩,我曾經(jīng)面試過一位做車內(nèi)語音交互系統(tǒng)的產(chǎn)品經(jīng)理,發(fā)現(xiàn)他們的驗收方其實(shí)也沒有特別嚴(yán)格的測試上渴,因為大家都知道岸梨,那樣怎么也通過不了。稠氮。曹阔。
車內(nèi)語音識別的難點(diǎn)很多,除了多人說話的干擾隔披,還有胎噪赃份、風(fēng)噪,以及經(jīng)常處于離線情況奢米。
據(jù)說有的公司專門在做車內(nèi)降噪抓韩,還有些公司想通過智能硬件來解決,至少目前好像還沒有哪個產(chǎn)品解決好了這個問題鬓长,并且獲得了用戶的口碑稱贊的谒拴。
3、家庭場景痢士,由于相對安靜和可控彪薛,如果遠(yuǎn)場做好了,還是有希望的怠蹂。
4善延、中英文混合。
特別在聽歌場景城侧,用戶說想聽某首英文歌時易遣,很容易識別錯誤的。這方面嫌佑,只有傅盛的小雅音箱據(jù)說做了很多優(yōu)化豆茫,有待用戶檢驗侨歉。
總之,ASR是目前AI領(lǐng)域揩魂,相對最接近商用成熟的技術(shù)幽邓,但還是需要用戶可以配合AI在特定場景下使用。這是不是問題呢火脉?是問題牵舵,但其實(shí)不影響我們做產(chǎn)品demo和初步的產(chǎn)品化工作,所以反而是我們AI產(chǎn)品經(jīng)理的發(fā)揮機(jī)會倦挂。

5畸颅、瓶頸與機(jī)會

1、遠(yuǎn)場語音識別方援,是最近2年的重要競爭領(lǐng)域没炒。因為家庭(音箱)等場景有可能做好、在被催熟犯戏。
2送火、更好的機(jī)會在垂直細(xì)分領(lǐng)域,比如方言(方言識別能夠支持40多種笛丙,而百度有20多種)漾脂、特定人群的聲學(xué)匹配方案(兒童)
最后,用一張圖總結(jié)語音識別用于人機(jī)交互中的幾個難點(diǎn)胚鸯。


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市笨鸡,隨后出現(xiàn)的幾起案子姜钳,更是在濱河造成了極大的恐慌,老刑警劉巖形耗,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哥桥,死亡現(xiàn)場離奇詭異,居然都是意外死亡激涤,警方通過查閱死者的電腦和手機(jī)拟糕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來倦踢,“玉大人送滞,你說我怎么就攤上這事∪杌樱” “怎么了犁嗅?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長晤碘。 經(jīng)常有香客問我褂微,道長功蜓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任宠蚂,我火速辦了婚禮式撼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘求厕。我一直安慰自己端衰,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布甘改。 她就那樣靜靜地躺著蝙眶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪牵咙。 梳的紋絲不亂的頭發(fā)上模闲,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天,我揣著相機(jī)與錄音忘嫉,去河邊找鬼荤牍。 笑死,一個胖子當(dāng)著我的面吹牛庆冕,可吹牛的內(nèi)容都是我干的康吵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼访递,長吁一口氣:“原來是場噩夢啊……” “哼晦嵌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起拷姿,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤惭载,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后响巢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體描滔,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年踪古,在試婚紗的時候發(fā)現(xiàn)自己被綠了含长。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,769評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡伏穆,死狀恐怖拘泞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蜈出,我是刑警寧澤田弥,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站铡原,受9級特大地震影響偷厦,放射性物質(zhì)發(fā)生泄漏商叹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一只泼、第九天 我趴在偏房一處隱蔽的房頂上張望剖笙。 院中可真熱鬧,春花似錦请唱、人聲如沸弥咪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽聚至。三九已至,卻和暖如春本橙,著一層夾襖步出監(jiān)牢的瞬間扳躬,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工甚亭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贷币,地道東北人。 一個月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓亏狰,卻偏偏與公主長得像役纹,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子暇唾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 在智能時代信不,以對話為主要交互形式的CUI會應(yīng)用到越來越多的場景中嘲叔。進(jìn)行對話交互時,機(jī)器往往需要完成“聽懂——理解—...
    UndiscoveredX閱讀 4,019評論 5 17
  • 無線承載有兩種抽活,一種是數(shù)據(jù)承載稱為DRB,一種是信令承載稱為SRB锰什。SRB一共有3中分別為SRB0下硕、SRB1、SR...
    志俊閱讀 18,095評論 0 2
  • 老爸是生意人汁胆,雖算不上走南闖北梭姓,但也常往返于浙江湖北重慶等地。 我懷孕后就沒比較少去公司嫩码,現(xiàn)孕晚期卻不得不出差誉尖。有...
    小丫屠閱讀 513評論 0 1
  • 今天突然想寫寫玩這游戲的突發(fā)感想铡恕。 相信大家對王者榮耀都不陌生琢感,很多人都是老司機(jī)來著。 而我就是一枚菜鳥探熔。 我之所...
    空心白竹閱讀 272評論 0 0