語(yǔ)音識(shí)別類產(chǎn)品分類以及應(yīng)用場(chǎng)景

前言：本文作者@焦糖瑪奇朵，是我們“AI產(chǎn)品經(jīng)理大本營(yíng)”早期成員，下面是她分享的第1篇文章，歡迎更多有興趣“主動(dòng)輸出”的朋友們一起加入仪际、共同進(jìn)步：）

媒體和AI巨頭們樂于給大眾描繪一幅幅精彩的未來(lái)生活藍(lán)圖：人工智能可以化身為你的愛車，在沙漠昵骤、森林或小巷中風(fēng)馳電掣树碱；可以是智慧公正的交警，控制紅綠燈变秦、緩解交通的擁擠成榜；還可以是給人以貼心照顧的小助理，熟悉你生活中的每一處小怪癖蹦玫。

在看到這些美妙的暢想之后赎婚，作為一個(gè)嚴(yán)謹(jǐn)認(rèn)真的AI產(chǎn)品經(jīng)理，我不禁想去探索上述美好未來(lái)的實(shí)現(xiàn)路徑钳垮；今天惑淳，讓我們從人工智能中的感知智能開始——聊聊“語(yǔ)音識(shí)別類產(chǎn)品”额港。

定義

語(yǔ)音識(shí)別是將人類的聲音信號(hào)轉(zhuǎn)化為文字的過(guò)程饺窿。

語(yǔ)音識(shí)別、人臉識(shí)別和OCR等都屬于人工智能中的感知智能移斩，其核心功能是將物理世界的信息轉(zhuǎn)化成可供計(jì)算機(jī)處理的信息躬厌，為后續(xù)的認(rèn)知智能提供基礎(chǔ)模狭。

語(yǔ)音識(shí)別能滿足或支撐的需求層次

1、人與人之間的信息同步

轉(zhuǎn)化成文字的語(yǔ)音信息，由于少了時(shí)間軸的約束囊嘉，在同等量級(jí)的情況下，人類使用眼睛獲取的速度遠(yuǎn)遠(yuǎn)快于耳朵知举。當(dāng)然寇壳，確實(shí)也損失掉了一些信息，比如情緒朱躺。

2刁赖、檢索 & 語(yǔ)義抽取

利用語(yǔ)義建模，對(duì)某些業(yè)務(wù)場(chǎng)景中比較關(guān)注的詞/語(yǔ)義進(jìn)行檢索长搀，或者將其抽取出來(lái)并進(jìn)行結(jié)構(gòu)化記錄宇弛。

3、人機(jī)交互

使用更自然的方式與機(jī)器/虛擬助理進(jìn)行交互源请，實(shí)現(xiàn)擬人對(duì)話枪芒、對(duì)設(shè)備的操控或者問題答案的獲取彻况。

4、數(shù)據(jù)挖掘

通過(guò)對(duì)數(shù)據(jù)的聚類或者與各維度數(shù)據(jù)體系打通舅踪，可以對(duì)個(gè)人/人群/特定領(lǐng)域的語(yǔ)義數(shù)據(jù)進(jìn)行價(jià)值挖掘纽甘。

下面，我將以語(yǔ)音識(shí)別需求場(chǎng)景之“人機(jī)交互”為例抽碌，對(duì)業(yè)界的語(yǔ)音識(shí)別產(chǎn)品進(jìn)行歸類和說(shuō)明贷腕。如果大家比較感興趣，我后續(xù)文章可以再對(duì)其他的幾類需求層次進(jìn)行進(jìn)一步的分析咬展。

分類

根據(jù)識(shí)別內(nèi)容的范圍泽裳，語(yǔ)音識(shí)別可分為“封閉域識(shí)別”和“開放域識(shí)別”。

1破婆、封閉域識(shí)別

識(shí)別范圍為預(yù)先指定的字/詞集合涮总，即，算法只在開發(fā)者預(yù)先設(shè)定的封閉域識(shí)別詞的集合內(nèi)進(jìn)行語(yǔ)音識(shí)別祷舀，對(duì)范圍之外的語(yǔ)音會(huì)拒識(shí)瀑梗。因此，可將其聲學(xué)模型和語(yǔ)言模型進(jìn)行裁剪裳扯，使得識(shí)別引擎的運(yùn)算量變信桌觥；并且饰豺，可將引擎封到嵌入式芯片或者本地化的SDK中亿鲜，從而使識(shí)別過(guò)程完全脫離云端，擺脫對(duì)網(wǎng)絡(luò)的依賴冤吨，并且不會(huì)影響識(shí)別率蒿柳。

業(yè)界廠商提供的引擎部署方式包括云端和本地化（如：芯片，模塊和純軟件SDK）漩蟆。

產(chǎn)品形態(tài)：流式傳輸-同步獲取

典型的應(yīng)用場(chǎng)景：不涉及到多輪交互和多種語(yǔ)義說(shuō)法的場(chǎng)景垒探，比如，對(duì)于簡(jiǎn)單指令交互的智能家居和電視盒子怠李，語(yǔ)音控制指令一般只有“打開窗簾”圾叼、“打開中央臺(tái)”等；或者語(yǔ)音喚醒功能“Alexa”捺癞。但是夷蚊，一旦涉及到程序猿大大們?cè)诤笈_(tái)配置識(shí)別詞集合之外的命令，如“給小編來(lái)一塊錢打賞唄”翘簇，識(shí)別系統(tǒng)將拒識(shí)這段語(yǔ)音撬码，不會(huì)返回相應(yīng)的文字結(jié)果，更不會(huì)做相應(yīng)的回復(fù)或者指令動(dòng)作版保。

2呜笑、開放域識(shí)別

無(wú)需預(yù)先指定識(shí)別詞集合夫否，算法將在整個(gè)語(yǔ)言大集合范圍中進(jìn)行識(shí)別。為適應(yīng)此類場(chǎng)景叫胁，聲學(xué)模型和語(yǔ)音模型一般都比較大凰慈，引擎運(yùn)算量也較大。如果將其封裝到嵌入式芯片或者本地化的SDK中驼鹅，耗能較高并且影響識(shí)別效果微谓。因此，業(yè)界廠商基本上都只以云端形式提供（云端包括公有云形式和私有云形式）输钩。至于本地化形式豺型，只提供帶服務(wù)器級(jí)別計(jì)算能力的嵌入式系統(tǒng)（如會(huì)議字幕系統(tǒng)）。

產(chǎn)品形態(tài)买乃，按照音頻錄入和結(jié)果獲取方式可分為3種——

1）產(chǎn)品形態(tài)1：流式上傳-同步獲取姻氨，應(yīng)用/軟件會(huì)對(duì)說(shuō)話人的語(yǔ)音進(jìn)行自動(dòng)錄制，并將其連續(xù)上傳至云端剪验，說(shuō)話人在說(shuō)完話的同時(shí)能實(shí)時(shí)地看到返回的文字肴焊。

語(yǔ)音云服務(wù)廠商的產(chǎn)品接口中，會(huì)提供音頻錄制接口和格式編碼算法功戚，供客戶端邊錄制邊上傳娶眷，并與云端建立長(zhǎng)連接，同步監(jiān)聽并獲取中間（或者最終完整）的識(shí)別結(jié)果啸臀。

對(duì)于時(shí)長(zhǎng)的限制届宠，由語(yǔ)音云服務(wù)廠商自定義，一般有<1分鐘和<5小時(shí)兩種壳咕，兩者有可能會(huì)采用不同的模型（時(shí)長(zhǎng)限制<5小時(shí)的模型會(huì)采用LSTM長(zhǎng)時(shí)相關(guān)性建模）席揽。

典型應(yīng)用場(chǎng)景1：

A）主要在輸入場(chǎng)景，如輸入法谓厘、會(huì)議/法院庭審時(shí)的實(shí)時(shí)字幕上屏；

B）與麥克風(fēng)陣列和語(yǔ)義結(jié)合的人機(jī)交互場(chǎng)景寸谜，如具備更自然交互形態(tài)的智能音響竟稳。比如用戶說(shuō)“轉(zhuǎn)發(fā)小編這篇文章”，在無(wú)配置的情況下熊痴，識(shí)別系統(tǒng)也能夠識(shí)別這段語(yǔ)音他爸，并返回相應(yīng)的文字結(jié)果。

2）產(chǎn)品形態(tài)2：已錄制音頻文件上傳-異步獲取果善，音頻時(shí)長(zhǎng)一般<3/5小時(shí)诊笤。用戶需自行調(diào)用軟件接口或是硬件平臺(tái)預(yù)先錄制好規(guī)定格式的音頻，并使用語(yǔ)音云服務(wù)廠商提供的接口進(jìn)行音頻上傳巾陕，上傳完成之后便可以斷掉連接讨跟。用戶通過(guò)輪詢語(yǔ)音云服務(wù)器或者使用回調(diào)接口進(jìn)行結(jié)果獲取纪他。

由于長(zhǎng)語(yǔ)音的計(jì)算量較大，計(jì)算時(shí)間較長(zhǎng)晾匠，因此采取異步獲取的方式可以避免由于網(wǎng)絡(luò)問題帶來(lái)的結(jié)果丟失茶袒。也因?yàn)檎Z(yǔ)音轉(zhuǎn)寫系統(tǒng)通常是非實(shí)時(shí)處理的，這種工程形態(tài)也給了識(shí)別算法更多的時(shí)間進(jìn)行多遍解碼凉馆。而長(zhǎng)時(shí)的語(yǔ)料薪寓，也給了算法使用更長(zhǎng)時(shí)的信息進(jìn)行長(zhǎng)短期記憶網(wǎng)絡(luò)建模。在同樣的輸入音頻下澜共，此類型產(chǎn)品形態(tài)犧牲了一部分實(shí)時(shí)率向叉，花費(fèi)了更高的資源消耗，但是卻可以得到最高的識(shí)別率嗦董。在時(shí)間允許的使用場(chǎng)景下植康，“非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫”無(wú)疑是最推薦的產(chǎn)品形態(tài)。

典型應(yīng)用場(chǎng)景2：

A）已經(jīng)錄制完畢的音/視頻字幕配置展懈；

B）實(shí)時(shí)性要求不高的客服語(yǔ)音質(zhì)檢和UGC語(yǔ)音內(nèi)容審查場(chǎng)景等销睁。

3）產(chǎn)品形態(tài)3：已錄制音頻文件上傳-同步獲取，音頻時(shí)長(zhǎng)一般小于<1分鐘存崖。用戶需自行預(yù)先錄制好規(guī)定格式的音頻冻记，并使用語(yǔ)音云服務(wù)廠商提供的接口進(jìn)行音頻上傳。此時(shí)来惧，客戶端與云端建立長(zhǎng)連接冗栗，同步監(jiān)聽并一次性獲取完整的識(shí)別結(jié)果。使用的模型會(huì)根據(jù)語(yǔ)音云廠商產(chǎn)品策略的不同供搀，而跟隨采用上述兩/三種模型中的任意一種隅居。

典型應(yīng)用場(chǎng)景3：

作為前兩者的補(bǔ)充，適用于無(wú)法用音頻錄制接口進(jìn)行實(shí)時(shí)音頻流上傳葛虐，或者結(jié)果獲取的實(shí)時(shí)性要求比較高的場(chǎng)景胎源。

概念厘清

1、離線 VS 在線

在較多的客戶認(rèn)知中屿脐，離/在線的區(qū)別在于“識(shí)別過(guò)程是否需要通過(guò)云端請(qǐng)求”涕蚤，即“識(shí)別引擎是在云端還是本地”。而云計(jì)算中的離/在線產(chǎn)品的引擎都處在云端的诵，區(qū)別在于“計(jì)算過(guò)程中万栅，客戶端是否需要與云端進(jìn)行實(shí)時(shí)數(shù)據(jù)交互”西疤，即上述所述的“流式上傳-同步獲取”和“已錄制音頻文件上傳-異步獲取”方式烦粒。

兩者的定義在人工智能產(chǎn)品領(lǐng)域中有較多沖突，因此并不建議使用“離/在線”概念進(jìn)行相關(guān)產(chǎn)品定義代赁。

2扰她、語(yǔ)音識(shí)別 VS 語(yǔ)義識(shí)別

語(yǔ)音識(shí)別為感知智能兽掰，語(yǔ)義識(shí)別為認(rèn)知智能，前者為后者的前提基礎(chǔ)义黎。語(yǔ)音識(shí)別將聲音轉(zhuǎn)化成文字禾进，語(yǔ)義識(shí)別提取文字中的相關(guān)信息和相應(yīng)意圖，再通過(guò)云端大腦決策廉涕，使用執(zhí)行模塊進(jìn)行相應(yīng)的問題回復(fù)或者反饋動(dòng)作泻云。

注：一般來(lái)說(shuō)，為了減少不必要的理解干擾狐蜕，從業(yè)者更傾向于說(shuō)“自然語(yǔ)言處理（NLP）”等概念宠纯，極少使用“語(yǔ)義識(shí)別”的說(shuō)法。

結(jié)語(yǔ)

最后层释，結(jié)合一小丟丟NLP的人機(jī)交互場(chǎng)景栗子作為收尾——

“給小編這篇文章點(diǎn)個(gè)贊唄”婆瓜，在無(wú)后臺(tái)配置的情況下，封閉域的語(yǔ)音識(shí)別系統(tǒng)會(huì)拒識(shí)這段語(yǔ)音贡羔，而開放域的識(shí)別系統(tǒng)卻能夠識(shí)別這段語(yǔ)音廉白，返回相應(yīng)的文字結(jié)果。

不過(guò)乖寒，現(xiàn)階段的開放域語(yǔ)義系統(tǒng)在大概率情況下猴蹂，還是會(huì)回復(fù)得比較生硬，并且也不會(huì)自動(dòng)識(shí)別出相應(yīng)的意圖并做出指令楣嘁。按照現(xiàn)有比較通用的方法磅轻，這個(gè)功能需要使用封閉域的NLP，在后臺(tái)預(yù)先配置相關(guān)答案逐虚，并且根據(jù)預(yù)先配置的信息抽取意圖聋溜，再根據(jù)意圖類別和槽位信息執(zhí)行相應(yīng)的動(dòng)作——即調(diào)用微信的點(diǎn)贊接口（假設(shè)可以）進(jìn)行相應(yīng)的點(diǎn)贊操作。

聽起來(lái)好繞呀叭爱，是不是覺得還是自己手動(dòng)點(diǎn)個(gè)贊簡(jiǎn)單粗暴省事得多了呢撮躁？然而，一切現(xiàn)代人類做起來(lái)自然而然 & 毫不費(fèi)力的動(dòng)作涤伐，都是建構(gòu)在經(jīng)過(guò)了億萬(wàn)年的學(xué)習(xí)進(jìn)化馒胆、兆億次閉環(huán)重復(fù)練習(xí)的智力基因基礎(chǔ)上的；任何人工智能技術(shù)凝果，也需要巨量的數(shù)據(jù)訓(xùn)練和一定的演變周期。并且睦尽，在所有的科技發(fā)展進(jìn)程中器净，率先取得突破并能在應(yīng)用領(lǐng)域成熟的產(chǎn)品，往往都是在封閉域首先出現(xiàn)的〉狈玻現(xiàn)在山害，NLP正處封閉域產(chǎn)品化階段（比如Amazon Echo纠俭、Google Home等），而語(yǔ)音識(shí)別的產(chǎn)品成熟化已經(jīng)走過(guò)了封閉域浪慌、到達(dá)了開放域冤荆，正在向各行各業(yè)的應(yīng)用場(chǎng)景輸送自己的洪荒之力！

附：腦圖 | 語(yǔ)音識(shí)別類產(chǎn)品的分類及應(yīng)用場(chǎng)景

注：本文已獲haniman授權(quán)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末权纤，一起剝皮案震驚了整個(gè)濱河市钓简，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌汹想，老刑警劉巖外邓，帶你破解...
沈念sama閱讀 217,907評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異古掏，居然都是意外死亡损话，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門槽唾，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)丧枪，“玉大人，你說(shuō)我怎么就攤上這事庞萍∨》常” “怎么了？”我有些...
開封第一講書人閱讀 164,298評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵挂绰，是天一觀的道長(zhǎng)屎篱。經(jīng)常有香客問我，道長(zhǎng)葵蒂，這世上最難降的妖魔是什么交播？我笑而不...
開封第一講書人閱讀 58,586評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮践付，結(jié)果婚禮上秦士，老公的妹妹穿的比我還像新娘。我一直安慰自己永高，他們只是感情好隧土，可當(dāng)我...
茶點(diǎn)故事閱讀 67,633評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著命爬，像睡著了一般曹傀。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上饲宛，一...
開封第一講書人閱讀 51,488評(píng)論 1贊 302
城市分裂傳說(shuō)
那天皆愉，我揣著相機(jī)與錄音，去河邊找鬼。笑死幕庐，一個(gè)胖子當(dāng)著我的面吹牛久锥，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播异剥，決...
沈念sama閱讀 40,275評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼瑟由，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了冤寿？” 一聲冷哼從身側(cè)響起歹苦，我...
開封第一講書人閱讀 39,176評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎疚沐，沒想到半個(gè)月后暂氯，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,619評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡亮蛔，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,819評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年痴施，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片究流。...
茶點(diǎn)故事閱讀 39,932評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡辣吃，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出芬探，到底是詐尸還是另有隱情神得，我是刑警寧澤，帶...
沈念sama閱讀 35,655評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布偷仿，位于F島的核電站哩簿，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏酝静。R本人自食惡果不足惜节榜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,265評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望别智。院中可真熱鬧宗苍，春花似錦、人聲如沸薄榛。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)敞恋。三九已至丽啡，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間硬猫，已是汗流浹背碌上。一陣腳步聲響...
開封第一講書人閱讀 32,994評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工倚评，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留浦徊，地道東北人馏予。一個(gè)月前我還...
沈念sama閱讀 48,095評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像盔性，于是被迫代替她去往敵國(guó)和親霞丧。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,884評(píng)論 2贊 354

語(yǔ)音識(shí)別類產(chǎn)品分類以及應(yīng)用場(chǎng)景

推薦閱讀更多精彩內(nèi)容