前幾天看了云棲大會(huì)·智能語(yǔ)音交互專(zhuān)場(chǎng)的直播缸棵,雖然自己作為技術(shù)小白很多內(nèi)容都沒(méi)聽(tīng)懂(orz....)木柬,但也有不少的收獲锐朴,起碼讓我對(duì)目前智能語(yǔ)音交互領(lǐng)域開(kāi)始有了些基礎(chǔ)的了解~
Overview —— 2017云棲大會(huì)·智能語(yǔ)音交互專(zhuān)場(chǎng)
智能語(yǔ)音交互專(zhuān)場(chǎng)一共是有7場(chǎng)分享演講:先是介紹了學(xué)界里研究院囱皿、語(yǔ)音實(shí)驗(yàn)室等目前對(duì)語(yǔ)音交互的研究情況,之后是介紹目前工業(yè)界基于語(yǔ)音交互技術(shù)的產(chǎn)品研發(fā)肛走,再是介紹在2B辙芍、2C行業(yè)領(lǐng)域和語(yǔ)音交互技術(shù)的融合。
1. 技術(shù) —— 現(xiàn)在大牛們?cè)谡Z(yǔ)音交互實(shí)驗(yàn)室中倒騰些什么羹与?
第一故硅、第二場(chǎng),以及在第四場(chǎng)演講中分享了目前研究院纵搁、實(shí)驗(yàn)室中對(duì)智能語(yǔ)音交互的研究狀況吃衅。介紹了大牛們?cè)趯?shí)驗(yàn)室中,是如何通過(guò)機(jī)器學(xué)習(xí)(對(duì)抗學(xué)習(xí)腾誉、深度神經(jīng)網(wǎng)絡(luò)等等)算法徘层,解決在強(qiáng)干擾下語(yǔ)音識(shí)別率低、回響時(shí)的聲音識(shí)別等難題的利职。
作為一個(gè)技術(shù)小白趣效,聽(tīng)到這些詞匯,可以說(shuō)是相當(dāng)?shù)囊荒樸卤浦硖啊V荒苁切”颈居浵聛?lái)之后默默補(bǔ)課:
智能語(yǔ)音交互領(lǐng)域關(guān)鍵技術(shù)包括語(yǔ)音合成跷敬、語(yǔ)音識(shí)別、語(yǔ)義理解热押、麥克風(fēng)陣列等等:
語(yǔ)音識(shí)別
語(yǔ)音識(shí)別的目標(biāo)是將人類(lèi)語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入西傀,也就是讓機(jī)器明白你說(shuō)什么。語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)桶癣、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面拥褂。
語(yǔ)音合成
語(yǔ)音合成的目標(biāo)是使電腦具有類(lèi)似于人一樣的說(shuō)話能力。語(yǔ)音合成技術(shù)主要是根據(jù)韻律建模的結(jié)果牙寞,從原始語(yǔ)音庫(kù)中取出相應(yīng)的語(yǔ)音基元饺鹃,利用特定的語(yǔ)音合成技術(shù)對(duì)語(yǔ)音基元進(jìn)行韻律特性的調(diào)整和修改,最終合成出符合要求的語(yǔ)音。
語(yǔ)義理解
語(yǔ)義理解是衡量人機(jī)交互的體驗(yàn)度的一個(gè)重要指標(biāo)悔详,人工智能的核心是認(rèn)知镊屎,而認(rèn)知的核心是語(yǔ)義理解技術(shù)。機(jī)器人只有在“懂”了人類(lèi)的指令后伟端,才能正確執(zhí)行用戶下達(dá)的指令杯道。
麥克風(fēng)陣列
麥克風(fēng)陣列匪煌,從字面上责蝠,指的是麥克風(fēng)的排列。也就是說(shuō)由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成萎庭,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)霜医。這種技術(shù)能夠使機(jī)器人或者被控制產(chǎn)品在嘈雜環(huán)境清楚的辨識(shí)真正的語(yǔ)音指令,在酒店驳规、馬路等公共場(chǎng)所有非常廣泛的應(yīng)用肴敛。
A. 語(yǔ)音識(shí)別方面,目前的識(shí)別率已經(jīng)挺高了吗购,在手機(jī)端上應(yīng)用或許已經(jīng)可以滿足基本要求了医男,但是離理想的最終目標(biāo)還是有很大差距。目前在實(shí)驗(yàn)室中致力于解決的問(wèn)題有:
a. 強(qiáng)干擾下的語(yǔ)音識(shí)別捻勉。在有強(qiáng)干擾的情況下镀梭,語(yǔ)音識(shí)別的準(zhǔn)確率會(huì)大打折扣。e.g.雞尾酒效應(yīng)(兩個(gè)聲音一起說(shuō)話)踱启,有回響時(shí)的語(yǔ)音識(shí)別......
b. 復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別报账。e.g.比如中英混雜說(shuō)話的情況
c. 關(guān)于低資源、缺少標(biāo)注數(shù)據(jù)信息埠偿。e.g.方言
B. 語(yǔ)音合成的挑戰(zhàn)有:
a. 個(gè)性化語(yǔ)音透罢。
b. 自然度。語(yǔ)音合成仍缺乏韻律的表達(dá)冠蒋。我們可能聽(tīng)一兩句覺(jué)得還ok羽圃,但要聽(tīng)一大段的篇章內(nèi)容時(shí),會(huì)讓人覺(jué)得很不喜歡抖剿。
c. 缺乏情感表達(dá)统屈。
2. 產(chǎn)品研發(fā) —— 從技術(shù)到應(yīng)用,目前工業(yè)界基于智能語(yǔ)音交互的產(chǎn)品研發(fā)
第三場(chǎng)分享主要介紹了目前阿里在智能語(yǔ)音交互方面的一些產(chǎn)品:e.g.智能語(yǔ)音評(píng)審牙躺,智能化法庭愁憔;e.g.語(yǔ)音審核,監(jiān)測(cè)不良內(nèi)容孽拷,服務(wù)于視頻直播提供商吨掌,降低審核的人工成本;e.g. 淘寶客服,并進(jìn)行對(duì)外輸出膜宋,與ISV合作窿侈;......
分享人提出在智能語(yǔ)音交互產(chǎn)品研發(fā)上,“智能語(yǔ)音交互的終極目的秋茫,是把互聯(lián)網(wǎng)技術(shù)帶到各種各樣的端上史简。”
在第四場(chǎng)Chin-Hui Lee大大的分享上,他除了分享了他再研究的語(yǔ)音交互技術(shù)問(wèn)題肛著,他還提出了一個(gè) adoption chasm 的概念:智能語(yǔ)音交互技術(shù)與用戶的使用之間有鴻溝圆兵,語(yǔ)音交互仍然不能變成我們?nèi)粘I钪械囊徊糠帧?/p>
Chin-Hui Lee大大舉了個(gè)栗子:他女兒買(mǎi)了個(gè)智能語(yǔ)音音箱送給他,但是他們用了幾天之后就把它擱在一邊不再使用了枢贿,只是把它當(dāng)成一個(gè)玩具殉农,偶爾玩一玩而已。
Chin-Hui Lee說(shuō)局荚,人機(jī)自然交互(NUI)是技術(shù)+場(chǎng)景超凳。對(duì)此,他提出的幾個(gè)問(wèn)題都非常值得深入思考:
“為什么很多語(yǔ)音產(chǎn)品在一開(kāi)始很多人會(huì)用耀态,但之后使用率會(huì)快速下降呢轮傍?”
“怎樣才能讓人們更有黏性地應(yīng)用語(yǔ)音交互?怎樣才能把語(yǔ)音交互培養(yǎng)成用戶的使用習(xí)慣首装?”
“有哪些場(chǎng)景是可以讓人覺(jué)得我一定要用語(yǔ)音交互的呢创夜?”
這里提出的幾個(gè)問(wèn)題,在后面的分享“家庭娛樂(lè)的人工智能”中簿盅,有一個(gè)例子能夠可以是嘗試著回答他提出的問(wèn)題的~
3. 2B&2C —— 智能語(yǔ)音交互與商業(yè)社會(huì)和日常生活的不斷融合
第五場(chǎng)分享主要是介紹了在法律行業(yè)中如何運(yùn)用智能語(yǔ)音交互挥下。第六場(chǎng)分享“家庭娛樂(lè)的人工智能”,在其中有介紹了天貓精靈和阿里電視產(chǎn)品桨醋。他分享了一個(gè)很好的案例:在阿里電視產(chǎn)品上棚瘟,時(shí)如何找到一個(gè)語(yǔ)音交互的切入點(diǎn)的。
分享人認(rèn)為喜最,目前語(yǔ)音交互技術(shù)發(fā)展很快偎蘸,但是它還是非常初級(jí)的。現(xiàn)在進(jìn)行語(yǔ)音交互一般都是“指令型”瞬内,它離非常自然的語(yǔ)音交互仍有很大的距離迷雪。當(dāng)用戶嘗試語(yǔ)音交互產(chǎn)品時(shí),發(fā)現(xiàn)效果不理想虫蝶,那么第二天用戶又會(huì)返回到傳統(tǒng)的控制方式上去章咧,不會(huì)再嘗試使用語(yǔ)音控制命令。在現(xiàn)在的技術(shù)條件下能真,可以把語(yǔ)音交互做一些減法赁严,不要把它變得好像無(wú)所不能一樣扰柠。語(yǔ)音交互技術(shù)的未來(lái)前景很好,但目前可以先聚焦到可以解決用戶痛點(diǎn)的場(chǎng)景上疼约。
在電視出現(xiàn)到現(xiàn)在卤档,主要還是用遙控器去主導(dǎo)操作,它還是一種比較簡(jiǎn)單程剥、方便劝枣、快捷的一種交互方式的。但我們發(fā)現(xiàn)其中一個(gè)很大的痛點(diǎn)是:輸入法织鲸。用戶通過(guò)遙控器去輸入文字舔腾,比如搜索影片、輸入密碼等昙沦,是非常麻煩琢唾、很痛苦的载荔。我們圍繞著視頻內(nèi)容搜索這個(gè)場(chǎng)景盾饮,從這個(gè)點(diǎn)上下功夫去做。在這個(gè)場(chǎng)景上懒熙,用語(yǔ)音輸入的活躍度是非常高的丘损。我們圍繞著這個(gè)場(chǎng)景,從最初僅僅是影片名字等比較精確的搜索工扎,到比較模糊的搜索徘钥,比如演員名字,最近上映的等等肢娘,從這個(gè)維度上去做擴(kuò)展呈础,讓用戶養(yǎng)成在搜索時(shí)用語(yǔ)音輸入的習(xí)慣。從這一點(diǎn)切入上橱健,然后逐步打開(kāi)用戶的使用場(chǎng)景而钞。在阿里電視四代上,我們已經(jīng)能把這個(gè)場(chǎng)景上的語(yǔ)音輸入活躍度做得非常高了拘荡。