演講者:徐嘉南甲献,百度高級PM弛说,5年互聯(lián)網(wǎng)產(chǎn)品從業(yè)經(jīng)驗,2年AI項目經(jīng)驗杂曲。覆蓋AI平臺筹陵、語音交互试溯、智能硬件弓乙、大數(shù)據(jù)渊抄、科技金融。
課程內(nèi)容:①語音交互產(chǎn)品的認(rèn)知巢块;②設(shè)計原則礁阁;③實戰(zhàn)設(shè)計巧号;④深入學(xué)習(xí)方法。
一氮兵、認(rèn)知
目前AI產(chǎn)品三大應(yīng)用方向:圖像裂逐、推薦歹鱼、語音交互泣栈。語音交互是直面C端的設(shè)計。
人類和設(shè)備通過自然語言進(jìn)行信息傳遞的過程就是語音交互弥姻。這個設(shè)備可以是電腦南片、手機(jī),也可以是耳機(jī)庭敦、音箱疼进。鬧鐘鈴聲、BB聲等也是一種人和機(jī)器的聲音交互秧廉,但是不是通過自然語言來交互的伞广,所以是不算的。最后一個點就是人和機(jī)器之間交互的目的是為了傳遞信息疼电,不僅僅是單向收聽或單向輸入嚼锄,還可以像人一樣,能說能聽蔽豺,雙向交流区丑。
國外知名語音交互產(chǎn)品中,亞馬遜echo(市場占比約60%)修陡、谷歌(市場占比25%)和Siri(手機(jī)場景下沧侥,觸摸是主要的交互方式,語音只是一個錦上添花的作用魄鸦,導(dǎo)致Siri沒有成為行業(yè)第一宴杀。)國內(nèi)最大的中文交互平臺百度Duer OS(百度旗艦產(chǎn)品,覆蓋5000萬設(shè)備拾因,日活1000萬婴氮,國內(nèi)領(lǐng)先);天貓精靈(銷量200萬)盾致;小愛同學(xué)主经。
對于創(chuàng)業(yè)者來說,在語音交互平臺上開發(fā)語音技能庭惜,就類似于在以前的安卓或者IOS應(yīng)用商店里開發(fā)應(yīng)用程序罩驻。亞馬遜的Alexa有了23000個技能,國內(nèi)平臺的技能不超過300個护赊。(11年的時候惠遏,是超級APP萌發(fā)的時候)
基本的實現(xiàn)原理如下圖所示砾跃,這里講一下DST和DM的區(qū)別。這兩個都是系統(tǒng)內(nèi)部術(shù)語节吮,對話狀態(tài)控制是系統(tǒng)在維護(hù)和用戶的對話狀態(tài)(我猜這里是在判斷用戶這個對話是單輪還是多輪)抽高,后面一步對話管理就是系統(tǒng)控制是該用戶說話,還是系統(tǒng)說話透绩。對話生成其實蠻像文案設(shè)計的翘骂。
語音交互產(chǎn)品設(shè)計需要設(shè)計師本身對涉及到的技術(shù)知識邊界有比較深的了解。在以上圖示過程中帚豪,識別前涉及到聲音信號的識別率(與場景有關(guān))與優(yōu)化過程(文本糾錯等)碳竟;識別中涉及到聲音信號的理解(意圖識別有錯誤率,中文博大精深狸臣,而產(chǎn)品設(shè)計中不可能100%覆蓋到所有人的對話句式莹桅,所以需要產(chǎn)品人員去定義常用的句式,做好用戶引導(dǎo)和教育烛亦,彌補(bǔ)技術(shù)上的不足)诈泼;識別之后的信息反饋和播報(信息播報的音質(zhì)和音色是用戶能夠直接感受到的,所以這里語音合成的自然度煤禽、流暢度也是十分重要的指標(biāo))
二铐达、設(shè)計原則
適合語音交互的需求:語音比其他的輸入方式要更高效和便捷(定鬧鐘);安全性的要求(智能駕駛)呜师;不同設(shè)備之間的信息流轉(zhuǎn)問題(物聯(lián)網(wǎng))娶桦。所以總結(jié)一下,適合的場景有以下特征:
①更高效汁汗。對話一定是要比現(xiàn)在的交互流程快衷畦,簡便,且這個快是明顯的知牌,而不是可能會快一些祈争。
②偏執(zhí)行。讓系統(tǒng)去做某件事角寸,系統(tǒng)只需要結(jié)果反饋就可以了菩混。用戶不需要關(guān)心信息是如何處理的,是怎么搜索到的扁藕,只關(guān)心最后執(zhí)行的結(jié)果就好了沮峡。
③設(shè)備優(yōu)勢。設(shè)備能夠放大語音交互的優(yōu)勢亿柑,比如音箱可以更好地處理聲音信號邢疙、解決遠(yuǎn)距離觸摸的問題。
那么不適合的場景有哪些呢?①環(huán)境嘈雜疟游,比如像有人提出來建筑工地上的一些安全巡視員在發(fā)現(xiàn)問題的時候呼畸,要記錄在系統(tǒng)上,但是當(dāng)時可能找不到合適的辦公桌來敲字颁虐,這時如果通過設(shè)備終端錄入語音或圖像的說明蛮原,可以解決這個問題。這就是一個明顯的偽需求另绩。②發(fā)散交流儒陨,科幻電影給人們造成的印象就是對話助手無所不能,但當(dāng)前的技術(shù)下板熊,對話式語音助手無法做到流暢的切換框全,所以就需要聚焦到某個核心的場景下察绷,去約束用戶的行為干签。③流程過長,特別需要有大量的信息或者視覺方面的信息去做決策時拆撼。比如點外賣容劳。
最忌諱的一點是:為了使用語音而使用語音,刻意的在自己的產(chǎn)品中加入語音功能闸度。要從實際場景出發(fā)竭贩,給用戶帶來更好的效率,解決痛點莺禁。
三留量、任務(wù)型對話的設(shè)計流程
技能(Skill或Bot):一類相關(guān)性功能的集合;
意圖(intent):用戶明確的需求哟冬,獨立且不可拆分的原則楼熄。
槽位(slot):就是執(zhí)行一整個任務(wù)所需要的關(guān)鍵信息。
槽位完整表達(dá)時浩峡,任務(wù)直接執(zhí)行可岂;槽位表達(dá)不完整時,要澄清關(guān)鍵信息翰灾;有分支流程的時候缕粹,就要對不同的觸發(fā)條件,以及觸發(fā)之后進(jìn)入什么流程要做詳細(xì)的設(shè)計纸淮;退出情況平斩,需要支持用戶主動跳出該意圖,也要在發(fā)生意外的時候咽块,給出推出提示绘面。
舉個實際例子:我們要做一個語音提出差申請(必填信息有出發(fā)地、目的地、出發(fā)時間飒货、返回時間魄衅、事由、出差類型)的場景塘辅。那么用戶如果說:“我明天要去北京參加AI大會晃虫,三天后回來”,那么所需要的所有信息都已經(jīng)填入了(出發(fā)地:系統(tǒng)定位扣墩;目的地:北京哲银;出發(fā)時間:明天;返回時間:三天后呻惕;事由:參加AI大會荆责;出差類型:自動劃分為),這樣系統(tǒng)就會給出一張?zhí)詈玫某霾钌暾垎窝谴啵層脩羧ゴ_認(rèn)提交做院。如果是中間有任何一個必填字段沒有獲取到,那么就需要系統(tǒng)去詢問濒持,比如:“你要什么時候出發(fā)键耕?”“你什么時候回來?”
那如果出差中的項目出差是必須填預(yù)算的柑营,用戶在提出差申請的時候會說:“我提一個項目出差屈雄,后天去北京”那么系統(tǒng)這時候判斷出差類型是項目出差,就會觸發(fā)分支來詢問:“請問您的項目預(yù)算是多少官套?” 用戶一時之間不知道預(yù)算是多少酒奶,可能會主動中斷這次填寫;或者用戶說了三次錯誤的答案(非某個具體數(shù)字奶赔,但也可能是語音轉(zhuǎn)文字錯誤了)惋嚎,那系統(tǒng)就不能反復(fù)去澄清這個數(shù)字,而需要主動退出纺阔,并提示用戶瘸彤。
至于這個提示怎么去設(shè)計,就跟小K本身的形象定位以及設(shè)計者本身的素質(zhì)關(guān)聯(lián)了笛钝≈士觯總之,在設(shè)計的時候玻靡,需要考慮到功能的方方面面结榄。