此文為Medium上的一篇文章预伺,搬運(yùn)過來供自己和大家學(xué)習(xí)下拥坛。原文鏈接
去年11月第一次接觸VUI Design以來貌虾,已有三個(gè)多月,期間憑著網(wǎng)上的資料(主要是google designguideline\dueros.com\設(shè)計(jì)師手記\論文)以及自己的UX知識(shí),我嘗試設(shè)計(jì)了三個(gè)項(xiàng)目:一個(gè)買書的skill、一款智能音箱語音交互游戲振劳、一個(gè)關(guān)于中國電信100M寬帶業(yè)務(wù)的微信咨詢機(jī)器人,前兩個(gè)項(xiàng)目做到原型為止油狂,最后一個(gè)已經(jīng)在微信公眾號(hào)后臺(tái)實(shí)現(xiàn)历恐。但這三個(gè)項(xiàng)目的重點(diǎn)都被放在conversation design上,并不能算完整意義上的VUI专筷。
本月剛剛讀完?Cathy Pearl的《語音用戶界面設(shè)計(jì)》(《Designing Voice User Interface》) 和《Voice User Interface Design》(By Michael H. Cohen, James P. Giangola, Jennifer Balogh)弱贼,書中完整地討論了VUI設(shè)計(jì)的基本原則、重要的技術(shù)模塊以及用戶測試等問題仁堪,幫助勾畫出了一張比較完整的VUI Design全景圖。
在接下來的文章中填渠,我會(huì)嘗試用一個(gè)happy path串連起由0到1設(shè)計(jì)一個(gè)語音交互界面的過程弦聂,希望能定義好每個(gè)小框架中的設(shè)計(jì)問題鸟辅,然后把它們變作一種肌肉記憶。
By the way莺葫, 因?yàn)檎f話這件事情太本能了匪凉,所以我覺得設(shè)計(jì)VUI困難的一點(diǎn)在于怎樣從用戶思維中跳出來,讓自己重新回到設(shè)計(jì)師的角色上:)
VUI是合適的選擇嗎?
語音界面的優(yōu)勢主要體現(xiàn)在三個(gè)方面:一是速度捺檬,包括輸入更方便再层、入口更淺、學(xué)習(xí)負(fù)擔(dān)更小等堡纬;二是共時(shí)聂受,比如允許多任務(wù)同時(shí)進(jìn)行;三是探索性烤镐,更能激發(fā)用戶的好奇心蛋济,提升用戶體驗(yàn)。不過同時(shí)炮叶,也不要忘記語音交流是非常受場景碗旅、技術(shù)及用戶習(xí)慣限制的一件事。
可以參考Google-fit-quiz里的問題镜悉,來驗(yàn)證VUI究竟是不是你的最佳選擇祟辟。
設(shè)計(jì)VUI時(shí)我們?cè)谠O(shè)計(jì)什么?
在回答之前侣肄,我們需要先了解:1.用戶進(jìn)行語音交互的方式有哪些旧困,2.VUI系統(tǒng)內(nèi)部是如何運(yùn)作的。
1.用戶進(jìn)行語音交互的方式有哪些
The Nielson Norman Group將語音交互總結(jié)為以下屏幕優(yōu)先茫孔、純語音和語音優(yōu)先三種模式:
??Screen-first Interaction(屏幕優(yōu)先):?Here, we start with an application designed primarily for screen, and voice controls are added afterwards to enhance the experience.(設(shè)計(jì)一個(gè)以屏幕顯示為主的App, 為了提升用戶體驗(yàn)叮喳,會(huì)加一些語音元素)
???Voice-only Interaction(只有語音交互):?Here there is no screen at all, and input and output is based on sound, such as a smart speaker.(VUI設(shè)備沒有屏幕,輸入和輸出都要聲音缰贝,比如智能揚(yáng)聲器)
??Voice-first Interaction(語音優(yōu)先):?This is where an app designed primarily for voice is enhanced through the addition of a screen to output information.(以語音為主要交互方式的App馍悟,輸出信息在屏幕上顯示,通過這種方式提升App體驗(yàn))
屏幕優(yōu)先的情況下剩晴,最典型的代表就是手機(jī)語音助手锣咒,用戶不僅可以通過語音,還可以通過鍵入赞弥、手勢來進(jìn)行操作毅整,系統(tǒng)回復(fù)的內(nèi)容也包含了語音、文本绽左、圖片悼嫉、列表、鏈接等等拼窥。
純語音交互的代表之一是智能音箱戏蔑,用戶通過“喚醒”詞蹋凝,比如“ Alexa”,來開啟VUI交互总棵;另一個(gè)代表是電話客服鳍寂,也就是交互式語音應(yīng)答(Interactive Voice Response, IVR),它可以通過電話線路理解人們的請(qǐng)求并指引用戶完成相應(yīng)的任務(wù)情龄,比如預(yù)定機(jī)票迄汛、查詢?cè)捹M(fèi)等。
2.對(duì)話系統(tǒng)是如何運(yùn)作的
可以把對(duì)話系統(tǒng)看作人機(jī)翻譯機(jī)骤视,接收人類的自然語言并把它翻譯成計(jì)算機(jī)能懂的結(jié)構(gòu)化語言鞍爱,以便進(jìn)行信息匹配與加工,最終再以自然語言的形式反饋給說話者尚胞,完成一次“溝通”硬霍。“溝通”的本質(zhì)是通過對(duì)最優(yōu)解的一步步預(yù)測笼裳,以生成一個(gè)匹配概率盡可能高的反饋唯卖,需要計(jì)算能力、算法與數(shù)據(jù)的背后支持躬柬。
具體情況如下圖所示:
當(dāng)用戶對(duì)系統(tǒng)講話(utterance)拜轨,系統(tǒng)會(huì)首先通過語音識(shí)別(ASR)①接收并解析語音,識(shí)別器可以提供多個(gè)可能的結(jié)果允青,即N-best list橄碾,從中為接收到的語音匹配最相似的詞串文本(recognition hypothesis),然后反饋給下一個(gè)自然語言理解(NLU)②模塊颠锉。
理解自然語言法牲,即系統(tǒng)通過對(duì)詞法、句法琼掠、語義的分析拒垃,識(shí)別(identify)用戶的意圖(intent)或者用戶言語所涉及的領(lǐng)域(domain)、實(shí)體(entities)瓷蛙,生成一個(gè)結(jié)構(gòu)化的語義表示*悼瓮,包括語言類型(陳述需求,詢問屬性艰猬,否定横堡,選擇疑問,等等)和條件信息(有什么條件冠桃、值是多少)命贴。比如,“幫我查深圳的天氣”這句話對(duì)應(yīng)的語義表示為“inform(occasion=天氣,location=深圳)”胸蛛,其中“inform”代表“陳述需求”培己,括號(hào)里面的內(nèi)容我們稱之為slot-value pair。關(guān)于計(jì)算機(jī)是如何理解自然語言的胚泌,可以點(diǎn)擊這里詳細(xì)了解。
語義表示生成之后被轉(zhuǎn)交給對(duì)話管理器(DM)③肃弟,由對(duì)話管理器來決定答復(fù)給用戶什么以及怎樣答復(fù)玷室。
對(duì)話管理器是對(duì)話系統(tǒng)中很關(guān)鍵的一個(gè)模塊,連結(jié)著一個(gè)或多個(gè)知識(shí)庫(Knowledge Base, KB)④笤受。通常包括:a.對(duì)話狀態(tài)跟蹤(dialogue state tracking)穷缤,比如追蹤執(zhí)行用戶意圖所需的信息是否完整;b.對(duì)話策略(dialogue policy)箩兽,即根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動(dòng)作津肛,比如,是直接調(diào)用知識(shí)庫(knowledge base)內(nèi)容提供結(jié)果汗贫、詢問特定限制條件身坐、澄清或確認(rèn)需求、還是開啟相關(guān)的某個(gè)軟件呢落包。
不同的對(duì)話系統(tǒng)部蛇,goal-driven system(比如任務(wù)型、問答型)和open-domain system(比如閑聊型)咐蝇,對(duì)話管理器的任務(wù)涯鲁、知識(shí)庫內(nèi)容也不同。
任務(wù)型對(duì)話的場景相對(duì)復(fù)雜有序,通常會(huì)與用戶進(jìn)行多倫對(duì)話抹腿,需要參數(shù)化請(qǐng)求并通過slots filling的形式持續(xù)跟蹤對(duì)話,直到識(shí)別出用戶意圖旭寿、特征詞警绩、slot-value pairs,即系系統(tǒng)要執(zhí)行的動(dòng)作的類型和操作參數(shù)许师。
問答型則不需要考慮復(fù)雜的對(duì)話邏輯房蝉,通常一輪對(duì)話就可以解決,重點(diǎn)在于語義解析與實(shí)體匹配微渠。
閑聊型包括檢索模式和生成模式搭幻,檢索式是利用網(wǎng)絡(luò)中已有的大量對(duì)話語料來構(gòu)建索引,從索引中查找可能的候選回復(fù)逞盆,而生成式則直接從大量的人人的對(duì)話中學(xué)習(xí)對(duì)話模型檀蹋,然后利用對(duì)話模型“創(chuàng)作”回復(fù)。
對(duì)話管理器會(huì)根據(jù)當(dāng)前的對(duì)話狀態(tài)生成一個(gè)預(yù)期回復(fù)(intended response),然后進(jìn)入自然語言生成(NLG)⑤-文本轉(zhuǎn)語音(TTS)⑥環(huán)節(jié)俯逾,把結(jié)構(gòu)化的預(yù)期回復(fù)改造成自然語言贸桶,最終呈現(xiàn)給用戶。
VUI體驗(yàn)包含三個(gè)層面:聲音形象桌肴、交互方式皇筛、對(duì)話內(nèi)容。
1.聲音形象
常見的說法是“系統(tǒng)形象(system persona)”坠七,相當(dāng)于產(chǎn)品的前端水醋,即系統(tǒng)通過的①語音特征,語氣彪置、語調(diào)拄踪、音色、節(jié)奏等拳魁。你可以選擇使用合成(synthesized)聲音惶桐,也可以選擇錄制的(recorded)聲音;
②話術(shù)潘懊,編寫問候語姚糊、特殊應(yīng)答、提示語等時(shí)的用詞授舟、長短句這些叛拷,來展現(xiàn)與品牌相符的性格特質(zhì),比如親切or正式岂却,主動(dòng)or順從忿薇。
一個(gè)好的system persona能夠很自然地成為你編寫對(duì)話時(shí)的參考條件:“在這種情況下,這個(gè)persona會(huì)說什么或做什么躏哩?”
2.交互方式
VUI的交互方式與對(duì)話內(nèi)容很難徹底分開討論署浩,但做這種嘗試,有助于跳出用戶視角扫尺,走進(jìn)“黑盒子”中筋栋。
我傾向于將“交互方式”看作《Voice User Interface Design》中所言的“High-level design”,而將“對(duì)話內(nèi)容”看作“Detailed design”正驻。
“High-level design”關(guān)心的是怎樣推動(dòng)對(duì)話流暢地進(jìn)行弊攘,讓用戶知曉系統(tǒng)的狀態(tài)、任務(wù)進(jìn)度等以便操作姑曙,比如系統(tǒng)在聆聽襟交、在期待收到指令、已離線等伤靠,可以理解為GUI中的彈窗捣域、動(dòng)效、視覺反饋等。
同時(shí)也為系統(tǒng)設(shè)計(jì)更好的規(guī)則焕梅,以便它做出更好的決策迹鹅,比如在什么情況下需要向用戶確認(rèn)請(qǐng)求,可以理解為GUI設(shè)計(jì)中看不見的菱形判斷框贞言。
這些問題主要涉及到以下:
①對(duì)話模式設(shè)計(jì)
A.命令-控制式(command and control)斜棚,即用戶想要說話時(shí)必須先喚醒系統(tǒng),方式可以是使用喚醒詞该窗、手勢觸摸或者按鍵打肝。一輪對(duì)話完畢,用戶須再次喚醒系統(tǒng)以開啟下一輪對(duì)話挪捕。
B.對(duì)話式,即在一段封閉的對(duì)話期間争便,比如完成某項(xiàng)特定的任務(wù)時(shí)级零,用戶不必每一回合都喚醒系統(tǒng),而是自然地進(jìn)行話輪轉(zhuǎn)換滞乙,在輪到用戶說話時(shí)系統(tǒng)自動(dòng)開啟麥克風(fēng)奏纪。
C.混合式,即命控式與對(duì)話式的結(jié)合斩启,系統(tǒng)向用戶提供明顯的狀態(tài)切換標(biāo)識(shí)序调,比如使用聲音標(biāo)志(earcon)以表示某個(gè)狀態(tài)的開始與結(jié)束。
②對(duì)話策略(dialog strategy)設(shè)計(jì)
包括:
A.對(duì)話框架設(shè)計(jì)兔簇,即對(duì)話組織策略
《Designing Voice User Interface》一書把對(duì)話框架分為:a.定向?qū)υ?directed dialog)发绢,即系統(tǒng)主導(dǎo)對(duì)話,向用戶詢問非常具體的問題垄琐,以期望獲得同樣具體的答案边酒;b.菜單層級(jí)結(jié)構(gòu)(menu hierarchy),即系統(tǒng)向用戶提供一系列選擇狸窘,一旦用戶完成了菜單a的選擇墩朦,系統(tǒng)會(huì)繼續(xù)提供菜單b,直到完成用戶的請(qǐng)求翻擒;c.混合推動(dòng)(mixed-initiative)氓涣,即定向?qū)υ捙c菜單層級(jí)相混合,系統(tǒng)詢問用戶問題陋气,也允許用戶通過提供額外的信息來引導(dǎo)對(duì)話劳吠。
B.對(duì)話修補(bǔ)策略
技術(shù)并不完美,識(shí)別器可能還沒有準(zhǔn)備好接受呼叫者的話語巩趁,或者沒有接收到說話者的語音赴背,也可能響應(yīng)時(shí)間太長 。用戶也常常會(huì)突然扭轉(zhuǎn)話題,或者提供太多信息凰荚。因此在正向推動(dòng)對(duì)話之外燃观,系統(tǒng)也必須配備處理這些情況的策略,以減少前功盡棄的概率便瑟。
a.錯(cuò)誤恢復(fù)
可能出現(xiàn)的錯(cuò)誤有以下四種:
·未檢測到語音
·檢測到語音缆毁,但沒有識(shí)別
·正確識(shí)別語音,但無法處理
·部分語音識(shí)別錯(cuò)誤
·延遲
一般有兩種方法來處理這些情況到涂,明確地說出來脊框,最好能增加更多的細(xì)節(jié)讓用戶明白現(xiàn)在的狀況,比如“抱歉践啄,我沒聽懂浇雹,請(qǐng)說出您所在的城市和區(qū)域名稱”,或者什么也不做屿讽。如何選擇要取決于VUI系統(tǒng)的交互模式與用戶場景昭灵。
b.萬能指令
比如“幫助”、“停止”伐谈、“請(qǐng)重復(fù)一遍”烂完、“退出”等等。設(shè)計(jì)時(shí)不僅要考慮用戶可能的需要诵棵,也要考慮用戶會(huì)怎樣表達(dá)這些需要抠蚣。
③條件閾值(threshold)設(shè)計(jì)
每個(gè)應(yīng)用程序都會(huì)定義系統(tǒng)能承受的最大錯(cuò)誤,對(duì)話系統(tǒng)也不例外履澳,尤其是上文對(duì)交互流程的描述也向我們清晰地展示了嘶窄,從用戶、到技術(shù)模塊距贷、再到數(shù)據(jù)資源护侮,VUI的運(yùn)行充滿了不確定性。
《Designing Voice User Interface》 一書建議我們考慮設(shè)置三種閾值:單個(gè)對(duì)話狀態(tài)中的最大連續(xù)錯(cuò)誤數(shù)(特定于狀態(tài)的錯(cuò)誤計(jì)數(shù))储耐,全局計(jì)算的最大錯(cuò)誤數(shù)羊初,以及最大錯(cuò)誤確認(rèn)數(shù)。
3.對(duì)話內(nèi)容
「保證用戶無論說什么都能得到一個(gè)最優(yōu)響應(yīng)」是VUI的終極目標(biāo)什湘。
牢記這一點(diǎn)便很容易理解Detailed design需要做什么长赞,即深入到單條對(duì)話中,詳細(xì)設(shè)計(jì)對(duì)話流程闽撤、輔助提示得哆、以及異常情況處理方案。包括:
①對(duì)話設(shè)計(jì)
設(shè)計(jì)對(duì)話流程很像寫劇本哟旗,即什么樣的角色在什么情況下應(yīng)該說什么話贩据,不同之處在于對(duì)話系統(tǒng)的情節(jié)和部分角色是寫定的栋操。
各大平臺(tái)上,Google饱亮、Amazon矾芙、Microsoft,都有對(duì)話設(shè)計(jì)的相關(guān)指導(dǎo)近上,可以通過這篇匯總文章來進(jìn)一步了解剔宪。
②提示列表(prompt lists)
回想一下,人與人之間的溝通也要建立在共同知識(shí)的基礎(chǔ)上壹无,與機(jī)器對(duì)話也是一樣葱绒。讓用戶了解系統(tǒng)能做什么、不能做什么斗锭、怎么做是對(duì)的等等地淀,才能夠?qū)崿F(xiàn)高效率的對(duì)話。
這一點(diǎn)可以通過設(shè)計(jì)提示列表(prompt lists)來輔助實(shí)現(xiàn)岖是,提示類型包括:
A.初始提示帮毁,
B.錯(cuò)誤提示,
C.幫助提示,
D.特殊應(yīng)答等等
提示的形式有多種璧微,語音、文本硬梁、圖像前硫,甚至聲音,都可以荧止。
比如圖中Google assistant采用帶有文字的按鈕來告訴我它能識(shí)別屏幕上的內(nèi)容,而我只需點(diǎn)擊或者說出指令即可素邪;右邊的兩張圖里外莲,Google通過[視覺元素變換+“進(jìn)入對(duì)話”“離開對(duì)話”的文字提示+音效(earcon)]來隱喻游戲的開始與結(jié)束。
Google在designguideline for Google assistant里總結(jié)了他們運(yùn)用在提示語(prompt)中的不同元素(types of conversational components)兔朦,是一份非常好的參考偷线。
我如何設(shè)計(jì)一個(gè)完美的語音交互界面?
設(shè)計(jì)過程其實(shí)與一般產(chǎn)品并無大異沽甥,需要考慮:
1). 用戶研究結(jié)果声邦。包括用例、使用場景 摆舟、用戶語言模式與心理模式等亥曹〉肆耍可以參考博主@Lu的設(shè)計(jì)手記《語音理財(cái)案例分析》。
2). 業(yè)務(wù)場景與目標(biāo)媳瞪。主要是據(jù)此確定功能列表骗炉、功能優(yōu)先級(jí)、交互方式等材失。推薦百度AI社區(qū)的《酒店語音助手實(shí)例教程》痕鳍。
特殊的是,人工智能產(chǎn)品的形態(tài)多種多樣龙巨,設(shè)計(jì)師必須對(duì)于產(chǎn)品所依附的硬件設(shè)備笼呆、產(chǎn)品背后的數(shù)據(jù)與技術(shù)支持有所了解,以確定產(chǎn)品邊界旨别、發(fā)現(xiàn)設(shè)計(jì)機(jī)會(huì)诗赌、持續(xù)優(yōu)化用戶體驗(yàn)。因此也需要考慮:
3). 技術(shù)與硬件基礎(chǔ)秸弛。
比如設(shè)備聯(lián)網(wǎng)程度铭若,ASR引擎是否允許你設(shè)置N-best列表、自定義語音終止超時(shí)的時(shí)長递览,系統(tǒng)的負(fù)載量等叼屠。
4). 數(shù)據(jù)資源。
比如當(dāng)前資源是否能滿足該功能绞铃,哪些數(shù)據(jù)會(huì)影響系統(tǒng)響應(yīng)時(shí)間等镜雨。
如何評(píng)估語音交互界面?
人們往往通過語音識(shí)別準(zhǔn)確度來評(píng)估應(yīng)用程序的運(yùn)行效果儿捧,這也許是最糟糕的度量方式荚坞。一個(gè)應(yīng)用程序能達(dá)到90%的識(shí)別準(zhǔn)確度,同時(shí)自動(dòng)實(shí)現(xiàn)85%的業(yè)務(wù)呼叫菲盾;另一個(gè)應(yīng)用程序達(dá)到97%的識(shí)別準(zhǔn)確度颓影,且自動(dòng)實(shí)現(xiàn)40%的業(yè)務(wù)呼叫,前者就一定比后者更差或更好嗎懒鉴?
——《如何構(gòu)建語音識(shí)別應(yīng)用》( Bruce Balentine, David Morgen)
評(píng)估涉及到三個(gè)問題:
1.如何定義成功
需要與開發(fā)人員诡挂、客戶共同完成,以方便確定哪些狀態(tài)是可以衡量的临谱,哪些不可以咆畏。盡可能將成功狀態(tài)具體化、數(shù)字化吴裤。
以下使一些成功標(biāo)準(zhǔn)的示例:
·60%想要預(yù)定酒店的用戶最終完成了預(yù)定旧找。
·85%的用戶在1個(gè)月內(nèi)至少完成了20天的每日健康記錄。
·播放歌曲的錯(cuò)誤率低于15%麦牺。
——《語音用戶界面設(shè)計(jì)》Cathy Pearl
2.可以通過什么來衡量
A.任務(wù)完成率
B.用戶(在何處)(因?yàn)槭裁?流失率
C.使用時(shí)長
D.語音打斷情況
E.高頻異常情況
……
*如果不思考原因钮蛛,以上所有衡量結(jié)果都不可用
3.如何獲得衡量數(shù)據(jù)
A.在早期建立記錄日志
B.轉(zhuǎn)錄用戶呼叫記錄
……
參考資料:
《語音用戶界面設(shè)計(jì)》Cathy Pearl
《Voice User Interface Design》Michael H. Cohen, James P. Giangola, Jennifer Balogh