原文作者:Justin Baker
原文地址:https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1
筆者結(jié)合實際工作中的理解,對文章簡要編譯如下,供參考。
【補充國內(nèi)的語音交互理解、國內(nèi)百度豫缨、阿里、小米等平臺的相關(guān)信息,配合自有資料的部分設(shè)計)
“把鬧鐘設(shè)置為早上7:15
——“好的靠益,正在呼叫?Selma Martin...”
"不是!把鬧鐘設(shè)置為早上7:15.
——“很抱歉残揉。我無法幫助你
sigh(嘆氣)胧后,然后手動設(shè)置鬧鐘
如果你使用過智能語音產(chǎn)品,應(yīng)該也會有類似的場景抱环。
我們的聲音是多種多樣的壳快、復(fù)雜多變的纸巷,語音指令更難以處理 ——真人之間的對話都如此,更何況計算機了眶痰。我們的思維方式瘤旨、文化背景、俚語簡稱和推理形式等等因素竖伯,只要有細微差別都會影響到聽著的語意理解存哲。
那么,設(shè)計師和工程師要如何應(yīng)對這一挑戰(zhàn)呢七婴?我們應(yīng)如何培養(yǎng)用戶與AI之間的信任祟偷?這正是VUI的關(guān)鍵所在。
VUI是指打厘,使用語音來實現(xiàn)人與設(shè)備實現(xiàn)交互的界面(語音可以是唯一的交互方式修肠,也可以是對視覺和觸覺的補充)。VUI可以是任何東西——聽音樂時的氛圍燈光到汽車的娛樂控制中心户盯。VUI完全可以沒有界面氛赐,只依靠聽覺、觸覺或運動等方式來實現(xiàn)交互先舷。
VUI是指艰管,使用語音來實現(xiàn)人與設(shè)備實現(xiàn)交互的界面(語音可以是唯一的交互方式,也可以是對視覺和觸覺的補充)蒋川。
VUI的形式很多牲芋、載體豐富,但都具有相同的UX基礎(chǔ)知識捺球。設(shè)計師們借助對這些基礎(chǔ)知識的理解缸浦,從用戶視角分析日常語音交互的方式,就可以構(gòu)建更好的語音交互體驗氮兵。
語音交互——約束裂逐、依賴、用例
當前技術(shù)泣栈、環(huán)境和社會約束對我們?nèi)绾闻c世界相處有極大的影響——它們會影響我們處理信息的速度卜高、將數(shù)據(jù)轉(zhuǎn)化為行動的準確性、彼此交流信息的方式方法南片。
在開始語音交互設(shè)計之前掺涛,我們必須對語音交互的環(huán)境背景有所了解。
確定設(shè)備類型
設(shè)備類型直接影響語音交互的模式疼进,限制了語音輸入的范圍(深度和廣度)薪缆。
手機
手機品牌:iPhones、Pixels伞广、Galaxies拣帽、華為疼电、小米……
連接方式:蜂窩數(shù)據(jù)網(wǎng)絡(luò)、Wi-Fi减拭、藍牙配對……
使用環(huán)境:環(huán)境背景對語音交互的重大影響
用戶習(xí)慣:用戶習(xí)慣使用語音交互
支持視覺澜沟、聽覺和觸覺反饋的多通道互動模式
各個模式中的交互形式相當標準化
穿戴式設(shè)備
特定的用例:如手表、健身手環(huán)或智能鞋
連接方式:蜂窩數(shù)據(jù)網(wǎng)絡(luò)峡谊、Wi-Fi茫虽、藍牙配對……
用戶習(xí)慣:用戶可能習(xí)慣使用語音交互,但這種交互在設(shè)備上是非標準的
穿戴式設(shè)備支持視覺既们、聽覺和觸覺方式進行反饋——盡管某些設(shè)備是被動式的濒析、可交互性較弱。
用戶的交互和數(shù)據(jù)消費啥纸,通常依賴于所連接的設(shè)備号杏。
固定式連接設(shè)備
設(shè)備示例:臺式電腦、帶屏幕的電器斯棒、恒溫器盾致、智能家居控制中心、音響系統(tǒng)和電視等等
連接方式:有線網(wǎng)絡(luò)荣暮、Wi-Fi庭惜、藍牙配對……
用戶習(xí)慣于在同樣的位置,保持設(shè)備設(shè)置不變來進行互動
在不同設(shè)備之間使用相似的標準化語音交互方式(如臺式計算機與智能家居穗酥,如Google Home 护赊;Amazon Alexa與智能恒溫器,其交互方式就沒明顯區(qū)別)
非固定計算設(shè)備(除手機外)
設(shè)備示例:筆記本電腦砾跃、平板電腦骏啰、轉(zhuǎn)發(fā)器,汽車信息娛樂系統(tǒng)
連接方式: 無線網(wǎng)絡(luò)抽高,有線網(wǎng)絡(luò)(不常見)判耕,Wi-Fi,藍牙配對……
主要的輸入方式不是語音
環(huán)境背景對語音交互行有重大影響
不同設(shè)備間的交互方式通常是非標準化的
創(chuàng)建用例矩陣
語音交互的主要翘骂、次要和第三用例是什么壁熄?該設(shè)備是否有主要用例(如健身追蹤器)?或者它有多個用例組合(如智能手機)雏胃?
創(chuàng)建用例矩陣非常重要请毛,它將幫助你確定用戶與設(shè)備發(fā)生交互的原因。他們的主要交互模式是什么瞭亮?什么是次要的?什么樣的交互模式是好的固棚,什么是必不可少的统翩?
您可以為每種交互模式創(chuàng)建用例矩陣仙蚜。應(yīng)用于語音交互時,矩陣將幫助您了解用戶當前使用或想要使用的語音交互方式——包括他們使用語音助手的位置:
對交互模式排序
如果想要使用用戶研究來豐富你對用例的理解(使用情況或原始量子/質(zhì)量研究)厂汗,那么借助你的研究來對各語音交互模式進行排序就非常重要了委粉。
如果有人告訴你:“如果我可以和電視對話,并讓它切換頻道娶桦,那簡直太酷了贾节!” 那么你真的需要深入挖掘:他們真的會用嗎?他們已經(jīng)知道設(shè)備的限制嗎衷畦?他們真的了解自己傾向于使用的功能嗎栗涂?
作為設(shè)計師,你必須比你的用戶更懂他們祈争。
你必須質(zhì)疑用戶使用特定交互模式的可能性斤程,因為他們有其他的替代方案。
舉個例子菩混,假設(shè)我們正在評估用戶是否會使用語音命令與電視進行交互忿墅。這種情況下,最安全的假設(shè)是用戶有很多選擇——而語音交互只是其中一種沮峡。
用戶可以有很多的備選方案:遠程控制疚脐、配對的智能手機,游戲控制器或已連接的物聯(lián)網(wǎng)設(shè)備邢疙。所以說亮曹,語音交互未必會是默認的交互方式,而只是眾多方式的一種秘症。
此時我們的問題就變成了:用戶將語音交互作為最主要交互方式的可能性有多大照卦?如果不是主要交互方式,它會是次要方式嗎乡摹?抑或者是第三次藥方式役耕?這會讓你的假設(shè)得到更深入的驗證。
列舉技術(shù)限制
將我們的語言轉(zhuǎn)化為行動是一項極其困難的技術(shù)挑戰(zhàn)聪廉。通過無數(shù)的時間瞬痘、連接和訓(xùn)練,調(diào)整良好的計算引擎模型能夠很好地識別我們地語音并觸發(fā)相應(yīng)的操作板熊。
不幸的是框全,我們還無法實現(xiàn)完全無縫的連接、時間也是有限的干签。我們希望語音交互與傳統(tǒng)視覺或觸覺這樣的替代方案一樣直接——即使語音引擎的處理和預(yù)測模型需要更為復(fù)雜津辩。
下圖展示了語音識別的流程:
如圖可見,許多模型都需要不斷訓(xùn)練才能完成對我們的詞匯、口音喘沿、聲調(diào)等等要素的識別闸度。
每個語音識別平臺都有其獨特的技術(shù)特征和限制。我們在設(shè)計語音交互產(chǎn)品時蚜印,必須接受這些約束莺禁。
主要的約束有以下幾類:
連接級別:設(shè)備是否能始終聯(lián)網(wǎng)
加工速度:用戶的語音是否被實時處理?
加工進度:在精準度和速度上窄赋,如何平衡才好哟冬?
語音模型:我們目前模型訓(xùn)練得有多好?我們能夠處理整段的長句忆绰、還是智能識別簡短的單詞浩峡?
后備選擇:如果語音無法識別,有什么后備方案较木?用戶是否可以使用其他交互方式红符?
錯誤代價:用戶指令被錯誤處理時會導(dǎo)致不可逆轉(zhuǎn)的后果嗎?我們的語音識別引擎是否足夠成熟伐债,能夠有效避免嚴重錯誤的發(fā)生预侯?
環(huán)境測試:語音引擎是否在多種不同的環(huán)境中測試過?例如峰锁,做汽車信息娛樂系統(tǒng)所處的環(huán)境萎馅,就比家里的智能恒溫器有更多的干擾因素。
非線性
我們還應(yīng)考慮用戶能夠以非線性的方式與設(shè)備交互虹蒋。例如糜芳,如果我要在網(wǎng)站上預(yù)定機票,就必須遵循網(wǎng)站設(shè)定好的預(yù)定流程魄衅,選擇或者輸入網(wǎng)站要求的信息:選擇目的地峭竣、選擇日期、選擇門票數(shù)量晃虫、查看選項……
而VUI面臨著更大的挑戰(zhàn)皆撩。用戶可以說“我想訂飛往舊金山的商務(wù)艙”,然后VUI就必須從用戶的這句話中提取相關(guān)信息哲银,以便利用現(xiàn)有的API完成航班預(yù)定扛吞。整個邏輯的順序是被打亂的,VUI有責(zé)任從用戶這里提取到更多的相關(guān)信息——方式可能是語音的荆责、視覺的滥比、或者自動獲取設(shè)備位置信息、個人賬戶等等做院。
語音輸入體驗設(shè)計
現(xiàn)在我們已經(jīng)了解了VUI設(shè)計所面臨的約束、依賴和用例〔槠梗現(xiàn)在讓我們開始深入探討實際的VUI設(shè)計吧弥喉。
我們首先要探討的是郁竟,設(shè)備是如何知道玛迄,應(yīng)該在什么時候去傾聽用戶?
下圖展示了語音交互體驗的基本流程:
在界面上的展現(xiàn)示例如下:
觸發(fā)器
有四種語音輸入的觸發(fā)器:
語音觸發(fā)器:?用戶將發(fā)出特定的短語棚亩,提示設(shè)備開始處理語音(“Ok Google”)
觸覺觸發(fā)器:按下按鈕(物理或數(shù)字)或切換控件(例如麥克風(fēng)圖標)
動作觸發(fā)器:在傳感器前揮舞手臂等
設(shè)備自觸發(fā):通過預(yù)先設(shè)定的條件(指定時間蓖议、地點,任務(wù)提醒或其他觸發(fā)條件)來觸發(fā)設(shè)備的響應(yīng)
設(shè)計師必須了解讥蟆,哪些觸發(fā)器與你的用例相關(guān)勒虾;并對各類觸發(fā)器與你用例的相關(guān)性進行排序。
引導(dǎo)線索
通常瘸彤,在觸發(fā)設(shè)備偵聽之時修然,會有聽覺、視覺或觸覺提示质况。這些提示應(yīng)遵循以下可用性原則:
即時反饋:觸發(fā)后愕宋,應(yīng)該盡快呈現(xiàn)引導(dǎo)線索,即使這可能會中斷當前的操作(只要這種中斷不具有破壞性)结榄。
精確簡短:引導(dǎo)提示應(yīng)該是瞬間完成的中贝,特別是常見的設(shè)備。例如臼朗,兩個肯定的嗶嗶聲比“OK Justin邻寿,需要我給你做什么?”要好视哑。引導(dǎo)提示越長绣否,用戶的話就越可能與設(shè)備提示相沖突。這個原則也適用于視覺線索挡毅,屏幕應(yīng)立即轉(zhuǎn)變?yōu)轳雎牋顟B(tài)蒜撮。
清晰的開始:用戶應(yīng)確切地知道他們的聲音是什么時候開始被錄制的。
一致性:引導(dǎo)線索應(yīng)始終相同慷嗜。聲音或視覺反饋的不一致淀弹,會讓用戶感到困惑。
可識別:引導(dǎo)線索應(yīng)該與設(shè)備正常的聲音和視覺效果有所不同庆械,絕不應(yīng)該在任何其他環(huán)境中使用或重復(fù)出現(xiàn)薇溃。
補充提示:如有可能,請利用多種方式來呈現(xiàn)提示(如同時出現(xiàn):兩聲嗶嗶聲缭乘,一次燈光閃爍沐序、一次屏幕對話)枫弟。
首用提示:對于第一次使用的用戶、或用戶似乎遇到卡住了剂陡,你可以提供首用提示/建議來引導(dǎo)對話繼續(xù)下去左医。
反饋體驗
反饋對于成功的VUI至關(guān)重要,它讓用戶明確知道自己的話被設(shè)備提取和處理特姐,還允許用戶采取糾正措施或繼續(xù)對話晶丘。
以下是提供良好VUI反饋體驗的可用性原則:
實時響應(yīng)式的視覺反饋:視覺反饋在手機這樣的原生的語音設(shè)備最為常見。視覺上都可以實時地改變顏色或模式來傳達出聲音的認知反饋——音高唐含、音色浅浮、音強和持續(xù)時間。
聲音反饋:以簡短的音頻播放來給予反饋
實時文本:跟隨用戶的說話捷枯,在屏幕上實時顯示出來
輸出文本:用戶說完后呈現(xiàn)文本滚秩,供用戶轉(zhuǎn)換和修改。這可以在執(zhí)行用戶指令之前提供一道糾正機會淮捆。
燈光等非屏幕視覺提示:前面提到的響應(yīng)式視覺效果不僅限于設(shè)備屏幕郁油,也可以有LED燈或燈光模式。
結(jié)束提示
結(jié)束提示告知用戶攀痊,設(shè)備此時已經(jīng)不再偵聽用戶的聲音了桐腌。很多主要提示的原則同樣適用(如即時性、簡短蚕苇、清晰哩掺、一致性和差異性),但依然有一些額外的設(shè)計原則:
充足的時間:確保用戶有足夠的時間下達指令
自適應(yīng)時間?:分配的響應(yīng)時間要與用例和用戶預(yù)期相適應(yīng)涩笤。例如嚼吞,當用戶被問到“是否式”的問題時,就應(yīng)在問題最后一個音節(jié)播放后蹬碧,提供合理的暫停舱禽。
合理的暫停:自上次錄音完成之后,經(jīng)過了合理的時間了嗎恩沽?這涉及到比較復(fù)雜的計算誊稚,但也受上下文的用例影響。
會話用戶體驗
像“打開我的鬧鐘”這樣的簡單命令不一定需要冗長的對話罗心,但更復(fù)雜的命令卻需要里伯。與傳統(tǒng)的人-人對話不同,人-智能設(shè)備之間需要額外的確認渤闷、冗余和糾正(嚴格來講疾瓮,這些在人-人對話中依然存在,只是幾率小飒箭、不會有明確的設(shè)定)狼电。
更復(fù)雜的命令蜒灰、或多輪對話通常需要多論的語音/選項驗證來確保對話的準確性。當用戶并不確定應(yīng)該如何發(fā)出指令時肩碟,問句會變得更為復(fù)雜强窖。解密用戶消息并引導(dǎo)用戶提供更多的上下文信息就成為VUI的重要任務(wù)。
肯定性:當AI理解了用戶的語音時削祈,就應(yīng)該給出肯定性的回復(fù)和確認音翅溺。例如,人工智能不是說“當然”而是“當然岩瘦,我會把燈關(guān)掉”或“你確定要關(guān)燈嗎未巫?”
糾正:當AI無法理解用戶意圖時窿撬,就應(yīng)使用糾正選項來回應(yīng)——這允許用戶作出選擇或者完全重新開始启昧。
移情:當AI無法滿足用戶請求時,它就應(yīng)坦誠自己無法滿足用戶劈伴、并提供備選項密末。移情對我們向用戶提供個性化的服務(wù)非常重要。
擬人化的用戶體驗
為語音交互賦予擬人化的特征跛璧,使我們建立起人-設(shè)備的關(guān)系严里。這種擬人化特征可以以燈光、彈跳的球形追城、抽樣圖案刹碾,機器聲音等等。
擬人化特征是指在非人類實體上模擬出的人類特征座柱、情感或意圖迷帜。
擬人化特征讓用戶和機器之間建立了更緊密的聯(lián)系,也可以在不同平臺的不同智能產(chǎn)品上建立類似的聯(lián)系(如Google Assistant色洞、亞馬遜的Alexa和Apple的Siri)戏锹。
個性:為交互帶來額外維度,虛擬個性幫助我們與用戶建立聯(lián)系和移情火诸。有助于減輕語音處理錯誤帶來的負面影響锦针。
積極性:通常使用積極性鼓勵反復(fù)互動,使用肯定的語調(diào)置蜀。
信心和信任:鼓勵額外的互動和復(fù)雜的對話奈搜,讓用戶有信心獲得積極和更有價值的結(jié)果。
跨平臺跨設(shè)備的體驗
語音交互應(yīng)該是流動和動態(tài)的盯荤。在我們的真實對話中馋吗,通常會伴隨著無數(shù)的面部表情、語氣語調(diào)廷雅、肢體語言和身體運動耗美。要將真實對話中的這么豐富的信心轉(zhuǎn)換到數(shù)字世界中京髓,是很大的挑戰(zhàn)。
如果可能商架,整個語音交互體驗應(yīng)該感覺像是一種有益的互動堰怨。當然,簡短互動(如“關(guān)燈”)并不一定需要有完整的關(guān)系蛇摸。然而备图,任何類型的更復(fù)雜的互動(如借助智能助手完成烹飪)卻需要很長時間的對話。
有效的語音交互體驗將受益于以下原則:
無縫切換:無縫實現(xiàn)不同狀態(tài)之間的轉(zhuǎn)換赶袄。用戶應(yīng)該感知到他們永遠不許等待揽涮,智能助手正在為他工作。
鮮艷:鮮艷的色彩傳達了喜悅和未來主義饿肺。它為互動增添了優(yōu)雅的未來主義元素 - 鼓勵反復(fù)的互動蒋困。
響應(yīng):響應(yīng)用戶輸入和手勢。提示出當前正在處理的指令敬辣、允許用戶查看他們的語音/意圖是否被準確地理解雪标。
結(jié)論和資源
VUI是非常復(fù)雜、多維度的溉跃,通常是多模態(tài)的交互村刨。事實上它還沒有一個全面的定義。最重要的是撰茎,日益數(shù)字化的世界意味著我們將在各類設(shè)備上花越來越多的時間嵌牺、比我們彼此之間的交流要多得多。VUI會是我們與世界互動的主要手段嗎龄糊?讓我們拭目以待逆粹。
與此同時,您是否想要打算構(gòu)建世界級的VUI绎签?以下是一些有用的資源:
How to Design Voice User Interfaces?| Interaction Design Foundation
What Is a Voice User Interface (VUI)? An Introduction?| Amazon Developers
Voice Actions?| Google Developers
SiriKit?| Apple Developers
Designing a VUI?by Frederik Goossens
A Guide to Voice User Interfaces?by Fjord