一個日益數(shù)字化的世界意味著,我們在設(shè)備上花費的時間可能比在彼此上花費的時間要多爆哑。而語音交互是否會成為我們與世界互動的主要方式呢?
“設(shè)置早上7:15的鬧鐘”
——“好的,呼叫Selma Martin 中”
“不是不是太防!是設(shè)置早上 7:15 的鬧鐘”
——“很抱歉。我不懂您在說什么酸员⊙殉担”
“哎~”(開始手動設(shè)置鬧鐘)
我們的聲音形形色色,并且復(fù)雜多變幔嗦。語音命令甚至更難處理——在人與人之間尤其如此酿愧,更不用說計算機了。我們構(gòu)思邀泉、進(jìn)行文化交流嬉挡,以及我們使用俚語和推斷意義的方式……所有這些細(xì)微差別都會影響我們語言的理解和表達(dá)。
那么汇恤,設(shè)計師和開發(fā)如何應(yīng)對這一挑戰(zhàn)呢庞钢?怎么才能建立人和AI(人工智能)之間的信任?
這時候語音用戶界面(VUI)就有了用武之地因谎。語音用戶界面(VUI)主要是輔助用戶的視覺基括、聽覺和觸覺,完成用戶與設(shè)備之間的語音交互蓝角。
簡而言之阱穗,語音用戶界面(VUI)可以是任何事物,從聽到您的聲音時閃爍的燈光到汽車娛樂控制臺使鹅。
請記住揪阶,語音用戶界面(VUI)無需可視化界面,它完全可以是聽覺的或觸覺控制的(例如:振動)患朱。語音用戶界面(VUI)主要是輔助用戶的視覺鲁僚、聽覺和觸覺,完成用戶與設(shè)備之間的語音交互裁厅。
雖然VUI種類繁多冰沙,但是可共享同一套設(shè)計規(guī)范,這套設(shè)計規(guī)范影響可用性执虹。我們可以一起探討這套規(guī)范拓挥,因此作為用戶,可以分析日常的VUI交互袋励;作為設(shè)計師侥啤,可以創(chuàng)造更好的體驗当叭。
一、發(fā)現(xiàn)——約束條件盖灸、依賴關(guān)系以及用例
我們與世界的的互動方式受到技術(shù)蚁鳖、環(huán)境以及社會限制的極大影響,例如:我們處理信息的速度赁炎。
將信息轉(zhuǎn)化為行動的準(zhǔn)確性醉箕,用來傳達(dá)信息的語言/方言,以及該行動的接收者(不管是我們自己還是其他人)都會影響我們處理信息的數(shù)據(jù)徙垫。
在我們深入研究交互設(shè)計之前讥裤,首先我們必須要定義語音交互環(huán)境背景的構(gòu)成。
1. 確定設(shè)備類型
設(shè)備類型影響語音交互的方式松邪、原始語音輸入和語音范圍坞琴。
移動設(shè)備:
蘋果、Pixels逗抑、Galaxies
連接——蜂窩網(wǎng)絡(luò)剧辐、Wi-Fi、設(shè)備配對
環(huán)境背景對語音交互有重大影響
用戶習(xí)慣于使用語音交互
允許通過視覺邮府、聽覺和觸覺反饋進(jìn)行交互
在各種模型中建立標(biāo)準(zhǔn)化的交互方法
可穿戴設(shè)備:
特定于用例荧关,通常面向特定用例,如手表褂傀、健身帶忍啤,或智能鞋
連接——蜂窩網(wǎng)絡(luò)、Wi-Fi仙辟、設(shè)備配對
用戶可能習(xí)慣于使用語音交互同波,但這種交互在設(shè)備之間是非標(biāo)準(zhǔn)化的
一些可穿戴設(shè)備允許用戶通過視覺、聽覺和觸覺反饋進(jìn)行交互——但有一部分沒有明確的交互叠国,比較被動
通常用戶交互和數(shù)據(jù)消費都依賴于連接的設(shè)備
固定連接設(shè)備:
臺式機未檩、帶屏幕的設(shè)備、恒溫器粟焊、智能家居冤狡、音響系統(tǒng)、電視
連接——蜂窩網(wǎng)絡(luò)项棠、Wi-Fi悲雳、設(shè)備配對
用戶習(xí)慣于在相同的位置使用這些設(shè)備并在習(xí)慣的基礎(chǔ)上進(jìn)行設(shè)置
類似設(shè)備類型之間的準(zhǔn)標(biāo)準(zhǔn)化語音交互方式(臺式機 VS 連接集線器,就像Google Home / Amazon Alexa VS 智能恒溫器)
非固定計算設(shè)備(非電話):
筆記本香追、平板電腦合瓢、轉(zhuǎn)發(fā)器、汽車信息娛樂系統(tǒng)
連接——無線透典、有線(不常見)晴楔、Wi-Fi迁央、設(shè)備配對
通常主要輸入方式不是語音
環(huán)境對語音交互有重大影響
通常在不同的設(shè)備之間有非標(biāo)準(zhǔn)化的語音交互方法
2. 創(chuàng)建用例矩陣
語音交互的三個主要用例是什么?該設(shè)備是否有一個主要用例(如健身追蹤器)滥崩?或者是否有組合用例(如智能手機)?
創(chuàng)建一個用例矩陣是非常重要的讹语,它將幫助你確定:
為何用戶與設(shè)備交互钙皮?
交互的主要方式是什么?
什么是次要的顽决?
什么是好的交互模式短条?
什么是必不可少的?
你可以為每種交互模式創(chuàng)建用例矩陣才菠。當(dāng)應(yīng)用于語音交互時茸时,矩陣將幫助你了解用戶當(dāng)前使用或想要使用語音與產(chǎn)品交互的方式,包括他們將使用的語音助手的位置赋访。
3. 按順序排列交互模式
如果實施用戶研究去驗證用例(抑或是可用性或定性/定量分析)可都,那么通過給交互模式排列次序等級就變得十分有必要了。
如果有人告訴你:“如果我能跟電視交流讓它換頻道蚓耽,這真的是太酷了渠牲!”
那么你真的需要深入了解:他們真的會用么?他們了解這些限制嗎步悠?他們真的知道自己使用這些功能的傾向嗎签杈?
作為設(shè)計師,必須了解用戶勝過他們自己鼎兽。你必須質(zhì)疑他們交互的方式答姥,因為有替代方案可選。例如:假設(shè)我們正在研究用戶是否會與電視互動谚咬。在這種情況下鹦付,可以大膽的假設(shè)語音交互只是諸多交互手段之一。
用戶有多種手段可選:遙控器序宦、配對的智能手機睁壁、游戲手柄或連接的物聯(lián)網(wǎng)設(shè)備。因此互捌,語音交互不一定是默認(rèn)的交互方式潘明,它只是眾多方式之一。
因此問題就變成了:語音交互變?yōu)橹髁鹘换ナ侄蔚目赡苄杂卸啻箫踉耄咳绻皇侵饕氖侄吻担菚谴我膯幔炕蛘叩谌缃恚窟@將向前推進(jìn)你的推斷和交互假設(shè)遂填。
4. 技術(shù)限制實例
把我們的語言轉(zhuǎn)化為行動是一項極其困難的技術(shù)挑戰(zhàn)铲觉。通過時間、連接和訓(xùn)練吓坚,調(diào)優(yōu)的計算引擎可以聽懂我們的話并作出適當(dāng)?shù)膭幼鳌?/p>
不幸的是撵幽,我們生活的世界無線連接并沒有想象中的廣泛(如:互聯(lián)網(wǎng)),也沒有無限的時間礁击。我們希望語音交互能與其他習(xí)慣的交互一樣直接:視覺上的和觸覺上的——即便語音引擎需要復(fù)雜的處理和預(yù)測建模盐杂。
以下是一些實例流程,展示了我們在演講過程中識別的過程:
正如我們所看到的哆窿,許多的模型都需要使用的詞語链烈、音調(diào)、音色來進(jìn)行不斷的訓(xùn)練挚躯。
每種語音識別引擎都有一些技術(shù)限制强衡,在構(gòu)建語音交互體驗時,必須考慮到這些限制码荔。
分析以下分類:
連接水平——設(shè)備是否始終連接網(wǎng)絡(luò)漩勤?
處理速度——用戶是否需要實時處理語音?
處理精度——如何權(quán)衡準(zhǔn)確度與處理速度目胡?
語音模型——當(dāng)前模型的效率怎么樣锯七?能準(zhǔn)確的處理整句還是簡短的單詞?
備選方案——如果無法進(jìn)行語音識別誉己,備選方案是什么眉尸?用戶有其他的交互模式選擇嗎?
結(jié)果誤差——處理過程中一個錯誤的命令會不會導(dǎo)致不可逆的結(jié)果巨双?語音識別引擎是否能夠避免這種不可逆的錯誤噪猾?
環(huán)境測試——語音引擎是否在復(fù)雜環(huán)境下進(jìn)行過測試?例如:如果我構(gòu)建汽車的信息娛樂系統(tǒng)筑累,相比智能恒溫器我會設(shè)想更多的干擾環(huán)境袱蜡。
5. 非線性
此外坪蚁,我們還應(yīng)該考慮用戶能夠以非線性的方式與設(shè)備交互。例如:如果我要預(yù)訂網(wǎng)站上的機票敏晤,然后不得不按照網(wǎng)站的步驟進(jìn)行——選擇目的地、選擇日期嘴脾、選擇座位、看選項等等译打。
但是,VUI 有更大的挑戰(zhàn)奏司,用戶可以說:“我們想乘坐商務(wù)艙飛往舊金山”。現(xiàn)在韵洋,VUI 必須從用戶那里提取所有相關(guān)信息,以便利用所有的航班預(yù)訂數(shù)據(jù)麻献。但最后排序的結(jié)果可能是有傾向(某一種排序方式)的猜扮,因此 VUI 有責(zé)任從用戶那里提取相關(guān)信息(或通過語音或視覺進(jìn)行補充)勉吻。
二、語音交互用戶體驗
以上旅赢,我們研究了約束條件齿桃、依賴關(guān)系、用戶案例煮盼,那么短纵,現(xiàn)在可以開始深入一些研究語音交互相關(guān)的用戶體驗了。
首先來研究設(shè)備如何知道何時該收接收我們的語音僵控。
對于上文香到,下圖說明了基本的語音交互流程:
表現(xiàn)為……
1. 觸發(fā)器
語音輸入觸發(fā)器有四種類型:
語音觸發(fā)——用戶說出一個短語,提示設(shè)備開始處理語音(如:“Ok Google”)报破;
觸覺觸發(fā)——按下按鈕(某個鍵或鍵盤輸入)或切換控制(例如:麥克風(fēng))悠就;
動作觸發(fā)——在傳感器前揮揮手;
設(shè)備自觸發(fā)——預(yù)定設(shè)置觸發(fā)設(shè)備(汽車提醒司機確認(rèn)某個任務(wù))充易。
作為設(shè)計師梗脾,你必須了解哪些觸發(fā)器與設(shè)計相關(guān),并且講這些觸發(fā)器從相關(guān)到不相關(guān)進(jìn)行排序盹靴。
2. 引導(dǎo)提示
通常炸茧,當(dāng)觸發(fā)設(shè)備時,會有一個聽覺稿静、視覺或觸覺提示梭冠。
這些提示應(yīng)該遵循以下可用性原則:
實時性——被觸發(fā)后,提示應(yīng)該實時展示自赔,即使這會中斷當(dāng)前的流程(只要這個中斷不是破壞性動作)妈嘹。
簡潔短暫——提示應(yīng)該幾乎是瞬間的,特別對于老用戶绍妨。例如:兩聲嗶嗶聲比“好吧润脸,賈斯汀柬脸,你想讓我做什么?”更有效毙驯。引導(dǎo)提示越長爆价,用戶的話越可能與設(shè)備提示沖突。這一原則也適用于界面提示骤宣,屏幕應(yīng)立即轉(zhuǎn)換為監(jiān)聽狀態(tài)序愚。
清晰——用戶應(yīng)該知道他們的聲音什么時候開始被監(jiān)聽。
一致——提示始終相同芬膝,聲音或視覺反饋的差異會讓用戶覺得困惑锰霜。
區(qū)別——提示應(yīng)該與設(shè)備的常規(guī)的聲音和視覺效果有所不同癣缅,并且不應(yīng)在其他環(huán)境中使用或重復(fù)所灸。
補充提示——如果可能的話炫七,利用多種交互方式來表示提示(例如:兩遍嗶嗶聲,一次燈光變化或一個界面提示)侠驯。
初始提示——對于初次使用的用戶奕巍,或者當(dāng)用戶不知所措時的止,你可以顯示提示或建議,方便繼續(xù)進(jìn)行語音交互拖叙。
3. 反饋用戶體驗
反饋用戶體驗對于成功的語音界面是至關(guān)重要的薯鳍,它允許用戶將他們認(rèn)為一致且立即確認(rèn)的語音挖滤,被設(shè)備攝入和處理斩松;反饋還允許用戶糾正或者肯定他的行為觉既。
以下是一些有助于提供 VUI 有效反饋的交互原則:
實時、響應(yīng)式視覺效果——這種視覺反饋在本機語音設(shè)備交互中最常見(例如:手機)尝艘,它可以在多個聲音維度上創(chuàng)建即時的認(rèn)知反饋:音調(diào)姿染、音色悬赏、強度和持續(xù)時間——這些都可以改變實時響應(yīng)的方案闽颇。
音頻播放——確認(rèn)語音的解釋。
實時文本——文本反饋將在用戶說話時逐漸顯示尖啡。
輸出文本——在用戶完成語音后衅斩,轉(zhuǎn)換和修改文本反饋畏梆,在將音頻確認(rèn)或轉(zhuǎn)換為行為動作之前,將這視為第一層的糾正處理宪巨。
非屏幕視覺提示(燈光揖铜,燈光模式)——上面提到的響應(yīng)式視覺效果天吓,不僅限于數(shù)字屏幕峦椰,這些響應(yīng)模式也可以以簡單的LED燈或燈光模式體現(xiàn)。
4. 結(jié)束提示
該提示意味著設(shè)備停止接收用戶語音物邑,并且開始處理命令色解。許多相同的“引導(dǎo)提示”原則科阎,也適用于最終提示(即時锣笨、簡短道批、清晰隆豹、一致和區(qū)分)。
不過簿煌,還有一些其他原則也需要注意:
充足的時間——確保用戶有足夠的時間完成命令姨伟;
適應(yīng)時間——被分配的時間應(yīng)該適應(yīng)用例的預(yù)期響應(yīng)夺荒,例如:如果用戶被問到“是”或“否”的問題,則結(jié)尾提示應(yīng)該在一個音節(jié)之后期望合理的暫停伍玖;
合理的暫停——上一刻接收的語音有合理的停頓時間嗎窍箍?計算這個時間非常復(fù)雜丽旅,但也取決于交互用例本身榄笙。
三茅撞、會話式交互
像“打開我的鬧鐘”這樣的簡單命令,不一定需要冗長的對話剑令,但更復(fù)雜的命令卻需要吁津。與傳統(tǒng)的人與人交互不同,人與 AI 的交互需要額外的確認(rèn)癣疟、冗余和糾正睛挚。
更復(fù)雜的命令或迭代對話通常需要更多次語音交互扎狱、選項驗證,以確保準(zhǔn)確匠抗。更為復(fù)雜的是汞贸,用戶常常不知道該問什么,也不知道該怎么問门驾。因此奶是,VUI 的工作就是理解消息竣灌,并允許用戶提供上下文帐偎。
肯定性——當(dāng) AI 確實理解語音時削樊,它回復(fù)肯定消息,同時這條消息也確認(rèn)了對語音的理解甸箱。例如:人工智能不是說“當(dāng)然”芍殖,而是說“當(dāng)然豌骏,我會把燈關(guān)掉”——或者“你確定要我關(guān)燈嗎窃躲?”
修正性——當(dāng) AI 無法解讀用戶意圖時钦睡,應(yīng)使用修正選項進(jìn)行響應(yīng)荞怒,允許用戶選擇另一個或重新對話。
善解人意——當(dāng) AI 無法滿足用戶的請求時衰抑,它應(yīng)該因缺乏理解而獲得所有權(quán)停士,然后為用戶提供糾正措施,同理心對于建立一種更和藹可親的關(guān)系非常重要拇舀。
四骄崩、擬人化交互
將類人特征賦予語音交互要拂,會在人與設(shè)備之間建立一種關(guān)系站楚。這種擬人化以各種方式展現(xiàn):燈光模式、反彈形狀窿春、抽象球形圖案旧乞、計算機生成的語音和聲音尺栖。
擬人化是指給事物(非人類實體)賦予人類特征除盏、情感或意圖挫以。
擬人化在用戶和機器之間建立了一種更緊密的聯(lián)系屡贺,這也可以跨越具有類似操作平臺的產(chǎn)品(例如:谷歌的助手甩栈、亞馬遜的 Alexa 和蘋果的 Siri)量没。
個性化——為交互帶來額外的維度突想,允許事物的虛擬人格與用戶建立聯(lián)系和共鳴,有助于減輕語音處理錯誤的負(fù)面影響袭灯;
積極性——積極鼓勵重復(fù)性的互動和肯定的語調(diào);
信心和信任——鼓勵更多的互動和復(fù)雜的對話橘茉,因為用戶更有信心結(jié)果是積極的畅卓,從而增加了價值翁潘。
五歼争、端到端的交互
語音交互應(yīng)該是流動的和動態(tài)的(彼此一言一語的對話)矾飞。當(dāng)我們面對面交談時洒沦,我們常會使用大量的面部表情、音調(diào)變化瞒津、肢體語言和動作巷蚪。語音交互的挑戰(zhàn)在于屁柏,在數(shù)字化環(huán)境中捕捉這種不固定的交互變化是很困難的淌喻。
如果可能雀摘,整個語音交互體驗感覺應(yīng)該像是一種有益的互動阵赠。當(dāng)然肌稻,更多短暫的互動爹谭,如:“關(guān)燈”并不一定需要一個完整的關(guān)系旦棉。但是药薯,任何一種更強大的互動,如與語音助理一起烹飪真屯,確需要長時間的對話。
有效的語音交互體驗將受益于以下原則:
短暫的——無縫處理不同狀態(tài)之間的轉(zhuǎn)換绑蔫,用戶應(yīng)該感覺到他們沒有等待時間泵额,且助理在為他們工作嫁盲。
生動的——鮮艷的色彩傳達(dá)喜悅和未來主義羞秤,它為互動增添了一種未來主義優(yōu)雅的元素,鼓勵重復(fù)性互動俐镐。
響應(yīng)式——回應(yīng)用戶輸入語音和手勢佩抹,給出關(guān)于正在處理信息的提示取董,并允許用戶查看語音、意圖是否被準(zhǔn)確的解析廊勃。
六经窖、結(jié)論和資源
VUI 非常復(fù)雜画侣,且有多個方面配乱,通常是復(fù)雜的混合(多種交互手段)交互。
事實上桑寨,它還沒有一個全面的定義尉尾。不過要記住重要的一點——一個日益數(shù)字化的世界意味著燥透,我們在設(shè)備上花費的時間班套,可能比在彼此上花費的時間要多吱韭。VUI 是否會成為我們與世界互動的主要方式嗎理盆?讓我們拭目以待。
與此同時速勇,你是否打算構(gòu)建一個世界級的 VUI烦磁?
作者:Justin Baker
原文鏈接:https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1