語音用戶界面(或VUI)是一種交互模型巾钉,在該模型中凹炸,人與機(jī)器進(jìn)行交互况既,并至少部分通過使用語音來執(zhí)行一組任務(wù)碍讯。
實(shí)際上西轩,這種方式的交互式語音應(yīng)答(IVR)系統(tǒng)在銀行業(yè)和旅游業(yè)中已經(jīng)得到了廣泛的應(yīng)用员舵。這些系統(tǒng)主要依賴于語音生物識(shí)別來識(shí)別用戶并使用語音作為主要交互模式完成的任務(wù)集。隨著亞馬遜Echo藕畔、蘋果的siri 等產(chǎn)品的誕生马僻,VUI發(fā)生爆炸,各大公司也開始嘗試多媒體交叉設(shè)備的體驗(yàn)注服。
“治學(xué)先治史”韭邓,了解語音技術(shù)的過去點(diǎn)滴,大概會(huì)有些幫助溶弟。
穿越時(shí)間走廊
早在1961年女淑,IBM設(shè)計(jì)了一個(gè)名為Shoebox的實(shí)驗(yàn)裝置,是由William C.Dersch開發(fā)的辜御,大概是早期的語音識(shí)別設(shè)備鸭你。機(jī)器把聲音轉(zhuǎn)換成電脈沖可以識(shí)別出16個(gè)單詞。在1962年西雅圖舉行的世界博覽會(huì)上首次展示,這可能是自動(dòng)語音識(shí)別(ASR)和自然語言理解(NLU)的起點(diǎn)袱巨,但只涉及第一部分的聲音識(shí)別阁谆。對(duì)于純語音用戶界面,機(jī)器生成人聲早在1939年或更早的時(shí)候就有了愉老。
霍默·達(dá)德利(在新澤西的貝爾電話實(shí)驗(yàn)室)的Voder是第一款能夠產(chǎn)生連續(xù)人聲的電子化設(shè)備场绿。1939年,阿爾登·P·阿瑪涅克在《大眾科學(xué)》雜志上寫下了關(guān)于這一裝置的文章嫉入。它是用真空管和電路制成的裳凸,是為了復(fù)制人類的聲音。為了進(jìn)行對(duì)話劝贸,機(jī)器操作員使用了一個(gè)像風(fēng)琴一樣的鍵盤姨谷。十三個(gè)黑白鍵產(chǎn)生了所有的元音和輔音,另一把鍵控制著合成聲音的揚(yáng)聲器響度映九。腳踏板改變了音調(diào)梦湘,使同一句話可以陳述句或疑問。大約一年的培訓(xùn)件甥,操作員就能使機(jī)器說話捌议,想起來也是一個(gè)有意思的東西。
2000年初引有,IVR系統(tǒng)成為主流瓣颅。任何有電話的人都可以預(yù)訂飛機(jī)航班,在賬戶間轉(zhuǎn)賬譬正,查找當(dāng)?shù)仉娪皶r(shí)間宫补,聽交通信息,所有這些都只使用普通電話和人聲曾我。
語音交互粉怕、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等技術(shù)或許已經(jīng)存在或研究了相當(dāng)長的時(shí)間。令人興奮的是抒巢,它們最終在市場(chǎng)上廣泛商用了贫贝,這就需要設(shè)計(jì)師和工程師來承擔(dān)開發(fā)場(chǎng)景以解決用戶日常問題的挑戰(zhàn)。
為什么是語音助理
語音助理已經(jīng)風(fēng)靡各地蛉谜,為什么呢稚晚?它的優(yōu)勢(shì)有:
- 自然
- 解放雙手
- 快速響應(yīng)
- 個(gè)性化
語音是人們交流的基本手段。其他形式的交流方式如寫作型诚、面部表情或手語客燕,在所有文化中也都同樣具有表達(dá)力,但人們主要還是通過語音來說服俺驶、告知和建立關(guān)系幸逆。語音助理能夠在不同的場(chǎng)景和渠道中保持一致。
理解對(duì)話
用戶通常會(huì)就手頭的特定任務(wù)進(jìn)行語音對(duì)話暮现。交互通常很短还绘,來回的交互也很少。用戶可以通過對(duì)話來完成一項(xiàng)任務(wù)栖袋,即使他們不忙拍顷,不能總是全神貫注。用戶在通過GUI執(zhí)行相同任務(wù)時(shí)會(huì)感覺到很多延遲或不爽塘幅,而對(duì)話將有助于減輕這種體驗(yàn)昔案。
在語音識(shí)別中,得到對(duì)話所有的上下文幾乎是不可能的电媳。上下文大約分成三類:
- 物理上下文
- 情感上下文
- 對(duì)話的上下文
從物理踏揣、情感和會(huì)話上下文中,可以創(chuàng)建一個(gè)關(guān)于會(huì)話內(nèi)容的推理或得出結(jié)論匾乓,得出一個(gè)擬人化的結(jié)果捞稿。
對(duì)話的意圖大約有兩種,一種是目標(biāo)反饋確定的拼缝,一種是不確定的娱局,對(duì)于不確定的意圖需要更多的用戶選擇。 也就是說咧七,大約可以分為基于意圖的對(duì)話和隨機(jī)問答衰齐。基于意圖的對(duì)話是為了完成一個(gè)目標(biāo)或完成一個(gè)任務(wù)而進(jìn)行的對(duì)話继阻。心里有一個(gè)意圖耻涛,需要助手的回答,這時(shí)只想完成一項(xiàng)任務(wù)瘟檩。隨機(jī)問答是指用戶與助手進(jìn)行交互時(shí)沒有特定的意圖犬第。他們只是想和助手聊天,談興趣芒帕,也許是想更多的彼此了解歉嗓,建立一種關(guān)系。
當(dāng)然背蟆,語音交互有著自己的局限鉴分。在IVR中,很難暫停系統(tǒng)带膀,相反志珍,用戶必須不斷地進(jìn)行交互,而視覺組件可以讓用戶以更輕松的方式繼續(xù)交互垛叨。另外伦糯,是在公共場(chǎng)所使用方面的限制。用戶可能不能在某些公共空間使用語音,因?yàn)檫@樣做會(huì)侵犯用戶的隱私敛纲。
語音交互的部分關(guān)注點(diǎn)
人的一種主要行為喂击,就把人的情緒聯(lián)系起來,試圖理解一個(gè)復(fù)雜的物體淤翔。不過翰绊,大多數(shù)消費(fèi)者的底線是,更愿意與一個(gè)溫暖的身體交談旁壮,而不是與一臺(tái)冰冷的電腦交談监嗜,因而需要關(guān)注語音應(yīng)答的多樣性。
逐步披露是人機(jī)交互中常用的一種交互設(shè)計(jì)技術(shù)抡谐,通過減少混亂裁奇、混亂和認(rèn)知工作量,幫助保持用戶注意力的焦點(diǎn)麦撵。這通過只提供手頭任務(wù)所需的最小數(shù)據(jù)來提高可用性框喳。一般使用猶豫標(biāo)記,或者增加短語詢問厦坛。
給語音助理賦予人性化五垮,可能需要一些因素:
經(jīng)驗(yàn)的開放性,這可能包括對(duì)藝術(shù)杜秸、情感放仗、冒險(xiǎn)、不尋常的想法撬碟、好奇心和各種體驗(yàn)的欣賞诞挨。
責(zé)任心,可以是高效/有組織的呢蛤,或者隨和/無關(guān)緊要的態(tài)度惶傻。
外向傾向于表現(xiàn)為外向、健談其障、精力充沛的行為银室,而內(nèi)向則表現(xiàn)為較為保守和孤獨(dú)的行為。
令人愉快的對(duì)話励翼,體現(xiàn)善良蜈敢、同情、合作汽抚、熱情和體貼的個(gè)人行為特征抓狭。
神經(jīng)質(zhì),可能是驚喜造烁,也可能是驚嚇否过。
模仿的行為可以與另一個(gè)人更相似午笛,感知到的相似性可以作為基礎(chǔ)。
基于語音的交互或語音檢測(cè)依賴于一個(gè)設(shè)備苗桂,該設(shè)備有一個(gè)性能良好的麥克風(fēng)來捕捉/記錄用戶的指令药磺,可以參考過去一篇文字。
多方式交互的HCI
VUI與GUI成為人機(jī)交互規(guī)范的時(shí)候非常相似誉察,設(shè)計(jì)人員需要清理混亂的邏輯,簡(jiǎn)化數(shù)據(jù)惹谐,并向用戶提供更容易掌握的流程和解決方案持偏。以電視遙控器為例,設(shè)備上有20-30個(gè)按鈕時(shí),操作起來就會(huì)非常困難氨肌,一個(gè)人很難理解所有按鈕的作用鸿秆。沒有好的設(shè)計(jì),技術(shù)就很難甚至不可能得到應(yīng)用怎囚。
用戶體驗(yàn)設(shè)計(jì)圍繞著整個(gè)用戶旅程展開卿叽,即回答用戶對(duì)特定用例可以做什么,然后理解用戶能夠以無障礙和愉快的方式滿足需求的最佳方式恳守。
從一開始就不能決定只使用一個(gè)模態(tài)考婴,但是設(shè)計(jì)者必須理解用戶根據(jù)系統(tǒng)的輸入和輸出模態(tài)完成特定任務(wù)的需求。
對(duì)于具有圖形用戶界面的數(shù)字助理催烘,當(dāng)有動(dòng)畫選項(xiàng)時(shí)沥阱,這變得更有趣。在這里伊群,助理會(huì)表現(xiàn)得像人一樣考杉;會(huì)傾聽你的問題,思考舰始,回答崇棠,開個(gè)玩笑,唱歌丸卷,表達(dá)悲傷和憤怒枕稀,還有很多其他的情緒。
多交互方式并存谜嫉,形成了人機(jī)交互的領(lǐng)域抽莱。人機(jī)交互(HCI)已經(jīng)存在了相當(dāng)長的一段時(shí)間了。在20世紀(jì)50年代初骄恶,用穿孔卡片存儲(chǔ)數(shù)據(jù)和輸入食铐,隨著個(gè)人電腦的引入而發(fā)生了顛覆性的變化。20世紀(jì)80年代后期僧鲁,幾乎使世界上的每個(gè)人都成為潛在的計(jì)算機(jī)用戶虐呻,也暴露了關(guān)于可用性的問題象泵。
HCI整合了認(rèn)知心理學(xué)、人工智能和思維哲學(xué)斟叼,以闡明系統(tǒng)化和科學(xué)化的應(yīng)用偶惠,稱為認(rèn)知工程。它使具有概念朗涩、技能和遠(yuǎn)見的人能夠滿足人機(jī)交互的實(shí)際需求忽孽。
交互設(shè)計(jì)的一些原則
HCI 的設(shè)計(jì)有很多的經(jīng)驗(yàn)和原則,對(duì)于VUI同樣有著參考意義谢床。例如兄一,Ben Shneiderman 關(guān)于界面設(shè)計(jì)的8條金規(guī):
- 爭(zhēng)取一致性
- 允許用戶使用快捷方式
- 提供信息反饋
- 設(shè)計(jì)對(duì)話以實(shí)現(xiàn)閉環(huán)
- 提供錯(cuò)誤預(yù)防和簡(jiǎn)單的錯(cuò)誤處理
- 允許輕松逆轉(zhuǎn)操作
- 支持內(nèi)部控制點(diǎn)
- 減少短期內(nèi)存負(fù)載
又例如,Donald Norman的七個(gè)設(shè)計(jì)原則:
在頭腦中運(yùn)用現(xiàn)實(shí)世界和知識(shí)
簡(jiǎn)化任務(wù)結(jié)構(gòu)
使事物可見识腿;縮小執(zhí)行和評(píng)估之間的差距
正確繪制地圖
利用自然和人工約束的力量
面向錯(cuò)誤的設(shè)計(jì)
當(dāng)所有其他方面都失敗時(shí)出革,標(biāo)準(zhǔn)化
還有現(xiàn)在廣泛使用的Nielsen啟發(fā)式UI/UX設(shè)計(jì)原則:
系統(tǒng)狀態(tài)的可視性
與系統(tǒng)和現(xiàn)實(shí)世界相匹配
用戶控制和自由
一致性和標(biāo)準(zhǔn)
靈活性和效率
錯(cuò)誤預(yù)防
錯(cuò)誤報(bào)告、診斷和恢復(fù)
美學(xué)和極簡(jiǎn)設(shè)計(jì)
識(shí)別而不是回憶
幫助和文檔
創(chuàng)建一個(gè)平滑無縫且自然的 VUI 對(duì)于使用的人工智能產(chǎn)品來說至關(guān)重要渡讼。對(duì)VUI而言骂束,也有著自己的設(shè)計(jì)技巧:
了解智能引擎的背后,成功與否取決于真正為體驗(yàn)提供動(dòng)力的內(nèi)部架構(gòu)成箫。
構(gòu)建自己的設(shè)計(jì)工具棧展箱,Adobexd非常適合用于線框用戶流程圖,語音工具包括Walkie, Botframe 和 Mockabot等蹬昌。
個(gè)性在設(shè)計(jì)中表現(xiàn)出來析藕,而不是交給設(shè)備。個(gè)性表現(xiàn)在設(shè)計(jì)決策和獨(dú)特的工作流程凳厢,堅(jiān)持利益相關(guān)者的有效執(zhí)行账胧。
少即是多。設(shè)備所說的實(shí)際語言必須清楚地滿足其用戶的需求先紫,剩下的才是措辭治泥,句子結(jié)構(gòu),音調(diào)遮精,甚至聲音本身的音調(diào)變化等居夹。
在配音的時(shí)候要專業(yè)一點(diǎn)。專業(yè)的錄制最好有TTS的客戶經(jīng)驗(yàn)本冲,為人工智能對(duì)話設(shè)計(jì)音頻與制作音樂甚至是傳統(tǒng)的配音有很大的不同准脂。
在 VUI 之外保持角色的一致性。如果圖形元素不能和諧地補(bǔ)充語音元素檬洞,那么創(chuàng)建一個(gè)殺手級(jí)的 VUI 將被證明是徒勞的狸膏。
讓語音設(shè)備保持親密狀態(tài)。有競(jìng)爭(zhēng)力的產(chǎn)品是需要盡可能多地挖掘 添怔。
鼓勵(lì)嘗試湾戳。場(chǎng)測(cè)和錯(cuò)誤驗(yàn)證贤旷,再加上可靠的用戶研究,無論多么細(xì)致砾脑,都不會(huì)讓你成功地將最微妙的特質(zhì)融入到你的語音交互體驗(yàn)中幼驶。
一切都是達(dá)到目的的手段。歸結(jié)為一件事韧衣,數(shù)據(jù)是人工智能的全部盅藻。個(gè)設(shè)計(jì)良好的 VUI 應(yīng)該通過成為習(xí)慣的具有啟發(fā)性的交互體驗(yàn)來補(bǔ)充這個(gè)過程。
設(shè)計(jì)的分享畅铭。目標(biāo)氏淑、需求、最佳實(shí)踐顶瞒、技術(shù)夸政、技術(shù)元旬、工具集和行業(yè)每天都在不斷變化榴徐。 知識(shí)和經(jīng)驗(yàn)的擴(kuò)散是揭開人工智能個(gè)性設(shè)計(jì)的神秘面紗并使之標(biāo)準(zhǔn)化的最佳途徑。
然而匀归,“大道易得坑资,小術(shù)難求”。行勝于言穆端,努力去學(xué)習(xí)和實(shí)踐才能得到更多的理解和認(rèn)識(shí)袱贮。
參考資料
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
http://www.speechtechmag.com/Articles/Editorial/Feature/Its-a-Persona-Not-a-Personality-36311.aspx
https://www.theatlantic.com/science/archive/2017/12/the-secret-lifeof-um/547961/
http://www.csun.edu/science/courses/671/bibliography/preece.html
Nielsen, 1995, https://www.nngroup.com/articles/ten-usability-heuristics/