上一篇文章介紹了語(yǔ)音交互的發(fā)展現(xiàn)狀赖瞒,VUI的對(duì)話(huà)內(nèi)容設(shè)計(jì)準(zhǔn)則窖贤,以及結(jié)合AR眼鏡實(shí)用案例下對(duì)語(yǔ)音交互的優(yōu)勢(shì)介紹孵运。這篇文章重點(diǎn)講述AR眼鏡終端中語(yǔ)音用戶(hù)界面的發(fā)出指令和確認(rèn)執(zhí)行的基本原則螟够,并且結(jié)合AR眼鏡的交互方式談一談適合AR眼鏡的語(yǔ)音指令種類(lèi)彤断。
首先聊一聊IVR系統(tǒng)。IVR系統(tǒng)(Interactive Voice Response)即互動(dòng)式語(yǔ)音應(yīng)答妇垢,用戶(hù)只須用電話(huà)即可進(jìn)入服務(wù)中心巾遭,可以根據(jù)操作提示收聽(tīng)手機(jī)娛樂(lè)產(chǎn)品,也可以根據(jù)用戶(hù)輸入的內(nèi)容播放有關(guān)的信息闯估。它代表最早期語(yǔ)音交互的呈現(xiàn)形式恢总,通常用戶(hù)會(huì)根據(jù)電話(huà)機(jī)中已經(jīng)預(yù)設(shè)好的問(wèn)題提供“是”或“否”的回答。這樣的方式大大降低了人工服務(wù)的成本睬愤。(這里并不是說(shuō)取代)然而這樣的交互方式能夠解決的問(wèn)題有限,方式單一纹安,只能完成流程中選擇性的流程尤辱,而非真正意義上的對(duì)話(huà)砂豌。因此IVR系統(tǒng)也總是被《周六夜現(xiàn)場(chǎng)》(美國(guó)的一檔綜藝節(jié)目)所詬病。雖然這是一種簡(jiǎn)單看似死板的語(yǔ)音交互方式光督,卻成為了語(yǔ)音交互逐漸發(fā)達(dá)的奠基石阳距。
如今,通過(guò)ASR識(shí)別系統(tǒng)(Automatic Speech Recognition)结借,計(jì)算機(jī)能夠更好地分析出用戶(hù)所表達(dá)的意圖和操作指令筐摘。這些人為提供的指令可以概括為:?jiǎn)我粚?duì)話(huà)操作性指令;互動(dòng)式溝通指令船老;預(yù)定式操作指令咖熟;和搜索式溝通指令。此外機(jī)器通過(guò)計(jì)算產(chǎn)生的回應(yīng)方式可以分為:確認(rèn)再操作柳畔;操作示意的隱形確認(rèn)馍管;執(zhí)行對(duì)話(huà);以及提醒式響應(yīng)薪韩。
單一對(duì)話(huà)操作性指令
用戶(hù)通過(guò)提出一條命令确沸,機(jī)器根據(jù)命令做出執(zhí)行工作。例如:
用戶(hù):“Hi L俘陷,麻煩幫我打開(kāi)“呼叫遠(yuǎn)程專(zhuān)家”應(yīng)用罗捎。
此時(shí)設(shè)備會(huì)在顯示區(qū)域中將“呼叫遠(yuǎn)程專(zhuān)家”的應(yīng)用界面為之打開(kāi)。
互動(dòng)式溝通指令
用戶(hù)通過(guò)發(fā)出一條指令拉盾,同時(shí)根據(jù)所發(fā)出的指令衍生出其他指令內(nèi)容桨菜,并建立起溝通會(huì)話(huà)。例如:
用戶(hù):“Hi盾剩,Google雷激,你認(rèn)識(shí)錢(qián)學(xué)森么?”
語(yǔ)音:“這是我給您查到的相關(guān)資料告私,還有什么可以幫到您的么屎暇?”此時(shí)顯示區(qū)域會(huì)出現(xiàn)錢(qián)學(xué)森老先生的生平以及所有有關(guān)這位杰出科學(xué)家的相關(guān)資料鏈接。
用戶(hù):“那你能幫我查一下他是哪所大學(xué)畢業(yè)的么驻粟?”
語(yǔ)音:“他曾就讀于上海交通大學(xué)根悼。”
用戶(hù):“OK蜀撑,那你能給我推薦那里附近的美食么挤巡?”
語(yǔ)音:“這所學(xué)校分五個(gè)校區(qū),分別是…您是要查哪一所校區(qū)周邊的美食酷麦?”…
在這里矿卑,請(qǐng)?jiān)试S我著重說(shuō)明一下這段對(duì)話(huà)。雖然這段對(duì)話(huà)在人類(lèi)看來(lái)是很容易理解的沃饶,但是對(duì)于計(jì)算機(jī)要理解起來(lái)就很吃力了母廷。因?yàn)橛?jì)算機(jī)試圖要明白“他”這個(gè)代詞是指代的誰(shuí)轻黑。以及“那里”又是指代哪個(gè)地方?計(jì)算機(jī)在沒(méi)有深度學(xué)習(xí)語(yǔ)義之前琴昆,只會(huì)根據(jù)指令中的相關(guān)詞進(jìn)行判斷氓鄙,而像“他”;“這里”业舍;“那”到底是“他”還是“她”抖拦,計(jì)算機(jī)是需要根據(jù)上下文做語(yǔ)義學(xué)習(xí)和判斷的。由于是針對(duì)AR眼鏡中VUI的運(yùn)用舷暮,這里不多做展開(kāi)态罪,因?yàn)锳R眼鏡如今的發(fā)展,所承載的應(yīng)用多以單一對(duì)話(huà)操作性指令就可以完成大部分的基本指令需求了脚牍。
預(yù)定式操作指令
用戶(hù)通過(guò)發(fā)出預(yù)定式操作指令向臀,讓設(shè)備幫助其預(yù)定服務(wù)。例如:
用戶(hù):“Hi Siri诸狭,幫我叫輛車(chē)券膀。”
語(yǔ)音:“好的驯遇,您想使用哪個(gè)應(yīng)用芹彬?滴滴出行或攜程旅行?”(計(jì)算機(jī)識(shí)別到我的設(shè)備上只有這兩款應(yīng)用可以提供叫車(chē)服務(wù))
用戶(hù):“DIDI”
語(yǔ)音:“你要在哪下車(chē)叉庐?”
用戶(hù):“上海站舒帮。”
語(yǔ)音:“滴滴出行將在3分鐘內(nèi)幫您預(yù)約快車(chē)陡叠⊥娼迹”
用戶(hù):“請(qǐng)幫我取消預(yù)約⊥髡螅”
語(yǔ)音:“好的译红,已幫您取消了預(yù)約⌒肆铮”
這段對(duì)話(huà)也很有意思侦厚,在與Siri的互動(dòng)中,設(shè)備能夠通過(guò)語(yǔ)音交互幫我用最基礎(chǔ)的形式叫到車(chē)拙徽,但是它并不知道通常用戶(hù)的叫車(chē)習(xí)慣刨沦。是否要從定位的地點(diǎn)上車(chē)?是否用戶(hù)只想預(yù)約快車(chē)膘怕?難道不能預(yù)約專(zhuān)車(chē)么想诅?但是整個(gè)對(duì)話(huà)很流暢,并且?guī)缀跏遣恍枰达@示區(qū)域,這就表示亞馬遜的Echo音響也能完成此服務(wù)侧蘸。另外裁眯,預(yù)定式操作指令還適用于預(yù)定某項(xiàng)日程,設(shè)定鬧鐘讳癌,但我在最近嘗試的語(yǔ)音交互設(shè)備中沒(méi)辦法完成在類(lèi)似“ele”這樣內(nèi)容豐富,選擇多樣的應(yīng)用中完成美食預(yù)定存皂。這一類(lèi)預(yù)定式操作指令同樣在現(xiàn)在AR眼鏡中還涉及不到晌坤。
搜索式溝通指令
用戶(hù)通過(guò)發(fā)出搜索式溝通指令,讓設(shè)備在瀏覽器上進(jìn)行單一搜索服務(wù)旦袋,這過(guò)程也是一次性骤菠,無(wú)串聯(lián)式溝通會(huì)話(huà)的。例如:
用戶(hù):“Hi L疤孕,幫我查一下飛機(jī)發(fā)動(dòng)機(jī)引擎的構(gòu)成嗎商乎?”(此時(shí)用戶(hù)帶著AR眼鏡終端正站在一臺(tái)巨型發(fā)動(dòng)機(jī)引擎前,這可是飛機(jī)發(fā)動(dòng)機(jī)的引擎凹婪А鹉戚!由于此用戶(hù)需要針對(duì)性檢測(cè)飛機(jī)發(fā)動(dòng)機(jī),因此為了確認(rèn)構(gòu)成中的詳細(xì)內(nèi)容专控,需要在設(shè)備中或者瀏覽器中找到對(duì)應(yīng)的結(jié)構(gòu)圖)
對(duì)話(huà)方式一:
語(yǔ)音:“您是確認(rèn)要找飛機(jī)發(fā)動(dòng)機(jī)引擎的構(gòu)成么抹凳?”
用戶(hù):“是的”
語(yǔ)音:“好的,已幫您找到相關(guān)資料伦腐∮祝”(此時(shí)AR眼鏡中的顯示區(qū)域顯示出了對(duì)應(yīng)的圖紙)
對(duì)話(huà)方式二:
語(yǔ)音:“正在幫您搜索相關(guān)資料,已幫您查找到相關(guān)資料柏蘑⌒叶常”(此時(shí)AR眼鏡中的顯示區(qū)域顯示出了對(duì)應(yīng)的圖紙)
這兩種對(duì)話(huà)方式看似實(shí)現(xiàn)的結(jié)果是一樣的,但是實(shí)際上咳焚,VUI使用了不同與用戶(hù)確認(rèn)信息的方式洽损,第一種是“確認(rèn)再操作”,這樣的確認(rèn)方式是因?yàn)槠渲眯哦葹?5%-79%黔攒,系統(tǒng)需要向用戶(hù)確認(rèn)其操作命令育叁。第二種是“隱形確認(rèn)”,這樣的確認(rèn)方式要求置信度高于80%散庶,系統(tǒng)看上去更加智能茴厉,但所耗費(fèi)的計(jì)算方法更為復(fù)雜。
設(shè)備除了通過(guò)直接確認(rèn)和隱性確認(rèn)的方式進(jìn)行回應(yīng)赏胚,同時(shí)還可以通過(guò)非語(yǔ)言式確認(rèn)访娶;通用確認(rèn);以及視覺(jué)確認(rèn)來(lái)告知用戶(hù)設(shè)備對(duì)于用戶(hù)提出的指令是有回饋的觉阅。
AR眼鏡不同于移動(dòng)終端或其他承載語(yǔ)音系統(tǒng)的載體崖疤,但可以說(shuō)跟車(chē)載語(yǔ)音系統(tǒng)有一定的相似之處秘车。兩者在使用的過(guò)程中幾乎都是騰不開(kāi)手的,因此在設(shè)備中所置入的應(yīng)用操作性相對(duì)較移動(dòng)終端來(lái)說(shuō)要簡(jiǎn)易一些劫哼,其應(yīng)用不適合具有復(fù)雜且長(zhǎng)的邏輯線路叮趴。啟動(dòng)應(yīng)用;呼叫專(zhuān)家权烧;調(diào)用模型信息展示眯亦,等。操作方式較為單一和簡(jiǎn)便般码。因此在VUI設(shè)計(jì)的過(guò)程中可以針對(duì)某個(gè)功能或場(chǎng)景做針對(duì)的場(chǎng)景對(duì)話(huà)設(shè)計(jì)妻率。適合AR眼鏡的語(yǔ)音指令主要以“單一對(duì)話(huà)操作性指令”與“搜索式溝通指令”為主的指令方式進(jìn)行交互。由于AR眼鏡擁有顯示區(qū)域板祝,所以設(shè)備的聲音確認(rèn)標(biāo)識(shí)不是必要的宫静。
語(yǔ)音系統(tǒng)的回應(yīng)方式和處理錯(cuò)誤信息的能力也十分重要,這是直接關(guān)系用戶(hù)使用體驗(yàn)的券时。就例如孤里,當(dāng)你在跟你朋友聊天時(shí),ta對(duì)于你說(shuō)的話(huà)毫無(wú)反應(yīng)革为,或者回答的驢頭不對(duì)馬嘴時(shí)扭粱,你首先會(huì)選擇重復(fù)你剛剛說(shuō)的話(huà),如果幾次三番對(duì)方還是給與你毫無(wú)頭緒的回應(yīng)時(shí)震檩,你一定會(huì)氣急敗壞覺(jué)得ta是不是瘋了琢蛤?在語(yǔ)音系統(tǒng)中更是如此,當(dāng)然人類(lèi)會(huì)因?yàn)闇贤▽?duì)象是機(jī)器抛虏,因而抱有更大的耐心也更加寬容博其,但友好地回應(yīng)錯(cuò)誤信息是VUI發(fā)展的關(guān)鍵。我會(huì)在下一篇文章繼續(xù)介紹AR眼鏡中針對(duì)異常信息將如何在VUI上進(jìn)行合理處理迂猴。