接觸AR眼鏡已經(jīng)一年多了兔院,在經(jīng)歷的項(xiàng)目中我發(fā)現(xiàn)一個(gè)有趣的問題沈贝,市面上研發(fā)的AR眼鏡大都具備語音交互的功能但卻鮮少有用戶用之咳短。對(duì)此我開始對(duì)語音交互產(chǎn)生了興趣眶蕉,并且展開學(xué)習(xí)砰粹。在近期經(jīng)歷的大型項(xiàng)目中,用戶使用場(chǎng)景為工業(yè)場(chǎng)景造挽,用戶佩戴上AR眼鏡需要配合Pad終端完成工業(yè)檢修工作碱璃。在這個(gè)工作中,用戶需要同時(shí)手持pad終端和佩戴AR眼鏡對(duì)設(shè)備進(jìn)行一系列查看饭入,并將數(shù)據(jù)同步至Pad終端嵌器。(同步數(shù)據(jù)的操作會(huì)由服務(wù)器周轉(zhuǎn)來實(shí)現(xiàn),并通過OCR識(shí)別谐丢,圖像識(shí)別記錄數(shù)據(jù)爽航,其容錯(cuò)率低于10%,所以不排除人為需要手動(dòng)修改數(shù)據(jù)的可能)乾忱。由此讥珍,我便產(chǎn)生了疑問,覺得語音交互在這個(gè)場(chǎng)景下應(yīng)該是個(gè)好東西胺苟4觥(這里找了一張鋼鐵俠佩戴AR設(shè)備并對(duì)機(jī)器進(jìn)行語音操作指令的圖片执解,這并不會(huì)妨礙他利用雙手拯救世界嘛Dぁ)
在進(jìn)入跟AR相關(guān)的語音交互運(yùn)用內(nèi)容前纲酗,首先讓我們簡單了解一下語音交互在國內(nèi)外的發(fā)展現(xiàn)狀。早在1968年的電影《2001太空漫步》中新蟆,就出現(xiàn)了最早回應(yīng)語音指令的智能計(jì)算機(jī)的概念觅赊,由此便開啟了人類對(duì)語音交互可能性的探索和認(rèn)知。
Nuance是全球最大的語音技術(shù)公司琼稻,其專利及市場(chǎng)份額皆為領(lǐng)軍吮螺。蘋果Siri,三星語音助手及各大航空公司都采用其技術(shù)帕翻。
微軟利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)將語音識(shí)別錯(cuò)誤率降低至18.5%(要知道鸠补,在語音識(shí)別領(lǐng)域,任何5%的提升都是革命性的)嘀掸,這也是大大提升了語音技術(shù)商業(yè)化的潛力紫岩。
Google則開放其api,覆蓋80種語言睬塌,發(fā)展出眾多的使用案例泉蝌,其編輯的語言設(shè)計(jì)文檔,閱讀之后我也是從中獲益良多揩晴。(https://developers.google.com/actions/design/)
蘋果公司通過挖人勋陪,收購技術(shù)也讓siri在移動(dòng)終端中嶄露頭角。
亞馬遜則是研發(fā)了Echo音箱硫兰,結(jié)合其互聯(lián)網(wǎng)服務(wù)入口的優(yōu)勢(shì)诅愚,將語音交互帶入了普通家庭的生活服務(wù)中去。
而國內(nèi)劫映,被譽(yù)為中科院典范的科大訊飛則占據(jù)國內(nèi)超過60%市場(chǎng)份額的語音識(shí)別引擎的霸主地位呻粹。其次是百度,投入重金斬獲近13%的市場(chǎng)份額苏研,語音技術(shù)也十分成熟等浊。除此之外,許多大型公司都搭建起了自己的語音識(shí)別引擎摹蘑,目的多半自產(chǎn)自銷筹燕,自研自用。
這樣的一個(gè)現(xiàn)狀可以看出語音技術(shù)已經(jīng)成熟衅鹿,但又為什么很難成為主流的交互手段呢撒踪?在正式結(jié)合AR眼鏡使用語音交互進(jìn)行分析前,我想再聊聊構(gòu)成語音交互的準(zhǔn)則(或準(zhǔn)確的說語音交互中對(duì)話的準(zhǔn)則)大渤、其需要待解決的問題以及語音交互使用的用戶場(chǎng)景制妄。
語音交互是否行得通取決于兩點(diǎn):語音識(shí)別和語義理解。這是技術(shù)的核心泵三,但文章所涉及的主要以VUI為主耕捞,所以不多做展開衔掸。
語音交互除了從技術(shù)上實(shí)現(xiàn)對(duì)于語音和語義的理解以外,其重要的部分在于“對(duì)話”俺抽,學(xué)會(huì)對(duì)話是語音交互的靈魂敞映。對(duì)話的四點(diǎn)準(zhǔn)則可概括為:質(zhì)的準(zhǔn)則、量的準(zhǔn)則磷斧、相關(guān)準(zhǔn)則振愿、方式準(zhǔn)則。簡單來說就是要確保對(duì)話過程之中的信息真實(shí)有效弛饭,且與對(duì)話內(nèi)容相關(guān)冕末,說話需要直截了當(dāng)和清晰明了。 補(bǔ)充一種說明侣颂,便于理解栓霜,人與人在交流的過程中能夠相互理解對(duì)方因?yàn)榱?xí)慣性所吞噬的某個(gè)詞語,某個(gè)表達(dá)方式横蜒,但是機(jī)器就像是跟你語言不通的外國人胳蛮,要想讓機(jī)器了解你在說什么,所說的對(duì)話內(nèi)容需要是既定的丛晌,學(xué)習(xí)過的仅炊,有目的性的,以及在相應(yīng)對(duì)話中所包含過可以被理解的信息內(nèi)容∨熘耄現(xiàn)在語音交互中所存在的最大的問題也是待解決的問題就包括了對(duì)信息的辨別抚垄,即在對(duì)話過程中所產(chǎn)生的:對(duì)自然語言的識(shí)別和理解問題;語言信息量大的問題谋逻;語音的模糊性問題呆馁;以及環(huán)境噪聲和干擾對(duì)語音識(shí)別影響的問題。
這些問題似乎是困擾語音交互發(fā)展的棘手問題毁兆,然而并不是很難被解決浙滤。這就需要產(chǎn)品在設(shè)計(jì)之初,需要考慮到語音交互所需要的用戶場(chǎng)景气堕》睦埃考慮用戶場(chǎng)景是十分重要的,但往往很多涉及到語音交互類產(chǎn)品容易走向誤區(qū)茎芭,他們寧愿去滿足足夠多的功能揖膜,也不愿意試圖滿足用戶的真正意圖。舉個(gè)例子梅桩,一家汽車廠商在推出車載語音系統(tǒng)時(shí)添加了很多無用的冗余功能壹粟,于是售后就在用戶購買此車之后接受到了很多關(guān)于語音車載系統(tǒng)的抱怨和投訴。其后期的運(yùn)營成本更加的多了宿百。因此在考慮用戶使用場(chǎng)景的同時(shí)趁仙,要以用戶的使用意圖為優(yōu)先考慮洪添,才不會(huì)事倍功半,誤入歧途幸撕。我籠統(tǒng)的歸納了用戶需要啟用語音交互方式的場(chǎng)景:需要釋放雙手的情況;需要做到快速回復(fù)的情況外臂;具有一定私密性觸發(fā)一些操作指令的情況坐儿。
這里我開始結(jié)合AR眼鏡的使用場(chǎng)景做進(jìn)一步分析。市面上出現(xiàn)的增強(qiáng)現(xiàn)實(shí)的眼鏡都會(huì)擁有一些硬件按鈕幫助實(shí)現(xiàn)常規(guī)的開關(guān)機(jī)宋光,喚醒機(jī)器功能貌矿,點(diǎn)擊操作等,而由于現(xiàn)在大多數(shù)AR眼鏡致力于工業(yè)罪佳,醫(yī)療逛漫,建筑等領(lǐng)域的科研方向,為這些行業(yè)服務(wù)會(huì)在作業(yè)人員使用AR眼鏡時(shí)無法真正解放雙手赘艳。舉個(gè)例子酌毡,當(dāng)一個(gè)見習(xí)醫(yī)生初期需要在佩戴AR眼鏡輔助下完成主刀手術(shù)時(shí),由于手上拿著手術(shù)刀蕾管、手術(shù)鉗等器械導(dǎo)致不能點(diǎn)擊AR眼鏡上的進(jìn)入下一步操作按鈕枷踏,如果通過手勢(shì)去操作勢(shì)必需要將手上的手術(shù)刀放下,再進(jìn)行手勢(shì)操作指令掰曾,而手術(shù)室的場(chǎng)景中不存在多余眼鏡設(shè)備旭蠕,不會(huì)出現(xiàn)一條語音指令喚起多臺(tái)設(shè)備工作的可能,因此在這個(gè)場(chǎng)景下旷坦,語音交互似乎變的極具優(yōu)勢(shì)掏熬。(這種AR輔助醫(yī)療方式僅僅是假想的用戶場(chǎng)景)所以AR眼鏡作為另一種較為新型的移動(dòng)終端似乎也是語音交互系統(tǒng)絕配的載體。巧合的是秒梅,AR眼鏡問世的最大目的也是為了解放用戶雙手捌旆摇!
簡單描述了語音交互在AR眼鏡中的用戶場(chǎng)景,之后會(huì)進(jìn)一步對(duì)AR眼鏡下語音交互中所設(shè)計(jì)到的“對(duì)話”做進(jìn)一步研究和學(xué)習(xí)焰扳。分享一張Google的語音系統(tǒng)規(guī)范中提供的圖片母剥,幫助VUI設(shè)計(jì)師在建立語音交互的“對(duì)話”時(shí)需要考慮的要素。
在之后的文章中會(huì)寫到在AR眼鏡終端中語音用戶界面基本設(shè)計(jì)原則这刷;人物模型,虛擬形象和聲音模型的選擇娩井;語音用戶界面設(shè)計(jì)進(jìn)階問題暇屋;在AR眼鏡使用中語音用戶界面的用戶測(cè)試以及VUI建立后需要做的測(cè)試研究。