于嘰嘰(原創(chuàng))
轉(zhuǎn)眼間咱揍,距上篇發(fā)文已經(jīng)過去快5個(gè)月了,雖然主要是因?yàn)橥涎影┩砥诎l(fā)病一直在各種放化療(頭發(fā)掉了一堆這事我會(huì)亂說)棚饵,但“治療”期間也是苦苦憋了個(gè)大招煤裙。接下來我就分享下我們?nèi)绾螌I接入到了VR中,并嘗試了哪些有趣的場(chǎng)景噪漾。
? 緣起?
事情要從VR的輸入方式說起硼砰。在之前有關(guān)VR交互范式的三篇文章中(微信權(quán)限限制,不能在這粘跳鏈欣硼,大家手動(dòng)查看歷史文章就行)题翰,我列舉了當(dāng)前市面上主流VR設(shè)備的信息輸入方式,大體上從最低端的只能靠凝視觸發(fā)到高端的如數(shù)據(jù)手套分别,手勢(shì)追蹤等都有遍愿,而且在行業(yè)沒有完全成型的時(shí)候,各家都在發(fā)展適合自己硬件的交互輸入方式耘斩,使得至今VR的交互范式百家爭(zhēng)鳴沼填,并沒有一個(gè)一統(tǒng)天下的標(biāo)準(zhǔn)出現(xiàn)。
不過括授,作為一個(gè)沒有自家硬件做支撐的項(xiàng)目組坞笙,當(dāng)選取交互方式時(shí)就陷入到一種很尷尬的境地岩饼。酷炫如數(shù)據(jù)手套手勢(shì)追蹤的交互方式雖然體驗(yàn)好薛夜,但過分依賴昂貴且不成熟的硬件籍茧,使得用戶門檻過高不利于推廣普及。最終部門老大還是選擇了當(dāng)前出貨量最大的“手機(jī)—VR眼鏡—手機(jī)app”這種硬件配置梯澜。這就引出了一個(gè)棘手的問題寞冯。以這種硬件為基礎(chǔ),用戶戴上眼鏡后就不能用雙手操作手機(jī)晚伙,只能通過“凝視觸發(fā)”來進(jìn)行簡(jiǎn)單的操作吮龄。這樣一來,原本簡(jiǎn)單的翻頁咆疗、選片等操作會(huì)變得效率低下漓帚,而相對(duì)復(fù)雜一點(diǎn)的文字輸入就基本廢了。于是我們需要找到一種既不依賴特殊硬件又能做到體驗(yàn)優(yōu)良的交互輸入方式午磁,當(dāng)然很自然地想到了語音尝抖,不能用手,你就講出來嘛迅皇。
?語音交互?
市面上的語音交互系統(tǒng)按照識(shí)別的指令可以簡(jiǎn)單的分為兩種:一種是基于“有限狀態(tài)語法(finite state grammars)”的可交互式語音答錄系統(tǒng)(IVR)昧辽;另一種是基于統(tǒng)計(jì)語言模型(statistical language models)的自然語言交互系統(tǒng)(NLP)。這樣說有點(diǎn)抽象喧半,簡(jiǎn)單形容奴迅,IVR系統(tǒng)就像是火車電話訂票中的系統(tǒng)提示音青责,所有用戶指令都被限定在一個(gè)預(yù)設(shè)好的聲紋庫中挺据,用戶只能在系統(tǒng)的提示下說特定的指令系統(tǒng)才能識(shí)別,常見于各種自動(dòng)客服系統(tǒng)脖隶。而NLP是當(dāng)前比較流行的一種方式扁耐,比如蘋果的siri,微軟的cortana和亞馬遜的Echo都是基于自然語音識(shí)別的經(jīng)典案例产阱。用戶可以根據(jù)需要婉称,以自然會(huì)話的方式向系統(tǒng)發(fā)布指令,系統(tǒng)依靠語音識(shí)別將語音轉(zhuǎn)成文字构蹬,再根據(jù)需要將大段文字拆成短命令并與指令庫匹配王暗,從而執(zhí)行相應(yīng)的動(dòng)作。上面兩種方式并沒有誰優(yōu)誰劣的區(qū)分庄敛,IVR系統(tǒng)通常用在用戶意圖相對(duì)較為明確(換句話說就是系統(tǒng)支持的功能較少)俗壹,提倡精準(zhǔn)且高效的場(chǎng)景,而NLP系統(tǒng)則通常會(huì)被包裝成“助手”藻烤,所以自然語言式的指令會(huì)讓用戶感到更為親切自然绷雏,不過技術(shù)限制使得當(dāng)前的NLP系統(tǒng)的識(shí)別精度和反饋速度都相對(duì)較低头滔,這也是為啥上文提到的siri等語音助手經(jīng)常會(huì)用諸如“哦”等賣萌語來掩蓋識(shí)別無果的尷尬。
? 語音1.0 — 假助手?
在第一版的設(shè)計(jì)時(shí)涎显,我們更多的考慮是在技術(shù)可行性和未來擴(kuò)展性上尋求平衡坤检。
技術(shù)方面,百度有自己的自然語音識(shí)別接口期吓,其在線識(shí)別的精確度相當(dāng)不錯(cuò)早歇,但難點(diǎn)就在對(duì)識(shí)別出的用戶指令進(jìn)行拆解識(shí)別并對(duì)應(yīng)到相應(yīng)功能,這個(gè)短期內(nèi)很難有突破讨勤,畢竟憑著幾個(gè)人的開發(fā)團(tuán)隊(duì)要干人家?guī)装偃烁傻幕钜膊滑F(xiàn)實(shí)缺前。再回到產(chǎn)品需求上,我們的功能豐富度也還不足以支撐用戶對(duì)一個(gè)擬人的語音助手的期待悬襟。但從用戶認(rèn)知度和接受度來考慮衅码,支持自然語音識(shí)別的語音助手無疑是當(dāng)前用戶接受度最高的,所以最終我們還是決定包裝成“語音助手”脊岳,即使背后的識(shí)別邏輯做的簡(jiǎn)單一些逝段,畢竟一個(gè)“傻點(diǎn)”的語音助手以后還有變聰明的可能,一開始定位成語音輸入就沒有后續(xù)優(yōu)化的空間了割捅。
具體來說我們是這樣做的:
認(rèn)真看的你不難發(fā)現(xiàn)奶躯,這個(gè)超簡(jiǎn)單的流程存在很多bad case,比如用戶發(fā)起的很多我們沒有涵蓋的服務(wù)會(huì)被當(dāng)做搜索詞進(jìn)行一次檢索亿驾,而某些與預(yù)錄詞庫有重疊的搜索意圖又會(huì)被識(shí)別執(zhí)行成其他服務(wù)嘹黔,再加上詞庫的設(shè)置上我們并沒有相關(guān)的經(jīng)驗(yàn),基本上是靠近義詞詞典支撐莫瞬,所以只能在用戶一開啟語音助手時(shí)就將標(biāo)準(zhǔn)命令詞顯示在界面上來做提示儡蔓。
? 語音2.0 — 真助手?
從1.0的語音“假”助手的嘗試中我們發(fā)現(xiàn)主要的技術(shù)瓶頸是對(duì)用戶的意圖進(jìn)行拆解識(shí)別,而這需要較為復(fù)雜的算法和大量的數(shù)據(jù)訓(xùn)練才能實(shí)現(xiàn)疼邀,此時(shí)我們想到了百度自己的一款已有產(chǎn)品——度秘喂江,如果將度秘已經(jīng)訓(xùn)練的較為成熟的識(shí)別能力接入我們的語音助手豈不是就解決了上面的技術(shù)瓶頸。于是在一個(gè)風(fēng)和日麗的下午旁振,一個(gè)交互获询、一個(gè)視覺、兩個(gè)開發(fā)拐袜,四個(gè)人組成的小分隊(duì)開始嘗試將AI接入到VR中(這是我們的一小步吉嚣,也是人類的一大步,噗哈哈哈~~~)
? 基本交互?
目前度秘APP主要是會(huì)話式的交互模式蹬铺,用戶通過與度秘的會(huì)話獲取各種反饋信息尝哆,這種形式比較符合語音助手形象,因此在VR化過程中我們也考慮復(fù)用這種形式丛塌,在用戶使用習(xí)慣和開發(fā)成本上都是一個(gè)很好的延續(xù)较解。
通過分析度秘的會(huì)話內(nèi)容畜疾,我們將信息分為兩類:
1. 度秘與用戶的普通會(huì)話內(nèi)容
2. 點(diǎn)擊命令結(jié)果跳轉(zhuǎn)到的服務(wù)詳情頁
因此,在VR空間的排布上印衔,我們將這兩類信息分別放置在前方的會(huì)話層和后方的內(nèi)容展示層啡捶,如下圖:
用戶首次進(jìn)入VR環(huán)境時(shí),內(nèi)容展示層會(huì)顯示推薦內(nèi)容奸焙,用戶通過與度秘的對(duì)話調(diào)起各種服務(wù)(如檢索并播放視屏等)瞎暑,對(duì)話內(nèi)容在會(huì)話層中展示,而內(nèi)容展示層會(huì)展示服務(wù)內(nèi)容与帆。
?接入度秘自有服務(wù)?
度秘SDK分為兩部分了赌,一部分是語音識(shí)別,另一部分是度秘API玄糟,此次我們采用的是百度VR瀏覽器語音識(shí)別模塊+度秘線上API的方案勿她,這樣的方案使得我們對(duì)接度秘時(shí),沒有引入任何新的二進(jìn)制文件阵翎,控制安裝包大小同時(shí)逢并,減少了調(diào)試難度,提高了開發(fā)效率郭卫。以下是度秘服務(wù)的基本流程:
當(dāng)前度秘自有服務(wù)主要分為三類:信息砍聊,聊天,服務(wù)(具體詳見郵件附件)贰军。而我們要做的是采集用戶的query詞傳給度秘玻蝌,在VR的3D場(chǎng)景下將度秘返回的服務(wù)信息進(jìn)行展示。我們選取了天氣和美食兩類服務(wù)進(jìn)行接入词疼,效果如下:
?天氣查詢?
在“內(nèi)容層”上展示度秘返回的天氣信息
?附近美食?
用VR瀏覽器展示美食詳情頁信息俯树,可以支持在線訂餐
?新場(chǎng)景暢想?
從上面的案例可以看出目前百度VR瀏覽器已經(jīng)具備在3D場(chǎng)景中對(duì)度秘自有服務(wù)進(jìn)行展示和操作,只需對(duì)方提供對(duì)應(yīng)接口寒跳,我們做好數(shù)據(jù)展示就能很好的對(duì)接成功聘萨。但目前度秘的自有服務(wù)更多的聚焦在生活服務(wù)和信息查詢方面竹椒,這與VR瀏覽器用戶偏娛樂化的需求相悖童太,所以更多的需要我們結(jié)合VR瀏覽器用戶的使用場(chǎng)景,重新定義“VR度秘”應(yīng)具備的功能胸完。
① 直播小助手
當(dāng)前市面上的VR直播仍然處于只能觀看或僅支持簡(jiǎn)單互動(dòng)的階段书释,其互動(dòng)的瓶頸在于用戶在VR環(huán)境下很難進(jìn)行信息處理,包括打字赊窥、送禮物等爆惧。將VR度秘作為直播小助手,在直播前可以進(jìn)行直播預(yù)約提醒锨能,在直播中使用語音發(fā)送消息(發(fā)彈幕)扯再,送禮物芍耘,同時(shí)還可以進(jìn)行內(nèi)容講解等等。
② 虛擬體驗(yàn)項(xiàng)目與線下體驗(yàn)推薦
目前VR資源中有很大一部分是虛擬體驗(yàn)視頻熄阻,例如過山車斋竞、滑蹦極等極限運(yùn)動(dòng),可以將這些資源整合成“度秘帶你體驗(yàn)虛擬xxx”的入口秃殉,結(jié)合度秘的智能搜索與推薦坝初,引導(dǎo)用戶觀看和體驗(yàn)這類視頻,并與線下娛樂休閑項(xiàng)目數(shù)據(jù)聯(lián)動(dòng)钾军,在適當(dāng)時(shí)機(jī)提供線下餐飲鳄袍、游樂、休閑等項(xiàng)目的體驗(yàn)和購買入口吏恭,達(dá)到商業(yè)化的目的拗小。
③ 與地圖合作打造虛擬游覽
目前百度地圖有行業(yè)內(nèi)獨(dú)一無二的街景技術(shù)和資源,并且團(tuán)隊(duì)已具備將街景接入VR的技術(shù)能力樱哼,因此我們可以將一些特殊地標(biāo)十籍,例如城市中的景點(diǎn),或一些經(jīng)典的城市游覽線路——如上海的石庫門一日游——打造成虛擬游覽體驗(yàn)唇礁,將景點(diǎn)簡(jiǎn)介等信息預(yù)先錄入勾栗,用戶在“游覽”到某一節(jié)點(diǎn)時(shí)度秘會(huì)像導(dǎo)游一樣,向用戶講解當(dāng)前景點(diǎn)的相關(guān)信息盏筐。同時(shí)围俘,這種虛擬游覽的方式可以衍生出很多不同主題,并且可以對(duì)接很多相關(guān)服務(wù)琢融,這樣能夠在街景較為單一的呈現(xiàn)方式和使用場(chǎng)景之上界牡,更加豐富它的體驗(yàn)與產(chǎn)品維度。
下面是我們用實(shí)現(xiàn)的Demo錄制的一段介紹視頻
謝謝觀賞
以上這些都還是一些設(shè)想漾抬,不過互聯(lián)網(wǎng)這東西就是用來縮短夢(mèng)想和現(xiàn)實(shí)的差距的宿亡,現(xiàn)在是2017年0點(diǎn)14分,更著公眾號(hào)不知不覺就跨年了纳令,2017繼續(xù)充實(shí)下去挽荠。
當(dāng)然還要謝謝這個(gè)小項(xiàng)目中一起奮戰(zhàn)的小伙伴們,2017我們繼續(xù)約項(xiàng)目~~