語音交互主要包含自動語音識別(Automatic Speech Recognition, ASR)稠项、自然語言理解(Natural Language Understanding, NLU)褂始、自然語言生成(Natural Language Generation, NLG)與文字轉語音(Text to Speech, TTS)等技術谓罗,如同真人在進行對話時的「聆聽」、「理解」與「回復」三種能力顶别。也因為是基于人類的聽學系統(tǒng)谷徙,目前這樣的交互方式也被定義為對話式人機界面(Conversational User Interface, CUI)。
實時語音識別 ASR 技術能力的成熟驯绎,已經(jīng)讓機器取代這部份的工作變成了可能完慧,目前語音識別的正確率在較好的環(huán)境中甚至能高達 97% 的正確率。ASR 與 TTS 技術相對而言比較成熟剩失,已經(jīng)有較多的商業(yè)應用屈尼。但像是自然語言理解 NLU 與基于聲音語調蛤织、說話內容來分析的情緒識別,這些都還在路上鸿染。而 NLU 技術目前在較簡單的垂直領域中,像天氣查詢這類的領域還是有不錯的表現(xiàn)乞巧,但到了交叉領域的通用問答中涨椒,還有很大的訓練量要做。必須依賴于更好的算法以及大數(shù)據(jù)绽媒,才能慢慢的變成像電影鋼鐵俠中看到的 Javis 那樣蚕冬,有能力進行更自然的語音交互。
而說到語音體驗設計師的設計職責是辕,或許大多人會聚焦重點在電子音效與對話內容的設計囤热,在這個思考上,我們內部前后做了許多次的專家工作坊以及設計研究获三。借由模擬人機交互中一個著名的「恐怖谷理論」旁蔼,來探索機器擬人的過程中,有哪些因子是在三維無界面設計中疙教,設計師可以發(fā)力的維度棺聊。
「恐怖谷理論」是指當機器人與人類在外表要拂、動作上的相似程度到達一定水準時囊嘉,人類會對機器人產(chǎn)生及為負面的情感勤婚。我們試著透過給予指定劇本以及無劇本的方式此叠,讓一人扮演真人一扮演機器人來重現(xiàn)這樣的場景磅氨。借由觀察以及會后訪談麸俘,來找出虛擬腳色的扮演中狰住,有哪些設計因子會影響最終體驗厢蒜。
從總結的設計維度中理疙,可以發(fā)現(xiàn)透過模擬對談的行為模式晕城,以及相關知識結構、人格情緒的設計沪斟,來樹造出一個虛擬人格广辰。而熟悉過程的設計,其實就相當于我們在 GUI 中常說的大數(shù)據(jù)或千人千面主之,透過語音交互的使用過程择吊,了解用戶的習慣進而幫助他達到更好的使用體驗。其實也就像是我們在現(xiàn)實生活中槽奕,與人剛認識到熟悉的的這么一個過程几睛。當然在目前的時間點,這樣的設計可能還稍微早了些粤攒,離真正的技術實現(xiàn)所森、甚至商業(yè)應用都還有些距離囱持。
擬人設計因子上,包含了較為概括的聲音焕济、談吐纷妆、知識、行為晴弃、性格這些維度掩幢,這些因子都是幫助我們在所謂的擬人化設計這件事情上,設計師可以從哪些角度來思考上鞠。當然這些設計維度與因子都需要根據(jù)不同的業(yè)務际邻、不同的場景來做不同的設定。
從專家工作坊芍阎、資料調研與相關設計研究的成果可以發(fā)現(xiàn)世曾,在商業(yè)環(huán)境中的語音體驗設計師,具體的設計內容可以分為「聲音形象」谴咸、「對話式交互」與「對話內容」等三個部分:聲音形象的設計轮听,其實就相當于 GUI 上我們所說的品牌設計,但更大的挑戰(zhàn)是設計師要更去思考賦予機器人性的平衡點在哪岭佳。以目前的技術和可實現(xiàn)的情境蕊程,一味的賦予人性可能會帶來過度設計的問題,進而導致使用者會有過度預期驼唱。
上圖的流程藻茂,是我們將整個語音交互過程中的幾個重要節(jié)點歸納出來,大致可以分為「聆聽」玫恳、「處理」辨赐、「回饋」三個階段,我們想透過使用者在進行一次語音交互的使用過程京办,來說明如何做好預期管理掀序。考慮到設備裝置在家庭環(huán)境或固定空間中的拾音環(huán)境惭婿,如果設備能隨時的聆聽背景中的聲音不恭,可能會造成我們日常生活中的混亂。因此在設計這類型產(chǎn)品時财饥,通常都會考慮到加入「喚醒硬件」的關鍵字設計换吧,避免用戶過于輕易的或誤用的喚醒設備。
用戶觸發(fā)設備后钥星,所輸入的語料會經(jīng)過識別沾瓦、解析、知識對應等不同階段。在語意解析甚至會有多輪或者追問的交互行為贯莺,來獲取完成用戶意圖所需要的關鍵信息风喇。 而最后再透過語料裝配的工作,如『杭州今天天氣晴朗缕探,溫度 24 到 20 度』魂莫,讓用戶能高效的接收語音信息,并有較為一致性的體驗爹耗。
「響應狀態(tài)設計」與「語音內容設計」相對容易理解豁鲤,而對用戶的操作心智所做的預期管理,主要是透過「交互行為的設計」來實現(xiàn)鲸沮。我們在 GUI 的設計上會因當前的場景是任務導向、內容導向而有不同的設計锅论。在 CUI 也是一樣的讼溺,為了避免用戶在使用過程中,變成 Anything to Anything 的使用心智最易。將用戶所進行的輸入分類成不同的任務類型怒坯,并有對應的使用回饋,能幫助用戶對他所準備進行的操作有相符的期望藻懒。
問答操作型:
問答類以及命令類的操作都屬于這個類型剔猿,用戶在這類型的語音輸入大多是具有明確目的性的。比如用戶問「杭州今天天氣怎么樣嬉荆?」的問題時归敬,更多的期望是「講出一句話」后,就能獲得反饋鄙早。
這種類型也是我們在設計中汪茧,更傾向讓用戶進行的操作。因為這類型的語料限番,在語句上會自然的擁有比較結構化舱污、比較帶有指向性的關鍵詞。因此在設計中弥虐,我們也會以「效率」扩灯、「明確」的設計目標,來盡量縮減這個類型的整體交互過程霜瘪,提高操作效率珠插。
內容播報型:
像新聞類的、音頻類的操作我們都歸類在這個類型內颖对。這類型的共通點是丧失,語音 TTS 上的回復可能內容會比較多。比如用戶問了「讀一下『望廬山瀑布』」惜互,語音 A.I. 會回復「好的布讹×帐茫『望廬山瀑布』,作者李白描验『艄桑『日照香爐生紫煙,遙看瀑布掛前川彭谁。飛流直下三千尺吸奴,疑是銀河落九天。』」
在這種類型我們考慮的是「清晰」铭拧、「簡潔」阐虚,因為使用者在接收信息時,只有 30% 是透過聲音的刺激。短時間的聆聽注意力也大約只在 11~13 秒左右富稻。當語音 TTS 內容超出一定信息接收成本時,很容易就會影響用戶的使用體驗认境。
引導同步型:
最后這個類型實際是語音交互上胚委,最重要也最難實現(xiàn)的類型元暴。前面更多的任務篷扩,會是比較明確且?guī)ЫY構關鍵字信息的,語音 A.I. 還算能清楚的理解用戶所表達的意圖茉盏。而「引導同步」類型的問題鉴未,大多是用戶所說的語音命令不夠明確,或者需要更復雜的交互操作鸠姨,比如界面的輔助铜秆。
在真實的用戶對話場景中,比較不結構化讶迁、或者較為范化的口語表達方式连茧,才是真實的對話方式,因此這種類型我們需要利用「對話框架」的設計巍糯,來判斷用戶的意圖啸驯,并逐步的限縮對話走向直到用戶完成意圖的輸入。
語音交互的對話框架祟峦,包含了「引導」罚斗、「限縮」、「回復」宅楞、「轉化」四個過程针姿。如果用戶所表達的意圖內容,帶有一些關鍵字但仍不足時厌衙,我們可以透過引導以及局限性的追問句距淫,來快速限縮用戶的對話走向,讓用戶知道如果他要完成意圖婶希,還需要什么樣的關鍵信息輸入榕暇。總體而言喻杈,每次的語音教交互其實都會有「引導」拐揭、「限縮」、「回復」的過程奕塑。根據(jù)用戶當前的輸入信息完整度堂污,來判斷處于什么樣階段的內容回復。而「轉化」就是視操作復雜度龄砰,適時提供可視化的幫助盟猖,或者是引導用戶開啟下段可能的談話讨衣。例如用戶完成買咖啡的交互后,我們還能詢問是否要在定一些點心式镐。
所以在語音對話設計上反镇,設計師要先分析當前場景,用戶所可能會進行的輸入娘汞,是什么樣的類型歹茶,并透過不同類型所對應的回饋結果,讓用戶在家居場景中可能會輸入的 Anything 你弦,轉變成相對應的結構惊豺,語音交互的過程中,用戶就會自然的有預期的相符禽作。
情感化設計
GUI 中我們有情感化設計尸昧,在 CUI 中也是一樣的。但在無界面可以施力的情形下旷偿,GUI 中的操作引導烹俗、系統(tǒng)錯誤、甚至一些界面的空狀態(tài)設計萍程,要怎么在 CUI 上體現(xiàn)呢幢妄。GUI 的設計中,我們常會借助文字提示和界面組件來引導用戶茫负,我們透過界面上的標題蕉鸳、導航條、按鈕等方式朽褪,來幫助用戶完成對應的意圖操作置吓。
但 CUI 中沒有了圖像界面的輔助无虚,用戶在表達相同的意圖時缔赠,可能會有很多種表達方式。就如前面所說的友题,用戶會使用較為口語的方式來進行交互嗤堰。例如用戶想設一個提醒時,可能會有「幫我設一個提醒下午開會」度宦、「提醒我下午開會」踢匣、「設個下午開會提醒」等不同表達方式,甚至在語音 A.I. 說「是否添加一個提醒『下午開會』」來確認用戶的意圖時戈抄,用戶可能也會用「是的」离唬、「對」、「Yes」等方式來回復划鸽。
在這個問題上输莺,其實設計師能做的事情相對有限戚哎。我們除了能透過挖掘場景,盡量收集用戶對相同意圖可能產(chǎn)生的不同語料外嫂用。我們還要透過非正常流程的設計型凳,來幫助用戶離開錯誤場景,也就是所謂的 CUI 情感化設計嘱函。比如像前面的語音交互流程中甘畅,幾個可能發(fā)生錯誤的節(jié)點,都需要設計師事先設計發(fā)生錯誤時往弓,該如何引導用戶脫離當前場景疏唾。
語音設計方法的最后也是最重要的一條原則,對于設計師與開發(fā)工程師來說亮航,語音設計中最困難的就是要面對大量無用的語音輸入信息荸实。整個語音交互過程中,用戶可能的輸入是無法像 GUI 那樣相對規(guī)范化的缴淋。甚至在語音交互中准给,用戶只能依靠有限的提示以及短期記憶來完成整個操作。所以語音設計上最好的方式重抖,就是快速的利用一些工具露氮,去模擬整個語音交互過程。前面所說的語音設計上钟沛,管理用戶預期的方式畔规,更多的是要透過親身體驗才能有比較清楚的認知。
設計角色的改變
從「科技型態(tài)的改變」恨统、「設計思維的改變」到「設計方法的改變」叁扫,跟大家分享我們所總結出的「語音體驗設計師」的設計思維,以及透過對話交互行為畜埋、內容結構莫绣、限縮談話等方式來進行的「語音設計預期管理」。最后要跟大家分享的是悠鞍,在智能時代的語音設計中对室,設計師可能扮演的角色以及剛剛所提到的內容,是如何在開發(fā)流程里面實現(xiàn)的咖祭。
目前在 GUI 類型的產(chǎn)品設計過程中掩宜,整個開發(fā)流程會有幾個不同的角色,包含產(chǎn)品么翰、交互牺汤、視覺、開發(fā)等來負責每個階段的產(chǎn)出物浩嫌。但在 CUI 中其實有個致命的問題檐迟,也就是所謂的「無界面設計」所導致的戴已,就是交互與產(chǎn)品在工作負責范圍中十分不清晰,以往產(chǎn)品定義需求交互設計原形的工作形式锅减,在 CUI 中是不在存在的糖儡,甚至因為沒有界面,視覺在 GUI 中較為重要的設計工作也沒有了施力點怔匣。
所以如前面所提的「語音體驗設計師」這個新角色握联,到底設計師在 CUI 的開發(fā)過程中扮演了什么角色?
在 CUI 的開發(fā)過程中每瞒,最容易遇到的問題就是相同的意圖金闽,用戶可能會在不同的時間、不同的地點剿骨、不同的環(huán)境中代芜,會有不同的表達方式。所以語音設計師要進入到用戶具體使用產(chǎn)品的環(huán)境中浓利,去挖掘用戶可能會產(chǎn)生的意圖挤庇,以及可能的表達方式。甚至要依不同的地域贷掖、不同的人群來看會有多少種的可能語料嫡秕。
CUI 與 GUI 在處理錯誤的設計上,最大的不同是由于沒有界面來限定用戶的操作苹威, CUI 需要提前考慮用戶可能的使用方式昆咽,需求挖掘的越多、語料收集的越齊全牙甫,用戶在進行語音交互時遇到錯誤情境的可能性越小掷酗。
挖掘出用戶的意圖以及語料后,語音設計師的主要工作會在設計用戶進行語音交互的對話流程窟哺,設計方法中所提的「對話框架設計」以及其他預期管理的方式泻轰,都是在這個階段來使用。設計師需要將用戶輸入的意圖脏答,書理出幾種可能的使用路徑糕殉,并依不同的的邏輯關系來判斷用戶可能會需要的反饋亩鬼。這部份這就仰賴設計師根據(jù)不同的任務屬性殖告,訂定不同的設計目標,來編寫最終用戶所接收到的語音內容雳锋。
最后也是最重要的黄绩,所以語音設計出來的產(chǎn)物,都必須放到真實環(huán)境中來測試使用玷过。真實的使用過程往往會超乎一開始所設定的語音流程爽丹,因此透過實際的操作才能知道設計產(chǎn)出是否符合真實的使用情境筑煮。
語音交互場景,需求與心理分析
總結一下:
1.確保提出問題粤蝎,避免利用陳述句或者反問句提問
2.不要假設用戶知道怎么做真仲,該有的提示還是要有
3. 但是又不可以把用戶當傻瓜,有些廢話不提也罷
4. 顯示選項要清楚且不要超過三個初澎,超過的用更多或者幫助等語言命令
5. 在給出選項后想用戶提出一個問題
6. 避免創(chuàng)建太多確認的對話框秸应,除了高度后果的操作,例如: ?? ? 公開顯示的操作(例如碑宴,發(fā)布到社交媒體) ??? ? 影響其他人的操作(例如软啼,發(fā)送消息 ? ? ??? ? 涉及金錢的行為(例如,當用戶購買東西時)
7. 提供語言示例或者介紹時要說明功能延柠。
8. 注意提示用戶他們所處的位置和讓他們確保輸入正確
9.最后加上問題保持對話不斷裂祸挪。
10.選項后面注意加上編號,方便用戶不用說選項全名
11.不要用括號等文本數(shù)據(jù)
12.重要的但是不適合語音表達的內容可以采用推送等方式告知
13.在重復提示前加上一個提示以幫助用戶知道問題在哪贞间,從而說出正確而內容贿条。
14.每個功能總要留有余地的給用戶留一個退出機制并且提示
15.當錯誤發(fā)生時,不要將責任歸咎于用戶增热,但也不要刻意說抱歉
16.要推測用戶可能說的不支持的事情闪唆,然后智能地處理它們。
自然語言處理(簡稱NLP)
NLP研究計算機處理人類語言的一門技術钓葫,包括:
1.句法語義分析:對于給定的句子悄蕾,進行分詞、詞性標記础浮、命名實體識別和鏈接帆调、句法分析、語義角色識別和多義詞消歧豆同。
2.信息抽确:從給定文本中抽取重要的信息,比如影锈,時間芹务、地點、人物鸭廷、事件枣抱、原因、結果辆床、數(shù)字佳晶、日期、貨幣讼载、專有名詞等等轿秧。通俗說來中跌,就是要了解誰在什么時候、什么原因菇篡、對誰漩符、做了什么事、有什么結果驱还。涉及到實體識別陨仅、時間抽取、因果關系抽取等關鍵技術铝侵。
3.文本挖掘(或者文本數(shù)據(jù)挖掘):包括文本聚類灼伤、分類、信息抽取咪鲜、摘要狐赡、情感分析以及對挖掘的信息和知識的可視化、交互式的表達界面疟丙。目前主流的技術都是基于統(tǒng)計機器學習的颖侄。
4.機器翻譯:把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。根據(jù)輸入媒介不同享郊,可以細分為文本翻譯览祖、語音翻譯、手語翻譯炊琉、圖形翻譯等展蒂。機器翻譯從最早的基于規(guī)則的方法到二十年前的基于統(tǒng)計的方法,再到今天的基于神經(jīng)網(wǎng)絡(編碼-解碼)的方法苔咪,逐漸形成了一套比較嚴謹?shù)姆椒w系锰悼。
5.信息檢索:對大規(guī)模的文檔進行索引⊥派停可簡單對文檔中的詞匯箕般,賦之以不同的權重來建立索引,也可利用1舔清,2丝里,3的技術來建立更加深層的索引。在查詢的時候体谒,對輸入的查詢表達式比如一個檢索詞或者一個句子進行分析杯聚,然后在索引里面查找匹配的候選文檔,再根據(jù)一個排序機制把候選文檔排序营密,最后輸出排序得分最高的文檔械媒。
6.問答系統(tǒng): 對一個自然語言表達的問題目锭,由問答系統(tǒng)給出一個精準的答案评汰。需要對自然語言查詢語句進行某種程度的語義分析纷捞,包括實體鏈接、關系識別被去,形成邏輯表達式主儡,然后到知識庫中查找可能的候選答案并通過一個排序機制找出最佳的答案。
7.對話系統(tǒng):系統(tǒng)通過一系列的對話惨缆,跟用戶進行聊天糜值、回答、完成某一項任務坯墨。涉及到用戶意圖理解寂汇、通用聊天引擎、問答引擎捣染、對話管理等技術骄瓣。此外,為了體現(xiàn)上下文相關耍攘,要具備多輪對話能力榕栏。同時,為了體現(xiàn)個性化蕾各,要開發(fā)用戶畫像以及基于用戶畫像的個性化回復扒磁。
隨著深度學習在圖像識別、語音識別領域的大放異彩式曲,人們對深度學習在NLP的價值也寄予厚望妨托。再加上AlphaGo的成功,人工智能的研究和應用變得炙手可熱吝羞。自然語言處理作為人工智能領域的認知智能始鱼,成為目前大家關注的焦點。很多研究生都在進入自然語言領域脆贵,寄望未來在人工智能方向大展身手医清。
NLP分析技術的三個層面
NLP分析技術大致分為三個層面:詞法分析、句法分析和語義分析卖氨。
1)詞法分析
詞法分析包括分詞会烙、詞性標注、命名實體識別和詞義消歧筒捺。
分詞和詞性標注好理解柏腻。
命名實體識別的任務是識別句子中的人名、地名和機構名稱等等命名實體系吭。每一個命名實體都是由一個或多個詞語構成的五嫂。
詞義消歧是要根據(jù)句子上下文語境來判斷出每一個或某些詞語的真實意思。
2)句法分析
句法分析是將輸入句子從序列形式變成樹狀結構,從而可以捕捉到句子內部詞語之間的搭配或者修飾關系沃缘,這一步是NLP中關鍵的一步躯枢。
目前研究界存在兩種主流的句法分析方法:短語結構句法體系,依存結構句法體系槐臀。其中依存關系句法體系現(xiàn)在已經(jīng)成為研究句法分析的熱點锄蹂。
依存語法表示形式簡潔,易于理解和標注水慨,其可以很容易的表示詞語之間的語義關系得糜,比如句子成分之間可以構成施事,受事晰洒,時間等關系朝抖。這種語義關系可以很方便的應用魚語義分析和信息抽取等方面。依存關系還可以更高效的實現(xiàn)解碼算法谍珊。
句法分析得到的句法結構可以幫助上層的語義分析槽棍,以及一些應用,例如機器翻譯抬驴、問答炼七、文本挖掘、信息檢索等布持。
3)語義分析
語義分析的最終目的是理解句子表達的真實語義豌拙。當時用什么形式來表示語義一直沒有能夠很好的解決。語義角色標注是比較成熟的淺層語義分析技術题暖。給定句子中的一個謂詞按傅,語義角色標注的任務就是從句子中標注出這個謂詞的施事、受事胧卤、時間唯绍、地點等參數(shù)。語義角色標注一般都在句法分析的基礎上完成枝誊,句法結構對于語義角色標注的性能至關重要况芒。
1.基于規(guī)則的智能問答
基于規(guī)則的智能問答通常是預先設置了一系列的問答規(guī)則,在用戶輸入一個問題時叶撒,去規(guī)則庫里匹配绝骚,看是否滿足某項規(guī)則,如果滿足了就返回該規(guī)則對應的結果祠够。如規(guī)則庫里設置“*你好*”->“你好把雇簟!”古瓤,那么用戶在輸入“你好”時止剖,機器人會自動返回“你好跋傺簟!”穿香。如果規(guī)則庫非常龐大亭引,達到了海量的級別庫,則可對規(guī)則建立倒排索引扔水,在用戶新輸入一個問題時痛侍,先去倒排索引中查找命中的規(guī)則集合朝氓,再通過這個集合中的規(guī)則進行匹配返回魔市。
使用規(guī)則庫的智能問答優(yōu)點是簡單方便,準確率也較高赵哲;缺點是規(guī)則庫要經(jīng)常維護擴展待德,而且覆蓋的范圍小,不能對新出現(xiàn)的問題進行回答枫夺。
2.基于檢索的智能問答
基于檢索的智能問答很像一個搜索引擎将宪,但又和搜索引擎不同,相比搜索引擎而言橡庞,智能問答更側重于用戶意圖和語義的理解较坛。它基于歷史的問答語料庫構建索引,索引信息包括問題扒最、答案丑勤、問題特征、答案特征等吧趣。用戶問問題時法竞,會將問題到索引庫中匹配,首先進行關鍵字和語義的粗排檢索强挫,召回大量可能符合答案的問答對岔霸;然后通過語義和其他更豐富的算法進行精排計算,返回最好的一個或幾個結果俯渤。