隨著車載智能硬件的聯(lián)網(wǎng)普及,越來越多的車輛配裝了語音識別功能。目前,在車載系統(tǒng)最重要的功能莫過于車載語音了剖效,個人接觸車載語音功能多年,在這里想給大家分享一下從語音服務(wù)集成方的角度焰盗,如何從零規(guī)劃設(shè)計車載語音的功能,歡迎大家一起交流討論咒林。
首先需要注明的是應(yīng)用軟件功能熬拒,因為語音功能還涉及到嵌入式軟件、硬件設(shè)計和參數(shù)標(biāo)定等問題垫竞,這些都不在本文做介紹澎粟。文中概述信息可能存在時效性問題,以文章發(fā)布時間為準(zhǔn)欢瞪,歡迎指出錯誤之處活烙。
概述——國內(nèi)車載語音市場的同質(zhì)化
車載市場語音技術(shù)方案公司主要有:科大訊飛、Nuance遣鼓、百度啸盏、思必馳、云知聲等等骑祟。由于騰訊的語音服務(wù)在車載領(lǐng)域推廣范圍和力度均較小回懦,因此騰訊的語音服務(wù)在服務(wù)和質(zhì)量上比市場上的主流方案商要差一些,后續(xù)不排除發(fā)力的可能次企。阿里的語音服務(wù)主要應(yīng)用在AliOS怯晕,目前主要量產(chǎn)在榮威車型上。
主流的方案商都會提供以下幾項服務(wù):
語音識別能力——注:乘用車缸棵,車速低于80KM/H舟茶,在密閉空間內(nèi)的識別率都可以保持在95%以上
語音合成能力——注:TTS播報的高擬人化體驗是比較考驗研發(fā)投入情況的,各家的實際體驗效果差別較大
方言口語理解——注:高魯棒性是關(guān)鍵,否則語音功能就是雞肋
語義識別——注:在線服務(wù)整合吧凉,各家的資源服務(wù)整合能力基本相同隧出,稍有差異
多輪對話——注:個別廠家支持特定場景多輪對話,實話說目前的體驗都不是很好
市場競爭激烈客燕,迄今為止沒有一條很明確的商業(yè)模式鸳劳,大家都是處于資本投入的階段。每家功能都在逐漸趨同也搓,也在從純技術(shù)提供商轉(zhuǎn)向技術(shù)平臺化赏廓,通過提供整體解決方案商的角色進(jìn)行轉(zhuǎn)變。
蔚來汽車的NOMI語音助手
車載語音解決方案合作模式
對于開發(fā)能力一般傍妒,定制化要求不高的車載項目幔摸,在接入語音服務(wù)的時候,基本都會采用方案商提供的集成化較高的語音SDK進(jìn)行二次開發(fā)颤练,或是采用服務(wù)商的APK進(jìn)行簡單的定制和適配工作既忆。這樣的好處是可以節(jié)省大量的開發(fā)成本,也可以保證核心語音服務(wù)模塊的質(zhì)量嗦玖。
車內(nèi)搭載語音服務(wù)的智能硬件
智能車機:高度集成的系統(tǒng)平臺患雇,可以更好的支持語音使用場景,讓語音宇挫、系統(tǒng)和車輛三位一體苛吱,產(chǎn)生更好的聯(lián)動效果;
智能后視鏡:一般以后裝形式配裝為主器瘪,相對智能車機來說智能后視鏡的系統(tǒng)稍微輕量化一些翠储,著重把更多的系統(tǒng)資源給到行駛記錄功能,語音功能只會負(fù)責(zé)一些簡單的任務(wù)處理橡疼;
智能HUD:核心資源聚焦駕駛過程中的車輛援所、道路、安全等信息的投射欣除,比較注重視覺呈現(xiàn)的質(zhì)量住拭,語音功能作為一個重要功能輔助操作;
車載音箱伴侶:不管是在車載還是家居音箱上历帚,語音服務(wù)都是音箱產(chǎn)品最核心的功能废酷,而車載音箱更多的是針對車內(nèi)空間的場景,主要聚焦在用戶多輪次的交互對話體驗和車生活服務(wù)的豐富度
流程——核心流程拆解
業(yè)務(wù)架構(gòu)圖
這里面會牽涉到自建TSP平臺抹缕、語音服務(wù)提供商澈蟆、硬件廠商、互聯(lián)網(wǎng)服務(wù)提供商卓研、三方硬件等多方角色趴俘。整個業(yè)務(wù)架構(gòu)是以硬件為載體睹簇,服務(wù)平臺化集成的形式,整體打包后提供給終端車主用戶寥闪。
車主用戶出發(fā)語音操作太惠,主要邏輯點在于判斷自建平臺還是三方平臺,需要對數(shù)據(jù)進(jìn)行篩選疲憋,對應(yīng)的準(zhǔn)備服務(wù)資源凿渊,并執(zhí)行返回結(jié)果。
如果沒有定制化的自建服務(wù)資源平臺的話缚柳,可以對業(yè)務(wù)流程做適當(dāng)?shù)牟眉舭T啵肆鞒虉D僅供大家參考。
車載語音主要分為以下幾個功能模塊秋忙,不含定制語音語義功能彩掐,對業(yè)務(wù)部分已作相應(yīng)裁剪。
01-語音交互
我們都知道灰追,語音啟動的方式主要分為兩種堵幽,界面點擊和語音喚醒。
我們在設(shè)計語音喚醒功能點的時候弹澎,都會在啟動步驟判斷并記錄語音喚醒方式朴下,語音服務(wù)調(diào)起后會呈現(xiàn)提示信息和語音錄取狀態(tài)的反饋,在識別過程的主要會判斷語音錄入是否正常苦蒿,如果是正常的錄入信息則會請求后臺殴胧,并返回對應(yīng)的識別結(jié)果,如果有打斷的情況需要重新開始語音流程刽肠。
02-語義的場景化設(shè)計
車載語音的語義的豐富度,直接影響到語音功能的直接使用體驗免胃。支持的語義少音五,會讓用戶覺得語音功能過于簡單宙彪,未能滿足用戶的場景需求真竖,從而喪失對產(chǎn)品功能的好感度钉凌,放棄使用語音功能憔儿。如何定義用戶滿意度和語義完整度之間的映射關(guān)系磷醋,這需要針對實際工作過程中對于用戶的調(diào)研分析和經(jīng)驗總結(jié)得出需求與產(chǎn)品之間的對應(yīng)關(guān)系屿岂。
車載場景的語義細(xì)分后吴裤,主要分為以下幾個場景——
導(dǎo)航場景
音樂/電臺場景
電話場景
系統(tǒng)控制類
車輛控制類
定制化服務(wù)類
如下圖所示(針對業(yè)務(wù)需求部分已進(jìn)行裁剪處理继蜡,請勿生搬硬套)诗充,可以對相應(yīng)的場景再進(jìn)行進(jìn)一步的細(xì)分苍蔬。當(dāng)然語義的場景非常多,針對車載的場景核心功能場景已覆蓋蝴蜓,更多的場景需要根據(jù)車型的市場客戶需求去進(jìn)行定制化開發(fā)碟绑。我們可以參考馬斯洛需求層次理論俺猿,基于駕駛場景的去分類場景需求,從而來指導(dǎo)我們語義設(shè)計策略格仲。
03-幫助&設(shè)置
幫助:提示的場景主要有2種押袍,第一是在語音喚醒首頁(語音非全局顯示的不推薦),第二是在語音使用失敗或是等待時給出提示信息凯肋,幫助引導(dǎo)用戶正確使用語音功能谊惭。
設(shè)置:這里面主要會對語音的基礎(chǔ)功能使用進(jìn)行設(shè)置操作,比如常用的免喚醒開關(guān)侮东、喚醒詞圈盔、語音的音源邏輯、語音主題包的變更設(shè)置等苗桂。
播報——TTS語音播報
作為與用戶交互流程的最后一步药磺,語音播報的功能可以說是與用戶息息相關(guān)。TTS(Text To Speech)語音播報主要是通過AI技術(shù)把文本信息進(jìn)行智能化合成煤伟,轉(zhuǎn)述成語音信息播報給用戶癌佩,從而給用戶一種智能擬人化的交互體驗。
目前行業(yè)方案的AI合成音更多的是基于錄制的基礎(chǔ)語音素材進(jìn)行二次加工便锨,本質(zhì)上還無法脫離基礎(chǔ)語音素材錄制這個制約條件围辙,所以語音包的種類數(shù)量和質(zhì)量提升都比較慢。因此放案,由于TTS功能在產(chǎn)品設(shè)計上受制于服務(wù)商的綜合能力姚建,所以在產(chǎn)品功能集成上,我們會更加聚焦如何更好的提升語音交互對話的體驗吱殉。
人機對話的主要訴求是信息的交換掸冤,其次是對話在交互體驗上能夠讓用戶感覺到愉悅,最后友雳,在完成整個對話階段稿湿,有良好的引導(dǎo)和錯誤規(guī)避策略,這樣可以保證在滿足用戶需求的時候可以提供更多的賦能押赊,而在無法滿足用戶需求的時候可以通過迂回策略來降低用戶的不良體驗饺藤。
車載語音功能結(jié)語
就目前語音功能整體情況來說,車載語音產(chǎn)品整體的狀態(tài)和表現(xiàn)都不是很成熟流礁,人工智能的應(yīng)用更多的還是停留在初級應(yīng)用的階段涕俗,如何更好的利用AI技術(shù)提升服務(wù)質(zhì)量,如何通過NLP技術(shù)提升多輪次交互體驗神帅,如何更好的豐富平臺內(nèi)容資源再姑,這些都是需要更多的資源投入和大量的時間來慢慢完善的。
本文更多的介紹車載語音軟件的主要功能設(shè)計和使用場景分析找御,主要是想幫助大家更好的認(rèn)識車載語音询刹。如何讓語音功能更有效的提升用戶使用體驗和滿意度谜嫉,則需要針對每個業(yè)務(wù)的實際需求和目標(biāo)用戶群體特征去進(jìn)行更深入的差異化研究和設(shè)計。