AI時代的到來籽孙,增強了硬件產(chǎn)品的人機(jī)交互、語音交互以及AR火俄、VR交互犯建。語音交互是交互方式在智能領(lǐng)域的一種探索。語音交互區(qū)別與界面交互在越來越多的場景應(yīng)用瓜客,有聲閱讀适瓦、語言搜索、在線客服谱仪、智能家居玻熙、智能機(jī)器人、語音助手疯攒、可穿戴設(shè)備嗦随、語音翻譯等。
目前的語音技術(shù)能力主要包含了四個方面:語音喚醒敬尺、語音識別枚尼、語音理解和語音合成
語音喚醒
語音喚醒指在待機(jī)的狀態(tài)下贴浙,用戶說出特定指令(喚醒詞)使設(shè)備進(jìn)入工作狀態(tài)或完成某一操作;當(dāng)前更多應(yīng)用于手機(jī)姑原、可穿戴設(shè)備悬而、車載設(shè)備、智能家居等锭汛。
1笨奠、常見兩種喚醒方式:“一呼一答”和“喚醒詞+命令詞”;即多輪對話(一次喚醒唤殴、一個任務(wù)般婆、多輪交互)和連續(xù)對話(一次喚醒、多個任務(wù)朵逝,無需喚醒)
2蔚袍、喚醒詞設(shè)計原則:易喚醒、低誤喚醒 配名、品牌性啤咽、易記易讀性
3、華為和蘋果手機(jī)語言助手喚醒交互:
· 手機(jī)的語音助手都是基于特定的人識別渠脉,非用戶本人無法用同樣的喚醒詞喚醒手機(jī)語音指令宇整,
· 采取的喚醒方式均為“一呼一答”
· 喚醒詞設(shè)計,華為的“我的榮耀”基于品牌調(diào)性芋膘,但易讀性不強
· 在語音交互過程中鳞青,用問答的方式給到用戶強反饋,單純的鈴聲不足以引起用戶觸達(dá)为朋,通常情況下用戶使用語音是在不方便查看手機(jī)或者有其他干擾的情況下的习寸。
語音識別
語音識別技術(shù)童番,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入根蟹,例如按鍵简逮、二進(jìn)制編碼或者字符序列散庶。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容皿渗。
1、語音識別包括兩個階段:訓(xùn)練和識別诀拭。
訓(xùn)練階段:收集大量的語音語料细卧,經(jīng)過預(yù)處理和特征提取后得到特征矢量參數(shù)蜘犁,最后通過特征建模達(dá)到建立訓(xùn)練語音的參考模型庫的目的。
識別階段:將輸入語音的特征矢量參數(shù)和參考模型庫中的參考模型 進(jìn)行相似性度量比較,把相似性最高的輸入特征矢量作為識別結(jié)果輸出鹰晨。
2、語音識別對象:特定人識別(手機(jī)語音助手闯传,設(shè)定只識別手機(jī)用戶個人的聲音)、非特定人識別(語音搜索,識別搜索詞)骄呼。
特定人識別是指識別對象為專門的人澄峰,非特定人識別是指識別對象是針對大多數(shù)用戶绸硕,一般需要采集多個人的語音進(jìn)行錄音和訓(xùn)練,經(jīng)過學(xué)習(xí),達(dá)到較高的識別率。
3、基于現(xiàn)有技術(shù)開發(fā)嵌入式語音交互系統(tǒng)狡耻,目前主要有兩種方式:
一種是直接在嵌入式處理器中調(diào)用語音開發(fā)包郊霎;另一種是嵌入式處理器外圍擴(kuò)展語音芯片。第一種方法程序量大,計算復(fù)雜骡苞,需要占用大量的處理器資源垂蜗,開發(fā)周期長;
第二種方法相對簡單解幽,只需要關(guān)注語音芯片的接口部分與微處理器相連贴见,結(jié)構(gòu)簡單,搭建方便躲株,微處理器的計算負(fù)擔(dān)大大降低片部,增強了可靠性,縮短了開發(fā)周期霜定。
語音理解
語義理解是指機(jī)器能夠結(jié)合上下文档悠,自然地理解用戶的需求,并能給出正確以及人性化的反饋望浩。
語音合成
語音合成是通過機(jī)械的站粟,電子的方法產(chǎn)生人造語音技術(shù)。語音合成的關(guān)鍵點是真人音色模擬曾雕,一致性、流暢性助被、穩(wěn)定和有情感剖张。
語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù)揩环,能將任意文字信息實時轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來搔弄,相當(dāng)于給機(jī)器裝上了人工嘴巴。它涉及聲學(xué)丰滑、語言學(xué)顾犹、數(shù)字信號處理倒庵、計算機(jī)科學(xué)等多個學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項前沿技術(shù)炫刷,解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息擎宝,也即讓機(jī)器像人一樣開口說話。
TTS結(jié)構(gòu)
語言處理
在文語轉(zhuǎn)換系統(tǒng)中起著重要的作用浑玛,主要模擬人對自然語言的理解過程——文本規(guī)整绍申、詞的切分、語法分析和語義分析顾彰,使計算機(jī)對輸入的文本能完全理解极阅,并給出后兩部分所需要的各種發(fā)音提示。
韻律處理
為合成語音規(guī)劃出音段特征涨享,如音高筋搏、音長和音強等,使合成語音能正確表達(dá)語意厕隧,聽起來更加自然奔脐。
聲學(xué)處理
根據(jù)前兩部分處理結(jié)果的要求輸出語音,即合成語音栏账。
相關(guān)閱讀: