一怔鳖、流程概述
語音交互的完整流程大致為:
喚醒→語音識(shí)別(ASR)→自然語音處理(NLP)→語音合成(TTS)
可以類比為:
打招呼→耳朵→大腦→嘴巴
二摹菠、步驟詳解
1盒卸、喚醒
(1)定義:將設(shè)備從休眠態(tài)變?yōu)楣ぷ鲬B(tài)
(2)喚醒方式:語音或按鍵。語音可設(shè)置喚醒詞次氨,按鍵一般是長按電源鍵0.5s蔽介。
(3)語音喚醒的工作原理:
a. 基于模板匹配:把喚醒詞轉(zhuǎn)換成特征序列,將錄入的語音和特征序列進(jìn)行匹配煮寡,匹配就喚醒虹蓄,否則仍繼續(xù)休眠
b. 基于隱馬爾可夫模型:將喚醒詞和其他音頻分別建立模型,錄入的語音分別傳入兩個(gè)模型幸撕,然后比對模型得分薇组,根據(jù)得分高低比對來決定是否喚醒
c.基于神經(jīng)網(wǎng)絡(luò):取決于是否用到了神經(jīng)網(wǎng)絡(luò)的原理
(4)喚醒詞的設(shè)計(jì)
簡單來說就是:不短不長,不重不難坐儿。解釋一下体箕,喚醒詞應(yīng)該盡量精簡,避免難以記憶挑童,又不能過于短,容易誤喚醒跃须;每個(gè)廠商一般都會(huì)設(shè)計(jì)自己特定的默認(rèn)喚醒詞站叼,其一般會(huì)含有語音助手的名稱,避免和其他廠商重復(fù)菇民。用戶也可以自定義喚醒詞尽楔。
(5)喚醒正確率的衡量指標(biāo)
喚醒率、誤喚醒率第练。
a. 喚醒率常用百分比表示阔馋。模擬用戶的使用場景,多人多次測試娇掏,重復(fù)說喚醒詞呕寝,被成功喚醒的占比就是喚醒率。
b. 誤喚醒率常用24小時(shí)被誤喚醒多少次表示婴梧。模擬用戶的使用場景下梢,多人多次測試,重復(fù)說非喚醒詞塞蹭,被成功喚醒的占比就是誤喚醒率孽江。
2、語音識(shí)別(ASR)
(1)定義:將聲音轉(zhuǎn)化為文字
(2)流程:聲音→數(shù)字向量→文字
http://www.woshipm.com/ai/2620327.html
3番电、自然語音處理(NLP)
(1)定義:用于將用戶的指令轉(zhuǎn)換為結(jié)構(gòu)化的岗屏、機(jī)器可以理解的語言。
(2)處理方式:基于規(guī)則;基于數(shù)據(jù)訓(xùn)練模型
(3)關(guān)鍵詞:技能这刷、意圖婉烟、槽位
http://www.woshipm.com/pmd/827437.html
4、語音合成(TTS)
(1)定義:將文本轉(zhuǎn)換成語音
(2)方法:拼接法崭歧、參數(shù)法
http://www.woshipm.com/pmd/1381081.html
相關(guān)鏈接:
http://www.woshipm.com/pd/4098761.html
http://www.woshipm.com/ai/2620327.html