語音交互是什么沪么?
語音交互是指人類通過自然語言與計(jì)算機(jī)發(fā)生交互的過程;縱觀人類與機(jī)器的交互歷史:
人——>機(jī)器指令——>機(jī)器
人——>計(jì)算機(jī)高級(jí)語言——>機(jī)器
人——>GUI——>機(jī)器
人——>CUI——>機(jī)器
隨著技術(shù)進(jìn)步,人類通過越來越抽象的技術(shù)黑箱實(shí)現(xiàn)技術(shù)的普及應(yīng)用,在這個(gè)過程中嚣鄙,人需要的學(xué)習(xí)成本越來越少放祟,每一次進(jìn)步都會(huì)解放人的生產(chǎn)效率鳍怨;這樣來看語音必然會(huì)是下個(gè)交互時(shí)代的主流。
語音交互過程
語音識(shí)別(ASR):將語音轉(zhuǎn)化為語言文本的過程
技術(shù)實(shí)現(xiàn)
1、輸入:輸入需要識(shí)別的語音
2眉撵、編碼:將語音提取為特征向量
3侦香、解碼:將特征向量通過聲學(xué)模型轉(zhuǎn)化為無邏輯的字母/漢字,再將其通過語言模型轉(zhuǎn)化為正確的文本
4纽疟、輸出:將文本結(jié)果輸出
商業(yè)應(yīng)用
語音激活
語音識(shí)別不可能時(shí)時(shí)刻刻在聽著周圍的聲音罐韩,判斷哪些聲音要去識(shí)別;通常有兩種場(chǎng)景 ? ? ? ? ? 1污朽、近場(chǎng):通過點(diǎn)擊按鈕開始說話散吵,松開按鈕結(jié)束;這種情況下按鈕就起到了激活作用 ? ? ? ? ? ? ? 2蟆肆、遠(yuǎn)場(chǎng):有一定距離矾睦,不會(huì)通過手動(dòng)來進(jìn)行輸入;由于環(huán)境影響炎功,我們需要語音激活系統(tǒng)識(shí)別出有效語音顷锰,屏蔽無效語音;
遠(yuǎn)場(chǎng)識(shí)別
喚醒詞:遠(yuǎn)場(chǎng)環(huán)境中亡问,由于環(huán)境中本身就存在人與人的對(duì)話,所以我們需要一個(gè)識(shí)別詞來讓機(jī)器參與對(duì)話肛宋,不然突然出現(xiàn)的機(jī)器聲會(huì)顯得很智障州藕。比如:嘿,siri酝陈;一個(gè)好的喚醒詞有助于機(jī)器識(shí)別的準(zhǔn)確性床玻;
打斷:總會(huì)有用戶要結(jié)束對(duì)話的場(chǎng)景;機(jī)器不停的說著你不想要的東西還是很尷尬的
嘈雜環(huán)境的識(shí)別:環(huán)境噪音對(duì)語音識(shí)別的限制很大沉帮,在信噪比比較低的環(huán)境锈死,讓機(jī)器正常識(shí)別是一個(gè)重要的指標(biāo);通常采用麥克風(fēng)陣列結(jié)合算法將語音提煉出來穆壕;
語音糾錯(cuò)
有時(shí)識(shí)別出的語音難免會(huì)有錯(cuò)誤待牵,諧音字、語義模糊等喇勋;都要通過場(chǎng)景和用戶數(shù)據(jù)進(jìn)行糾錯(cuò)
自然語言處理(NLP)
是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科缨该;目的是為了讓計(jì)算機(jī)理解并且生成人類的語言;(有點(diǎn)復(fù)雜川背,以后學(xué)習(xí))
語音合成(TTS):將文本用人聲說出來出來
過程
文本處理:文本轉(zhuǎn)化成音素序列贰拿,并標(biāo)出每個(gè)音素的起止時(shí)間蛤袒、頻率變化等信息;比如拼寫相同但讀音不同的詞的區(qū)分膨更、縮寫的處理妙真、停頓位置的確定,等等
語音合成:以語音庫為基礎(chǔ)荚守,根據(jù)音素序列(以及標(biāo)注好的起止時(shí)間珍德、頻率變化等信息)生成語音;大致分為參數(shù)法健蕊、拼接法菱阵、聲道模擬法
商業(yè)應(yīng)用
從應(yīng)用上來講屬于驚喜類需求;市場(chǎng)上大多數(shù)助手類語音都是冷冰冰的機(jī)器聲缩功;聽著很怪晴及;其實(shí),為什么我們不愿意在公共場(chǎng)合用語音有一部分原因就是你聽到的聲音很怪(另外就是機(jī)器理解效率了)嫡锌,心里會(huì)覺著不是和人在說話虑稼;人就會(huì)感到尷尬,而相應(yīng)的大街上人們打電話卻并不會(huì)覺著尷尬