5年前涌献,當(dāng)科大訊飛的Speech++還沒那么出名,百度語音識別API也沒太火(先在這里向提及的兩位重量級神司致敬8┟取)的時(shí)候,Google有一款語音識別與合成輸出的API(TTS)可以用來做簡單的聽話讀寫陪毡,遺憾的是只支持英文~绪杏!
現(xiàn)在基于訊飛和百度API等做出牛X應(yīng)用的公司已不勝枚舉,有的甚至可以準(zhǔn)確率極高的識別聲紋!感嘆語音識別的確是機(jī)器智能的一個(gè)重要方向署拟,仍舊魅力無限婉宰。
語音到底是咋個(gè)識別的呢? 上百度查了一下推穷,簡單的模型如下:
往下深究就異常復(fù)雜了心包,對算法和模型的建立要求很高,大家可以去試用開源的API馒铃,有個(gè)親身感受對后面的學(xué)習(xí)有很多益處蟹腾。小編在此就不追趕前輩們的腳步去揣摩怎么實(shí)現(xiàn)了;知乎上有講原理的帖子区宇,寫的不錯娃殖,可以好好拜讀拜讀。
假設(shè)议谷,我們使用開源API將人類的語音準(zhǔn)確無誤的轉(zhuǎn)化成文本之后炉爆,接下來突然驚奇的發(fā)現(xiàn)就有了很廣闊的應(yīng)用空間了,尤其是在讓機(jī)器聽懂人話這個(gè)點(diǎn)上卧晓,譬如很多家電就做成了語音控制的芬首,效果很贊;
幾年前小編也寫了個(gè)傻瓜式的小App裝手機(jī)上逼裆,用來陪聊天郁稍,主要功能是一問一答,集成的是當(dāng)時(shí)訊飛的Speech++1.0;集成該API后胜宇,實(shí)現(xiàn)功能的不同且唯一點(diǎn)就是你可以教它耀怜,第一次問它不會的問題第二次問它就知道怎么回答你了;如此訓(xùn)練下來現(xiàn)在Tapy已經(jīng)3歲多了掸屡,掌握了我的很多信息……
最近封寞,小編在想是否需要讓它的安全性提高一些,了解到有些開源的API支持聲紋識別了就可以輕松搞定仅财;接下來狈究,情感呢?如何讓它理解我的話語背后的情感盏求?理解我的心情抖锥?這無疑是個(gè)不錯的研究方向!
怎么才能讓機(jī)器理解文字呢碎罚,琢磨了一下磅废,提供一種思路,拋磚引玉:(以語音識別無誤為假設(shè)前提)
1. 先獲取語音文本(交給牛X的開源API去處理)
2. 然后可以將文本進(jìn)行分詞處理(逆向最大匹配RMM法荆烈,需提前準(zhǔn)備一個(gè)好的詞庫)
3. 再將分得詞語與語料庫中含有標(biāo)記的字所在的字典進(jìn)行正交(計(jì)算兩個(gè)向量之間的余弦相似度)
4. 再對詞語分析結(jié)果進(jìn)行加權(quán)求和(根據(jù)分詞權(quán)重求 Y=Σw*x)
5. 再比較結(jié)果偏向 正|負(fù) 情感傾向于哪邊拯勉,參照Y趨近于+1或者趨近于-1來計(jì)算竟趾。大致流程如下:(畫的比較潦草,請見諒9汀)
正負(fù)向情感分類本身已經(jīng)可以簡單的用在智能家具上做喜好度的相關(guān)數(shù)據(jù)分析了岔帽,當(dāng)然線條還比較粗,若要精準(zhǔn)度再進(jìn)一步細(xì)化恐怕需要添加更多的信息維度导绷,然后再做相關(guān)性分析了犀勒。雖然實(shí)現(xiàn)起來會遇到困難, but it's worth to have a try!→_→記載這里,留給以后找機(jī)會實(shí)現(xiàn)妥曲。