今天(已經(jīng)是兩周前)被問到兩個問題捷沸,答的很不好
1.手機(jī)屏幕亮度自動調(diào)節(jié)功能僚饭,若你是第一個要做這個功能的會怎么做茂腥?亮度調(diào)節(jié)反應(yīng)是瞬間還是延遲
——應(yīng)該從用戶實際使用場景出發(fā)熄浓,包括極端場景括儒〗鞒總之這個問題回答的不好犀暑,沒思路帽揪,迫不及待的請教了對方
2.智能音箱工作全流程戏罢,從語音下達(dá)指令到反饋語音結(jié)果
——這個答的不夠詳細(xì)屋谭,不應(yīng)該√回答問題似乎應(yīng)該掌握個度戴而,不需要把所有知道的東西都講,也不能講的太籠統(tǒng)翩蘸,前提是得了解的足夠有深度才能掌握度所意,至于如何判斷度要把握到什么程度,目前還無法提供很好的方法催首,待修煉扶踊。
下面介紹智能音箱工作全流程
單輪對話,多輪對話郎任,任務(wù)型對話和問答型對話在NLP部分會略有些差異秧耗,以下以任務(wù)型多倫對話為例介紹音箱工作的全過程
一、語音檢測 VAD(voice activity detection)
檢測出音頻信號語音段的起始位置舶治,分離出語音段和非語音段分井,這樣后續(xù)只需處理語音段车猬,減輕后續(xù)處理的計算量
方法:
1、閥值:檢測音頻和噪音的閥值尺锚,比較常用
2珠闰、分類器:機(jī)器學(xué)習(xí)的算法,對語音和非語音進(jìn)行二分類瘫辩。已經(jīng)優(yōu)化的分類法也比較常用
3伏嗜、模型:通過全局信號判斷語音段和非語音段,難以在本地部署伐厌,成本較高承绸,應(yīng)用較少
二、聲學(xué)回聲消除 AEC(Acoustic echo cancellation)
音箱揚(yáng)聲器工作時挣轨,從麥克風(fēng)搜集的語音中军熏,去除自身播放的聲學(xué)信號,這是雙工模式的前提卷扮。(雙工指的是同時進(jìn)行雙向通信羞迷,也就是說音箱在播放的過程中也在進(jìn)行語音檢測,用戶可以打斷音箱說話)
三画饥、去混響
人聲的多次反射,延遲的語音疊加對語音識別是致命的障礙浊猾,去混響就是去掉反射的聲音
方法:
1抖甘、去混響算法
2、對語音識別的聲學(xué)模型加混響訓(xùn)練
四葫慎、判斷是否是喚醒詞
若不是喚醒詞衔彻,則丟棄,若是喚醒詞則繼續(xù)進(jìn)行語音檢測和下面的操作
五偷办、聲源定位 DOA(Direction of Arrival Estimation )
作用:
1艰额、方位燈展示,增強(qiáng)交互效果
2椒涯、作為波束形成的前導(dǎo)任務(wù)
方法:
1柄沮、基于波束掃描的聲源定位
2、基于分辨率率譜估計的聲源定位
3废岂、基于到達(dá)時間差
六祖搓、降噪
提高信噪比,語音增強(qiáng)
方法:
1湖苞、自適應(yīng)LMS
2拯欧、維納濾波算法
繼續(xù)語音識別
七、語音識別 ASR
簡單理解财骨,就是音轉(zhuǎn)字镐作。
圖中的這些技術(shù)和環(huán)節(jié)串起來就是語音識別的框架和結(jié)構(gòu)藏姐。
八、自然語言處理
文本 -> 預(yù)處理(分詞该贾、去停用詞) -> 特征工程 -> 機(jī)器學(xué)習(xí)算法 -> 標(biāo)簽
九羔杨、對話管理
理解語言中的任務(wù),提取意圖和實體
比如靶庙,用戶說“播放毛不易的消愁”
技能:音樂技能
任務(wù):播放歌曲问畅,停止播放,收藏歌曲等等
意圖:播放歌曲六荒,而不是切換歌曲护姆,調(diào)節(jié)音量等等與放歌曲有關(guān)的其他操作
實體:歌手名(毛不易),歌曲名(消愁)
十掏击、調(diào)取第三方控制接口
比如音樂的歌手和歌曲需要從第三方音樂軟件中調(diào)取
十一卵皂、自然語言生成
識別出用戶的意圖和實體后,調(diào)取對應(yīng)的回復(fù)內(nèi)容
十二砚亭、語音合成 TTS
簡單理解就是將回復(fù)的內(nèi)容文字轉(zhuǎn)換成語音
簡單講一下語音合成技術(shù)的引進(jìn)灯变。最早是波形拼接,從每個人的發(fā)音捅膘,你的發(fā)音是什么樣子添祸,然后把這個波形拼接,然后是HMM+GMM的合成寻仗,然后再到神經(jīng)網(wǎng)絡(luò)的參數(shù)合成刃泌,然后WaveNet合成。WaveNet合成的效果非常接近真人錄音的效果署尤,MOS是一個對語音合成的指標(biāo)耙替,產(chǎn)生的聲碼器能夠做到4.2已經(jīng)很好了,真人的錄音效果普遍在4.5曹体,如果做的好在4.5以上俗扇,WaveNet合成看到比較好的效果是在4.52,非常接近真人的錄音效果箕别。
目前語音合成技術(shù)已相當(dāng)成熟铜幽。
應(yīng)用:很多客戶提到,希望有語音的定制化串稀,為什么啥酱?對大型公司來說,如果做一個智能冰箱或者智能硬件厨诸,這個聲音對于他們來說镶殷,跟品牌的logo一樣,希望用戶聽到的聲音微酬,就知道是這個品牌的音響绘趋,或者是這個品牌的應(yīng)用颤陶。不希望跟別人共享。有這種類似的需求陷遮,是很常見的滓走,這個需求對語音合成的技術(shù)也有挑戰(zhàn)。有的廠商可以請到一些明星到錄音棚錄音帽馋,錄音的質(zhì)量決定了合成的效果搅方。之前做語音合成需要到錄音棚錄8個小時音,才能有比較好的效果绽族,現(xiàn)在這個門檻不斷在降低姨涡。
十三、聲紋識別
以上基本是按音箱的實際工作順序講解吧慢,下面補(bǔ)充說一下聲紋識別涛漂,不用聲紋識別也不影響音箱的正常工作。
聲紋識別可以區(qū)分聲音特征检诗,相當(dāng)于更高一級的語音識別
應(yīng)用一:在智能車?yán)锩嬗泻芏嗟墓δ苄枰说陌l(fā)音媒介來控制命令的時候聲紋就很重要匈仗。開一個車門,車上有一個小孩逢慌,突然哭鬧悠轩,下一個不合適的指令,若區(qū)別不出來這個人攻泼,是不合適的哗蜈。或者有一些不當(dāng)?shù)牟僮髯购梢酝ㄟ^聲紋來做,通過聲音來做對人的識別和認(rèn)證的過程炼列。聲紋識別其實在未來的應(yīng)用場景比較熱門只搁,實際應(yīng)用當(dāng)中遇到大的挑戰(zhàn)點是什么?很多其他的生物識別靠人臉或指紋這類比較穩(wěn)定的特征俭尖,可是聲紋不穩(wěn)定氢惋,比如聲音啞了,怎么能夠在變化比較明顯的生物特征上做識別是一個很大的挑戰(zhàn)稽犁。
應(yīng)用二:在傳統(tǒng)的界面交互中焰望,各類產(chǎn)品都強(qiáng)調(diào)千人千面?zhèn)€性化推薦,那在語音交互里面怎么做到個性化推薦呢已亥?聲紋識別熊赖。因為聲紋識別可以判斷人的身份,進(jìn)而實現(xiàn)個性化推薦虑椎。
(比較粗略震鹉,細(xì)節(jié)陸續(xù)填充)