智能音箱工作全流程

今天(已經(jīng)是兩周前)被問到兩個問題捷沸,答的很不好

1.手機(jī)屏幕亮度自動調(diào)節(jié)功能僚饭,若你是第一個要做這個功能的會怎么做茂腥?亮度調(diào)節(jié)反應(yīng)是瞬間還是延遲
——應(yīng)該從用戶實際使用場景出發(fā)熄浓,包括極端場景括儒〗鞒總之這個問題回答的不好犀暑,沒思路帽揪,迫不及待的請教了對方

2.智能音箱工作全流程戏罢,從語音下達(dá)指令到反饋語音結(jié)果
——這個答的不夠詳細(xì)屋谭,不應(yīng)該√回答問題似乎應(yīng)該掌握個度戴而,不需要把所有知道的東西都講,也不能講的太籠統(tǒng)翩蘸,前提是得了解的足夠有深度才能掌握度所意,至于如何判斷度要把握到什么程度,目前還無法提供很好的方法催首,待修煉扶踊。

下面介紹智能音箱工作全流程

單輪對話,多輪對話郎任,任務(wù)型對話和問答型對話在NLP部分會略有些差異秧耗,以下以任務(wù)型多倫對話為例介紹音箱工作的全過程

一、語音檢測 VAD(voice activity detection)

檢測出音頻信號語音段的起始位置舶治,分離出語音段和非語音段分井,這樣后續(xù)只需處理語音段车猬,減輕后續(xù)處理的計算量

方法:
1、閥值:檢測音頻和噪音的閥值尺锚,比較常用
2珠闰、分類器:機(jī)器學(xué)習(xí)的算法,對語音和非語音進(jìn)行二分類瘫辩。已經(jīng)優(yōu)化的分類法也比較常用
3伏嗜、模型:通過全局信號判斷語音段和非語音段,難以在本地部署伐厌,成本較高承绸,應(yīng)用較少

二、聲學(xué)回聲消除 AEC(Acoustic echo cancellation)

音箱揚(yáng)聲器工作時挣轨,從麥克風(fēng)搜集的語音中军熏,去除自身播放的聲學(xué)信號,這是雙工模式的前提卷扮。(雙工指的是同時進(jìn)行雙向通信羞迷,也就是說音箱在播放的過程中也在進(jìn)行語音檢測,用戶可以打斷音箱說話)

三画饥、去混響

人聲的多次反射,延遲的語音疊加對語音識別是致命的障礙浊猾,去混響就是去掉反射的聲音

方法:
1抖甘、去混響算法
2、對語音識別的聲學(xué)模型加混響訓(xùn)練

四葫慎、判斷是否是喚醒詞

若不是喚醒詞衔彻,則丟棄,若是喚醒詞則繼續(xù)進(jìn)行語音檢測和下面的操作

五偷办、聲源定位 DOA(Direction of Arrival Estimation )

作用:
1艰额、方位燈展示,增強(qiáng)交互效果
2椒涯、作為波束形成的前導(dǎo)任務(wù)

方法:
1柄沮、基于波束掃描的聲源定位
2、基于分辨率率譜估計的聲源定位
3废岂、基于到達(dá)時間差

六祖搓、降噪

提高信噪比,語音增強(qiáng)

方法:
1湖苞、自適應(yīng)LMS
2拯欧、維納濾波算法

繼續(xù)語音識別

七、語音識別 ASR

簡單理解财骨,就是音轉(zhuǎn)字镐作。

圖中的這些技術(shù)和環(huán)節(jié)串起來就是語音識別的框架和結(jié)構(gòu)藏姐。

八、自然語言處理

文本 -> 預(yù)處理(分詞该贾、去停用詞) -> 特征工程 -> 機(jī)器學(xué)習(xí)算法 -> 標(biāo)簽

九羔杨、對話管理

理解語言中的任務(wù),提取意圖和實體

比如靶庙,用戶說“播放毛不易的消愁”

技能:音樂技能

任務(wù):播放歌曲问畅,停止播放,收藏歌曲等等

意圖:播放歌曲六荒,而不是切換歌曲护姆,調(diào)節(jié)音量等等與放歌曲有關(guān)的其他操作

實體:歌手名(毛不易),歌曲名(消愁)

十掏击、調(diào)取第三方控制接口

比如音樂的歌手和歌曲需要從第三方音樂軟件中調(diào)取

十一卵皂、自然語言生成

識別出用戶的意圖和實體后,調(diào)取對應(yīng)的回復(fù)內(nèi)容

十二砚亭、語音合成 TTS

簡單理解就是將回復(fù)的內(nèi)容文字轉(zhuǎn)換成語音

簡單講一下語音合成技術(shù)的引進(jìn)灯变。最早是波形拼接,從每個人的發(fā)音捅膘,你的發(fā)音是什么樣子添祸,然后把這個波形拼接,然后是HMM+GMM的合成寻仗,然后再到神經(jīng)網(wǎng)絡(luò)的參數(shù)合成刃泌,然后WaveNet合成。WaveNet合成的效果非常接近真人錄音的效果署尤,MOS是一個對語音合成的指標(biāo)耙替,產(chǎn)生的聲碼器能夠做到4.2已經(jīng)很好了,真人的錄音效果普遍在4.5曹体,如果做的好在4.5以上俗扇,WaveNet合成看到比較好的效果是在4.52,非常接近真人的錄音效果箕别。

目前語音合成技術(shù)已相當(dāng)成熟铜幽。

應(yīng)用:很多客戶提到,希望有語音的定制化串稀,為什么啥酱?對大型公司來說,如果做一個智能冰箱或者智能硬件厨诸,這個聲音對于他們來說镶殷,跟品牌的logo一樣,希望用戶聽到的聲音微酬,就知道是這個品牌的音響绘趋,或者是這個品牌的應(yīng)用颤陶。不希望跟別人共享。有這種類似的需求陷遮,是很常見的滓走,這個需求對語音合成的技術(shù)也有挑戰(zhàn)。有的廠商可以請到一些明星到錄音棚錄音帽馋,錄音的質(zhì)量決定了合成的效果搅方。之前做語音合成需要到錄音棚錄8個小時音,才能有比較好的效果绽族,現(xiàn)在這個門檻不斷在降低姨涡。

十三、聲紋識別

以上基本是按音箱的實際工作順序講解吧慢,下面補(bǔ)充說一下聲紋識別涛漂,不用聲紋識別也不影響音箱的正常工作。

聲紋識別可以區(qū)分聲音特征检诗,相當(dāng)于更高一級的語音識別

應(yīng)用一:在智能車?yán)锩嬗泻芏嗟墓δ苄枰说陌l(fā)音媒介來控制命令的時候聲紋就很重要匈仗。開一個車門,車上有一個小孩逢慌,突然哭鬧悠轩,下一個不合適的指令,若區(qū)別不出來這個人攻泼,是不合適的哗蜈。或者有一些不當(dāng)?shù)牟僮髯购梢酝ㄟ^聲紋來做,通過聲音來做對人的識別和認(rèn)證的過程炼列。聲紋識別其實在未來的應(yīng)用場景比較熱門只搁,實際應(yīng)用當(dāng)中遇到大的挑戰(zhàn)點是什么?很多其他的生物識別靠人臉或指紋這類比較穩(wěn)定的特征俭尖,可是聲紋不穩(wěn)定氢惋,比如聲音啞了,怎么能夠在變化比較明顯的生物特征上做識別是一個很大的挑戰(zhàn)稽犁。

應(yīng)用二:在傳統(tǒng)的界面交互中焰望,各類產(chǎn)品都強(qiáng)調(diào)千人千面?zhèn)€性化推薦,那在語音交互里面怎么做到個性化推薦呢已亥?聲紋識別熊赖。因為聲紋識別可以判斷人的身份,進(jìn)而實現(xiàn)個性化推薦虑椎。

(比較粗略震鹉,細(xì)節(jié)陸續(xù)填充)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末俱笛,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子传趾,更是在濱河造成了極大的恐慌迎膜,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浆兰,死亡現(xiàn)場離奇詭異磕仅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)簸呈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門榕订,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蝶棋,你說我怎么就攤上這事卸亮。” “怎么了玩裙?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵兼贸,是天一觀的道長。 經(jīng)常有香客問我吃溅,道長溶诞,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任决侈,我火速辦了婚禮螺垢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘赖歌。我一直安慰自己枉圃,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布庐冯。 她就那樣靜靜地躺著孽亲,像睡著了一般。 火紅的嫁衣襯著肌膚如雪展父。 梳的紋絲不亂的頭發(fā)上返劲,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天,我揣著相機(jī)與錄音栖茉,去河邊找鬼篮绿。 笑死,一個胖子當(dāng)著我的面吹牛吕漂,可吹牛的內(nèi)容都是我干的亲配。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼弃榨!你這毒婦竟也來了菩收?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤鲸睛,失蹤者是張志新(化名)和其女友劉穎娜饵,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體官辈,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡箱舞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了拳亿。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晴股。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖肺魁,靈堂內(nèi)的尸體忽然破棺而出电湘,到底是詐尸還是另有隱情,我是刑警寧澤鹅经,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布寂呛,位于F島的核電站,受9級特大地震影響瘾晃,放射性物質(zhì)發(fā)生泄漏贷痪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一蹦误、第九天 我趴在偏房一處隱蔽的房頂上張望劫拢。 院中可真熱鬧,春花似錦强胰、人聲如沸舱沧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽熟吏。三九已至,卻和暖如春涡真,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背肾筐。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工哆料, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吗铐。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓东亦,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子典阵,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容