一段聲音的旅程(二)頭疼的音頻信號處理
作者:秋半仙删铃,哼哼
上一篇講到了語音產(chǎn)品的五大關鍵環(huán)節(jié)尘分,有興趣的童鞋可以自行回顧一段聲音的旅程(一)語音產(chǎn)品的五大關鍵環(huán)節(jié)排拷。
今天我們來講講這五大關鍵環(huán)節(jié)的第一個膘婶,也就是音頻信號處理缺前。
現(xiàn)在智能設備越來越多,有音箱悬襟、后視鏡衅码、機器人等等,但是語音的效果卻參差不齊脊岳。有些人會把這個問題歸結到“語音供應商”逝段,說這是供應商語音能力不行垛玻,以至于今天很多客戶在做語音引入的時候往往糾結于語音供應商的選擇。從demo的效果上看奶躯,感覺各家供應商的產(chǎn)品都是這樣的——
可一旦做到設備端里帚桩,出來的效果卻是這樣的——
其實對于語音落地到各種多端設備來說,最難的并不是語音和語義本身巫糙,最難的環(huán)節(jié)就是“音頻信號處理”朗儒,信號處理出來的音頻數(shù)據(jù)的好與壞,直接影響最終語音的識別效果参淹,而語音的識別效果又直接影響語義的理解結果醉锄,這些都是環(huán)環(huán)相扣的。這就好比你家沒買好學區(qū)房浙值,你娃就很可能上不了好小學恳不,上不了好小學就可能上不了好中學,上不了好中學就可能上不了好大學开呐,上不了好大學你娃就很可能變成一個啥也干不了只會摳腳啃老的巨嬰烟勋,是不是想想就好怕怕???????(又一不小心暴露了本半仙中年危機買不起房的屌絲心理)
既然買學區(qū)房筐付,哦不卵惦,既然音頻信號處理這么重要,本半仙掐指一算瓦戚,和本半仙一樣愛學習的童鞋一定偷偷上網(wǎng)搜索了一下“信號處理”沮尿,一定看到一大堆的原理圖、公式较解、代碼畜疾,也一定覺得非常的痛苦,完全不知道從何入手……
來來來印衔,不要著急啡捶,本半仙早就給各位童鞋算好了出路。學習一個完全不在我們知識體系中的知識奸焙,我一般建議從兩個方面著手瞎暑,一個是學以致用,也就是從“用”這個目的出發(fā)与帆,可以有針對性地有目的性的快速使用知識了赌;另一個是類比想象,將陌生的東西類比到自己熟悉的東西上鲤桥,從而降維理解,在認知層面快速理解知識渠概;因為我們不需要去真正實現(xiàn)這些東西茶凳,自然我們也就不需要逼著自己去看那些不知道對錯的公式嫂拴,特別是藝術設計類畢業(yè)的同學。
“信號處理”作為每次語音體驗的開始環(huán)節(jié)贮喧,直接影響了每次語音體驗筒狠。之所以希望產(chǎn)品人員去了解“信號處理”,是希望他們可以去真正了解那些影響語音產(chǎn)品體驗的關鍵因素到底有哪些箱沦,以及每種情況對于產(chǎn)品體驗的影響到底有多大辩恼,從而在產(chǎn)品設計初期,擴展思維谓形,合理創(chuàng)新灶伊。在前期,能夠幫助團隊有效規(guī)避一些前期風險寒跳;在中后期時聘萨,能夠幫助及協(xié)調團隊正確應對和解決問題~
“人”負責”聽清楚“這個環(huán)節(jié)的是”耳朵“,我們可以回憶生活中關于”人耳“的”聽清楚“的一些具體例子童太,比如:
1米辐、堵住一只耳,只用一只耳聽的時候會有什么問題书释?是不是感覺有點區(qū)分不出聲音的具體位置翘贮?
2、如果隔壁在裝修爆惧,電鉆打得整個房間都在震狸页,你在看電視,想聽清楚電視里的聲音检激,是不是會很困難肴捉?同樣,課堂上大家都在說話叔收,想聽清楚老師講課的內容是不是也很困難齿穗?
3、如果一個人感冒了饺律,聲音變得很含糊窃页,或者一個性子很急思維很快的人,語速超級快复濒,要聽清楚是不是也會很吃力脖卖?(此處心疼遇到語速快的演講者的口譯員三秒鐘)……
圖片源自網(wǎng)絡
這里引入兩個方法論,“黑箱理論”和“黑箱方法”:
1巧颈、“黑箱理論”畦木。所謂“黑箱”,就是指那些既不能打開砸泛,又不能從外部直接觀察其內部狀態(tài)的系統(tǒng)十籍,比如人們的大腦只能通過信息的輸入輸出來確定其結構和參數(shù)蛆封。
2、“黑箱方法”勾栗。黑箱是我們未知的世界惨篱,也是我們要探知的世界。我們只能在不直接影響原有客體黑箱內部結構围俘、?要素和機制的前提下通過觀察黑箱中“輸入”砸讳、“輸出”的變量,得出關于黑箱內部情況的推理界牡,尋找簿寂、發(fā)現(xiàn)其內部?規(guī)律,實現(xiàn)對黑箱的控制欢揖。“黑箱方法”從綜合的角度為人們提供了一條認識事物的重要途徑陶耍,尤其對某些內部結構比較復雜的系統(tǒng)。對迄今為止人們的力量尚不能分解的系統(tǒng)她混,“黑箱理論”提供的研究方法是非常有效的烈钞。
簡單來說,就是把一個事物看成是一個既不能打開坤按,也不能觀察內部運作的“黑箱”毯欣。我們通過在外圍觀察,來對這個黑箱的“輸入”臭脓、“輸出”進行思考和推理酗钞,找尋規(guī)律;注意其目的是找規(guī)律来累。我們需要深入去思考砚作,輸入具體包含什么,輸出具體包含什么嘹锁,從而得到自己想得到的規(guī)律葫录。如果再延伸得復雜一點,黑箱本身也在演進领猾,所以米同,更深層次的目的則是從中發(fā)現(xiàn)規(guī)律演變的規(guī)律。
看到這兒各位童鞋是不是覺得有點暈摔竿?暈就對了面粮!但是我們回憶一下,在以前還沒有準確便捷的天氣預報的時候继低,每當我們看到燕子低旋熬苍、螞蟻搬家、魚兒出水袁翁、蜻蜓低飛等等便知道過不了多久就要下雨柴底∏酰“天象”就像一個“黑箱”,我們并不知道為什么會下雨似枕,但是秋半仙和各位的祖先們通過不斷的觀察和總結,理出了一些規(guī)律年柠≡浼撸“下雨”這個“黑箱”,在下雨前會有一些“輸出”冗恨,這些輸出表現(xiàn)出來就是“燕子低旋”答憔、“螞蟻搬家”、“魚兒出水”掀抹、“蜻蜓低飛”虐拓;祖先們還沒有現(xiàn)代的認知水平,對于“下雨”的現(xiàn)象還無法解釋傲武,于是秋半仙的祖宗秋大神開始給他的后代秋大仙編蓉驹,哦不,是傳授各種神話故事揪利。慢慢地秋大仙的認知開始不斷提升态兴,開始懂得“水汽”、“冷凝”等等知識之后疟位,慢慢地解開了“黑箱”的未知瞻润,也認識到秋大神所說的“神話故事”純屬扯淡,其實背后包含了“科學”的“自然現(xiàn)象”甜刻。于是秋大仙又把這個結論傳授給了秋半仙(誒绍撞,怎么感覺我家祖祖輩輩越混越差…… Anyway,本半仙有的時候在想得院,如果未來我的娃秋小仙進化到一個新的認知高度傻铣,會不會回過頭推翻他老子認知中的“科學”呢?呵呵~)
前面舉的例子中尿招,我們可以把人耳整體看作一個黑箱矾柜,那么實驗能夠告訴我們,耳朵的工作方式里就谜,兩只耳朵相互輔助能夠有效辨識聲源的位置怪蔑;環(huán)境的噪音會極大干擾我們耳朵提取聲源內容的效果;聲源自身的狀態(tài)也會極大影響我們耳朵提取內容的效果……
那么這些生活中的觀察丧荐,在讓我們頭疼的“信號處理”中會帶來什么啟發(fā)呢缆瓣?同樣把“信號處理”當成一個“黑箱”,我們可以通過大量實驗去理解這個“黑箱”的運作規(guī)律虹统,揚長避短弓坞,并將其最大的潛力運用到極致隧甚,給用戶帶來最極致的體驗《啥常或許戚扳,這就是今天“產(chǎn)品”的職責和價值所在吧。
以上是本大仙在研究和學習“信號處理”時的思維方法族吻,希望能夠幫助大家更好地去“發(fā)現(xiàn)規(guī)律”帽借。接下來,本大仙將把過去信號處理方面的經(jīng)驗超歌,梳理總結為“五大不安因素”砍艾,幫助大家縮短在信號處理上“發(fā)現(xiàn)規(guī)律”的從0到1的時間。
恩巍举,啥也別說了脆荷,點贊吧!