摘要:? ?為了在保證音頻質(zhì)量的前提下提高音頻編碼的壓縮率榨惠,不同的音頻編碼器基于人的發(fā)音模型與感知模型實(shí)現(xiàn)了各自的編碼算法吹散。本文會(huì)介紹幾種音頻編碼器背后的聲學(xué)原理,讓大家對(duì)音頻編碼有一個(gè)整體的認(rèn)識(shí)佑颇。
1牺氨、G711(PCMA/PCMU)
1.1 非均勻量化
人類能忍受的最大聲音(120dB 聲壓級(jí))的幅度是最微弱聲音(0dB 聲壓級(jí))的100萬倍狡耻,然而,耳朵不能區(qū)別差別小于1dB的聲音猴凹。
人耳只能感受到120個(gè)不同的聲壓級(jí)別夷狰,其在100萬幅度范圍內(nèi)呈對(duì)數(shù)分布。換句話說郊霎,響度與聲音幅度的關(guān)系是非線性的沼头。利用人耳的這個(gè)聽覺特性,可以對(duì)聲音幅度進(jìn)行非均勻量化书劝,如果采用均勻量化进倍,每個(gè)采樣需要用12bit才能達(dá)到電話語音質(zhì)量,采用非均勻量化购对,只需要8bit猾昆。
1.2 G711
PCMA采用A定律實(shí)現(xiàn)非均勻量化,PCMU采用μ定律洞斯。如圖1所示毡庆,兩者的曲線幾乎完全相同。從圖中可以直觀地看到烙如,對(duì)于幅度小的信號(hào)么抗,量化間距較小,對(duì)于幅度大的信號(hào)亚铁,量化間距較大(因?yàn)閷?duì)于幅度大的信號(hào)蝇刀,輕微的幅度變化人耳并不能識(shí)別)。
2徘溢、MPEG-1 音頻編碼
2.1 聽閾
能夠被聽到的最低級(jí)別的聲音定義為聽閾吞琐,能夠?qū)θ说穆犛X結(jié)構(gòu)引起痛苦和傷害的聲音級(jí)別定義為痛閾。
圖2的橫坐標(biāo)為頻率范圍(20-20kHz)然爆,縱坐標(biāo)為聲壓級(jí)站粟。從圖2可以看出人的聽閾隨著頻率的變化而變化,最敏感的頻率為3000-3500Hz曾雕,最不敏感的低頻端在20Hz奴烙,最不敏感的高頻段在20000Hz。
2.2 掩蔽效應(yīng)
掩蔽是一些聲音在另一些聲音存在的情況下,變得不被人們區(qū)別甚至不能被人們聽見的現(xiàn)象切诀。譬如在機(jī)場(chǎng)候機(jī)室要仔細(xì)去聽公告揩环,就是公告聲音被掩蔽在了背景聲音下。
如圖3所示幅虑,被掩蔽信號(hào)(Masked Sound)頻率為160Hz丰滑,聲壓級(jí)為39dB,在安靜環(huán)境下倒庵,該信號(hào)能被感知到褒墨,因?yàn)樗穆晧阂呀?jīng)超過聽閾;當(dāng)頻率為250Hz擎宝、聲壓級(jí)為66dB的掩蔽信號(hào)(Masker)存在時(shí)貌亭,掩蔽信號(hào)引起聽閾移位,被掩蔽信號(hào)聲壓級(jí)低于聽閾认臊,導(dǎo)致該信號(hào)無法被感知圃庭。
聲音在時(shí)域也存在掩蔽效應(yīng),聲音的時(shí)域掩蔽是指一個(gè)瞬時(shí)聲音使其前面或后面的聲音變得不能被人聽見的現(xiàn)象失晴。
這種掩蔽造成的效應(yīng)是剧腻,在掩蔽聲音前面和后面的聲壓級(jí)都以指數(shù)下降。
2.3 MPEG-1 音頻編碼
MPEG-1是ISO的音頻編碼標(biāo)準(zhǔn)涂屁,一共有三層(Ⅰ书在、Ⅱ、Ⅲ)拆又,高層的編碼復(fù)雜度比低層高儒旬,編碼質(zhì)量也更好,MPEG-1第三層就是MP3編碼器帖族。
MPEG-1是一種頻域編碼器栈源,信號(hào)經(jīng)過一組(M=32)帶通濾波器后產(chǎn)生32個(gè)子帶信號(hào)。使用合成濾波器組可將這些子帶信號(hào)合成為幾乎與原始信號(hào)相同的信號(hào)竖般。
32個(gè)子帶的帶寬相等甚垦。譬如對(duì)于采樣率為44.1kHz的信號(hào),對(duì)應(yīng)奈奎斯特頻率為22.05kHz涣雕,每個(gè)子帶的帶寬為22050/32=689Hz艰亮,那么第一個(gè)子帶的帶寬范圍為0-689Hz,第二個(gè)子帶的帶寬范圍為689-1378Hz挣郭,依此類推迄埃。
信號(hào)經(jīng)過短時(shí)傅里葉變換轉(zhuǎn)到頻域后,根據(jù)感知模型計(jì)算掩蔽音兑障。如圖7所示侄非,實(shí)線為頻域下的音頻信號(hào)伶棒,o與x的標(biāo)記代表計(jì)算得出的掩蔽音。
根據(jù)遮蔽音計(jì)算移位后的聽閾彩库,如圖8所示,虛線為全局聽閾先蒋。
聽閾可以指導(dǎo)頻譜的量化骇钦。如圖9所示,聲壓級(jí)在聽閾以下的成分可以置為0而不會(huì)對(duì)聲音感知造成影響竞漾。我們知道在量化時(shí)會(huì)引入一個(gè)±1/2LSB(最低有效位)以內(nèi)的量化噪聲眯搭,量化步長(zhǎng)(quantization step size)越大,壓縮率越高业岁,引入的量化噪聲也越大鳞仙。通過保證量化噪聲不超過全局聽閾,就可以選擇一個(gè)盡可能大的量化步長(zhǎng)笔时,而不會(huì)影響音質(zhì)棍好。
參考文獻(xiàn)
[1] Steven W.Smith.Digital Signal Processing[M]
[2] Lawrence R.Rabiner, Ronald W.Schafer.Theory and Applications of Digital Speech Processing[M]