一、數(shù)字音頻
自然界中的聲音非常復(fù)雜髓介,波形極其復(fù)雜,通常我們采用的是脈沖代碼調(diào)制編碼筋现,即PCM編碼唐础。PCM通過采樣箱歧、量化和編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)換為數(shù)字編碼,即模擬信號數(shù)字化
1一膨、采樣
采樣就是在時間軸上對信號進行數(shù)字化呀邢,即對模擬信號進行周期性掃描,把時間上連續(xù)的信號變成時間上離散的信號汞幢。
根據(jù)采樣定理驼鹅,按比聲音最高頻率高兩倍以上的頻率對聲音進行采樣,對于高質(zhì)量的音頻信號森篷,其頻率范圍(人耳能聽到的頻率范圍)是20Hz-20kHz输钩,所以采樣頻率一般為44.1kHz,代表1秒會采樣44100次
2仲智、量化
量化是指在幅度軸上對信號進行數(shù)字化买乃,用一組規(guī)定的電平,把瞬時抽樣值用最接近的電平值來表示,通常是用二進制表示钓辆。
比如用16比特的二進制信號來表示聲音的一個采樣剪验,則共有65536個可能取值,因此最終模擬的音頻信號在幅度上也分為了65536層
3前联、編碼
編碼就是按照一定格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù)功戚。
這涉及到了很多種格式,通常所說的音頻的裸數(shù)據(jù)格式就是脈沖編碼調(diào)制(PCM)數(shù)據(jù)似嗤。描述一段PCM
數(shù)據(jù)一般需要以下幾個概念:量化格式啸臀、采樣率、聲道數(shù)烁落。比如量化格式為16
比特(2
字節(jié))乘粒,采樣率為44100
,聲道數(shù)為2
伤塌,這些數(shù)據(jù)就描述了音質(zhì)
而對于聲音格式灯萍,可以用數(shù)據(jù)比特率來描述其大小,即1s時間內(nèi)的比特數(shù)每聪,它用于衡量音視頻數(shù)據(jù)單位時間內(nèi)的容量大小
44100 x 16 x 2 = 1378.125kbps
則一分鐘該音質(zhì)的數(shù)據(jù)占用的存儲空間則為:
1378.25 x 60 / 8 / 1024 = 10.09MB
所以一首無損音質(zhì)的歌往往有幾十M
麥克風(fēng)是如何采集聲音的旦棉?
麥克風(fēng)里面有一層
碳膜
,非常薄并且十分敏感药薯。聲音實際是一種縱波他爸,會壓縮空氣也會壓縮這層碳膜,碳膜在收到擠壓時也會發(fā)出振動果善,在碳膜的下方就是一個電極诊笤,碳膜在振動時會接觸電極,接觸時間的長短和頻率與電波的振動幅度
和頻率
有關(guān)巾陕,這就完成了聲音信號
到電信號
的轉(zhuǎn)換讨跟,之后在經(jīng)過放大電路處理纪他,就可以實施后面的采樣量化編碼
了。
二晾匠、音頻編碼
上邊說到一分鐘的音頻數(shù)據(jù)就有10M茶袒,這個數(shù)據(jù)量要想在網(wǎng)絡(luò)中在線傳播的話,就必須對其進行壓縮編碼凉馆。
壓縮編碼的基本指標(biāo)之一就是壓縮比薪寓,壓縮比通常小于1。壓縮算法包括有損壓縮和無損壓縮澜共。
- 無損壓縮是指解壓后的數(shù)據(jù)可以完全復(fù)原向叉。
- 有損壓縮是指解壓后的數(shù)據(jù)不能完全復(fù)原,會丟失一部分信息嗦董,壓縮比越小母谎,丟失的信息就越多,信號還原后的失真就越大京革。
在實際應(yīng)用中奇唤,有損壓縮用的更多.
可以選用不同的壓縮編碼算法,比如PCM匹摇、WAV咬扇、AAC、MP3廊勃、Ogg
壓縮編碼的原理實際上就是壓縮冗余的信號.冗余信號就是指不能被人耳感知的信號.包括人耳聽覺范圍之外的音頻信號以及被掩蓋掉的音頻信號
1冗栗、WAV編碼
WAV編碼的一種實現(xiàn)方式就是在源PCM數(shù)據(jù)格式的前面加上44個字節(jié).分別用來描述PCM的采樣率,聲道數(shù),數(shù)據(jù)格式等信息
- 特點:音質(zhì)非常好,大量軟件都支持
- 適合場合:多媒體開發(fā)的中間文件,保存音樂和音效素材
2、MP3編碼
MP3編碼具有不錯的壓縮比,使用LAME編碼(MP3編碼格式的一種實現(xiàn))的中高碼率的MP3文件供搀,聽感非常接近于源WAV文件,當(dāng)然在不同的環(huán)境下,應(yīng)該調(diào)整合適的參數(shù)來達到更好的效果.
- 特點:音質(zhì)在128Kbit/s以上表現(xiàn)不錯,壓縮比比較高.大量軟件和硬件都支持.兼容性好
- 適合場合:高比特率下對兼容性有要求的音樂欣賞
3、AAC編碼
AAC是新一代的有損壓縮編碼技術(shù)钠至,它通過一些附加的編碼技術(shù)(比如PS葛虐、SBR等),衍生出了LC-AAC、HE-AA棉钧、HE-AAC v2三種主要編碼格式.
- LC-AAC 是比較傳統(tǒng)的AAC,主要應(yīng)用于中高碼率的場景編碼(>= 80Kbit/s)
- HE-AAC(相當(dāng)于AAC+SBR) 主要應(yīng)用于中低碼率場景的編碼(<= 80Kbit/s)
- HE-AAC v2(相當(dāng)于AAC+SBR+PS) 主要應(yīng)用于低碼率場景的編碼(<= 48Kbit/s)
事實上屿脐,大部分編碼器都設(shè)置為<=48Kbit/s自動啟用PS技術(shù),而大于48Kbit/s則不加PS宪卿,相當(dāng)于普通HE-AAC
- 特點:在小于128Kbit/s的碼率下表現(xiàn)優(yōu)異,并且多用于視頻中的音頻編碼
- 適合場景:128Kbit/s以下的音頻編碼,多用于視頻中的音頻軌的編碼
4的诵、Ogg編碼
Ogg編碼是一種非常有潛力的編碼,在各種碼率下都有比較優(yōu)秀的表現(xiàn).尤其在中低碼率場景下.Ogg除了音質(zhì)好之外,還是完全免費的佑钾。此外Ogg有著非常出色的算法西疤,可以用更小的碼率達到更好的音質(zhì)。128Kbit/s的Ogg比192Kbit/s甚至更高碼率的MP3還要出色休溶。但目前因為還沒有媒體服務(wù)軟件的支持代赁,因此基于Ogg的數(shù)字廣播還無法實現(xiàn)扰她。Ogg目前受支持的情況還不夠好,無論是軟件上的還是硬件上的支持芭碍,都遠無法與MP3相提并論
-特點:可以用比MP3更小的碼率實現(xiàn)比MP3更好的音質(zhì),高中低碼率下均有良好的表現(xiàn),兼容不夠好,流媒體特性不支持徒役。
-適合場景:語言聊天的音頻消息場景