iOS音視頻---音頻基礎(chǔ)總結(jié)

一、數(shù)字音頻

自然界中的聲音非常復(fù)雜髓介，波形極其復(fù)雜，通常我們采用的是脈沖代碼調(diào)制編碼筋现，即PCM編碼唐础。PCM通過采樣箱歧、量化和編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)換為數(shù)字編碼，即模擬信號數(shù)字化

1一膨、采樣

采樣就是在時間軸上對信號進行數(shù)字化呀邢，即對模擬信號進行周期性掃描，把時間上連續(xù)的信號變成時間上離散的信號汞幢。
根據(jù)采樣定理驼鹅，按比聲音最高頻率高兩倍以上的頻率對聲音進行采樣，對于高質(zhì)量的音頻信號森篷，其頻率范圍（人耳能聽到的頻率范圍）是20Hz-20kHz输钩，所以采樣頻率一般為44.1kHz，代表1秒會采樣44100次

2仲智、量化

量化是指在幅度軸上對信號進行數(shù)字化买乃，用一組規(guī)定的電平，把瞬時抽樣值用最接近的電平值來表示,通常是用二進制表示钓辆。
比如用16比特的二進制信號來表示聲音的一個采樣剪验，則共有65536個可能取值，因此最終模擬的音頻信號在幅度上也分為了65536層

3前联、編碼

編碼就是按照一定格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù)功戚。
這涉及到了很多種格式，通常所說的音頻的裸數(shù)據(jù)格式就是脈沖編碼調(diào)制（PCM）數(shù)據(jù)似嗤。描述一段PCM數(shù)據(jù)一般需要以下幾個概念：量化格式啸臀、采樣率、聲道數(shù)烁落。比如量化格式為16比特（2字節(jié)）乘粒，采樣率為44100，聲道數(shù)為2伤塌，這些數(shù)據(jù)就描述了音質(zhì)
而對于聲音格式灯萍，可以用數(shù)據(jù)比特率來描述其大小，即1s時間內(nèi)的比特數(shù)每聪，它用于衡量音視頻數(shù)據(jù)單位時間內(nèi)的容量大小

44100 x 16 x 2 = 1378.125kbps

則一分鐘該音質(zhì)的數(shù)據(jù)占用的存儲空間則為：

1378.25 x 60 / 8 / 1024 = 10.09MB

所以一首無損音質(zhì)的歌往往有幾十M

麥克風(fēng)是如何采集聲音的旦棉？

麥克風(fēng)里面有一層碳膜，非常薄并且十分敏感药薯。聲音實際是一種縱波他爸，會壓縮空氣也會壓縮這層碳膜，碳膜在收到擠壓時也會發(fā)出振動果善，在碳膜的下方就是一個電極诊笤，碳膜在振動時會接觸電極，接觸時間的長短和頻率與電波的振動幅度和頻率有關(guān)巾陕，這就完成了聲音信號到電信號的轉(zhuǎn)換讨跟，之后在經(jīng)過放大電路處理纪他，就可以實施后面的采樣量化編碼了。

二晾匠、音頻編碼

上邊說到一分鐘的音頻數(shù)據(jù)就有10M茶袒，這個數(shù)據(jù)量要想在網(wǎng)絡(luò)中在線傳播的話，就必須對其進行壓縮編碼凉馆。
壓縮編碼的基本指標(biāo)之一就是壓縮比薪寓，壓縮比通常小于1。壓縮算法包括有損壓縮和無損壓縮澜共。

無損壓縮是指解壓后的數(shù)據(jù)可以完全復(fù)原向叉。

有損壓縮是指解壓后的數(shù)據(jù)不能完全復(fù)原，會丟失一部分信息嗦董，壓縮比越小母谎，丟失的信息就越多，信號還原后的失真就越大京革。

在實際應(yīng)用中奇唤，有損壓縮用的更多.
可以選用不同的壓縮編碼算法，比如PCM匹摇、WAV咬扇、AAC、MP3廊勃、Ogg
壓縮編碼的原理實際上就是壓縮冗余的信號.冗余信號就是指不能被人耳感知的信號.包括人耳聽覺范圍之外的音頻信號以及被掩蓋掉的音頻信號

1冗栗、WAV編碼

WAV編碼的一種實現(xiàn)方式就是在源PCM數(shù)據(jù)格式的前面加上44個字節(jié).分別用來描述PCM的采樣率,聲道數(shù),數(shù)據(jù)格式等信息

特點:音質(zhì)非常好,大量軟件都支持

適合場合:多媒體開發(fā)的中間文件,保存音樂和音效素材

2、MP3編碼

MP3編碼具有不錯的壓縮比,使用LAME編碼（MP3編碼格式的一種實現(xiàn)）的中高碼率的MP3文件供搀，聽感非常接近于源WAV文件,當(dāng)然在不同的環(huán)境下,應(yīng)該調(diào)整合適的參數(shù)來達到更好的效果.

特點:音質(zhì)在128Kbit/s以上表現(xiàn)不錯,壓縮比比較高.大量軟件和硬件都支持.兼容性好

適合場合:高比特率下對兼容性有要求的音樂欣賞

3、AAC編碼

AAC是新一代的有損壓縮編碼技術(shù)钠至，它通過一些附加的編碼技術(shù)（比如PS葛虐、SBR等）,衍生出了LC-AAC、HE-AA棉钧、HE-AAC v2三種主要編碼格式.

LC-AAC 是比較傳統(tǒng)的AAC,主要應(yīng)用于中高碼率的場景編碼(>= 80Kbit/s)
HE-AAC（相當(dāng)于AAC+SBR）主要應(yīng)用于中低碼率場景的編碼(<= 80Kbit/s)
HE-AAC v2（相當(dāng)于AAC+SBR+PS）主要應(yīng)用于低碼率場景的編碼(<= 48Kbit/s)

事實上屿脐，大部分編碼器都設(shè)置為<=48Kbit/s自動啟用PS技術(shù)，而大于48Kbit/s則不加PS宪卿，相當(dāng)于普通HE-AAC

特點:在小于128Kbit/s的碼率下表現(xiàn)優(yōu)異,并且多用于視頻中的音頻編碼

適合場景:128Kbit/s以下的音頻編碼,多用于視頻中的音頻軌的編碼

4的诵、Ogg編碼

Ogg編碼是一種非常有潛力的編碼,在各種碼率下都有比較優(yōu)秀的表現(xiàn).尤其在中低碼率場景下.Ogg除了音質(zhì)好之外，還是完全免費的佑钾。此外Ogg有著非常出色的算法西疤，可以用更小的碼率達到更好的音質(zhì)。128Kbit/s的Ogg比192Kbit/s甚至更高碼率的MP3還要出色休溶。但目前因為還沒有媒體服務(wù)軟件的支持代赁，因此基于Ogg的數(shù)字廣播還無法實現(xiàn)扰她。Ogg目前受支持的情況還不夠好，無論是軟件上的還是硬件上的支持芭碍，都遠無法與MP3相提并論

-特點:可以用比MP3更小的碼率實現(xiàn)比MP3更好的音質(zhì),高中低碼率下均有良好的表現(xiàn),兼容不夠好,流媒體特性不支持徒役。
-適合場景:語言聊天的音頻消息場景