音頻的基礎(chǔ)知識(shí)
-
聲音是波
聲音是由物體振動(dòng)而產(chǎn)生的,聲音是一種壓力波,當(dāng)演奏樂器膏斤、拍打一扇門或者敲擊桌面時(shí)彻舰,它們的振動(dòng)都會(huì)引起空氣有節(jié)奏的振動(dòng),使周圍的空氣產(chǎn)生疏密變化诫咱,形成疏密相間的縱波
-
聲波的三要素
- 聲波的三要素是頻率笙隙、振幅和波形,頻率代表音階的高低坎缭,振幅代表響度竟痰,波形代表音色。
-
==頻率==越高掏呼,波長(zhǎng)就越短坏快。低頻聲響的波長(zhǎng)則較長(zhǎng),所以其可以更容易地繞過障礙物憎夷,因此能量衰減就小莽鸿,聲音就會(huì)傳得遠(yuǎn),反之則會(huì)得到完全相反的結(jié)論。
==響度==其實(shí)就是能量大小的反映祥得,用不同的力度敲擊桌子兔沃,聲音的大小勢(shì)必也會(huì)不同。在生活中级及,分貝常用于描述響度的大小乒疏。聲音超過一定的分貝,人類的耳朵就會(huì)受不了饮焦。
==音色==其實(shí)也不難理解缰雇,在同樣的音調(diào)(頻率)和響度(振幅)下,鋼琴和小提琴的聲音聽起來是完全不相同的追驴,因?yàn)樗鼈兊囊羯煌涤础2ǖ男螤顩Q定了其所代表聲音的音色,鋼琴和小提琴的音色不同就是因?yàn)樗鼈兊慕橘|(zhì)所產(chǎn)生的波形不同殿雪。
人類耳朵的聽力有一個(gè)頻率范圍暇咆,大約是20Hz~20kHz
-
聲音的傳播介質(zhì)
-
聲音的傳播介質(zhì)很廣,它可以通過空氣丙曙、液體和固體進(jìn)行傳播爸业;而且介質(zhì)不同,傳播的速度也不同亏镰,比如扯旷,
聲音在空氣中的傳播速度為340m/s,在蒸餾水中的傳播速度為1497m/s索抓,而在鐵棒中的傳播速度則可以高達(dá)5200m/s钧忽;不過,聲音在真空中是無法傳播的逼肯。
-
-
模擬音頻
- (Analogous Audio)耸黑,用連續(xù)的電流或電壓表示的音頻信號(hào),在時(shí)間和振幅上是連續(xù)篮幢。在過去記錄聲音記錄的都是模擬音頻大刊,比如機(jī)械錄音(以留聲機(jī)、機(jī)械唱片為代表)三椿、光學(xué)錄音(以電影膠片為代表)缺菌、磁性錄音(以磁帶錄音為代表)等模擬錄音方式。
-
數(shù)字音頻
為了將模擬信號(hào)數(shù)字化搜锰,我們需要對(duì)模擬信號(hào)進(jìn)行采樣伴郁、量化、編碼纽乱。
通過采樣和量化技術(shù)獲得的離散性(數(shù)字化)音頻數(shù)據(jù)蛾绎。計(jì)算機(jī)內(nèi)部處理的是二進(jìn)制數(shù)據(jù)昆箕,處理的都是數(shù)字音頻鸦列,所以需要將模擬音頻通過采樣租冠、量化轉(zhuǎn)換成有限個(gè)數(shù)字表示的離散序列 (即實(shí)現(xiàn)音頻數(shù)字化)。
- ==采樣==
對(duì)于高質(zhì)量的音頻信號(hào)薯嗤,其頻率范圍(人耳能夠聽到的頻率范圍)是20Hz~20kHz顽爹,所以采樣頻率一般為44.1kHz,這樣就可以保證采樣聲音達(dá)到20kHz也能被數(shù)字化骆姐,從而使得經(jīng)過數(shù)字化處理之后镜粤,人耳聽到的聲音質(zhì)量不會(huì)被降低。而所謂的44.1kHz就是代表1秒會(huì)采樣44100次玻褪。
- ==量化==
量化是指在幅度軸上對(duì)信號(hào)進(jìn)行數(shù)字化肉渴,比如用16比特的二進(jìn)制信號(hào)來表示聲音的一個(gè)采樣。
表示一個(gè)樣本的二進(jìn)制的位數(shù)带射,即樣本的比特?cái)?shù)同规。量化是將經(jīng)過采樣得到的離散數(shù)據(jù)轉(zhuǎn)換成二進(jìn)制數(shù)的過程,量化深度表示每個(gè)采樣點(diǎn)用多少比特表示窟社,在計(jì)算機(jī)中音頻的量化深度一般為4券勺、8、16灿里、32位(bit)等关炼。例如:量化深度為8bit時(shí),每個(gè)采樣點(diǎn)可以表示256個(gè)不同的量化值,而量化深度為16bit時(shí),每個(gè)采樣點(diǎn)可以表示65536個(gè)不同的量化值匣吊。量化深度的大小影響到聲音的質(zhì)量儒拂,顯然,位數(shù)越多色鸳,量化后的波形越接近原始波形侣灶,聲音的質(zhì)量越高,而需要的存儲(chǔ)空間也越多
- ==編碼==
就是按照一定的格式記錄采樣和量化后的數(shù)字?jǐn)?shù)據(jù)缕碎,比如順序存儲(chǔ)或壓縮存儲(chǔ)褥影。
-
==PCM==
音頻的裸數(shù)據(jù)格式就是脈沖編碼調(diào)制(Pulse Code Modulation,PCM)數(shù)據(jù)咏雌。是對(duì)連續(xù)變化的模擬信號(hào)進(jìn)行抽樣凡怎、量化和編碼產(chǎn)生的數(shù)字信號(hào)。描述一段PCM數(shù)據(jù)一般需要以下幾個(gè)概念:==量化格式(sampleFormat)==赊抖、==采樣率(sampleRate)==统倒、==聲道數(shù)(channel)==。
==比特率==(它用于衡量音頻數(shù)據(jù)單位時(shí)間內(nèi)的容量大蟹昭)
采樣率 X 量化格式 X 聲道數(shù)
-
麥克風(fēng)是如何采集聲音的
麥克風(fēng)里面有一層碳膜房匆,非常薄而且十分敏感。聲音其實(shí)是一種縱波,會(huì)壓縮空氣也會(huì)壓縮這層碳膜浴鸿,碳膜在受到擠壓時(shí)也會(huì)發(fā)出振動(dòng)井氢,在碳膜的下方就是一個(gè)電極,碳膜在振動(dòng)的時(shí)候會(huì)接觸電極岳链,接觸時(shí)間的長(zhǎng)短和頻率與聲波的振動(dòng)幅度和頻率有關(guān)花竞,這樣就完成了聲音信號(hào)到電信號(hào)的轉(zhuǎn)換。之后再經(jīng)過放大電路處理掸哑,就可以實(shí)施后面的采樣量化處理了约急。
模擬信號(hào) -> 輸入設(shè)備(傳遞電壓值)-> 聲卡(經(jīng)過采樣跟量化(即設(shè)置聲音大小等各種值))-> 磁盤(文件) -> 聲卡 -> 輸出設(shè)備 -> 模擬信號(hào)
==聲卡的作用==
是實(shí)現(xiàn)聲波/數(shù)字信號(hào)相互轉(zhuǎn)換的一種硬件。聲卡的基本功能是把來自話筒苗分、磁帶厌蔽、光盤的原始聲音信號(hào)加以轉(zhuǎn)換,輸出到耳機(jī)摔癣、揚(yáng)聲器躺枕、擴(kuò)音機(jī)、錄音機(jī)等聲響設(shè)備供填,或通過音樂設(shè)備數(shù)字接口(MIDI)使樂器發(fā)出美妙的聲音拐云。
-
音頻編碼
編碼是對(duì)元數(shù)據(jù)進(jìn)行壓縮存儲(chǔ),壓縮算法包括有損壓縮和無損壓縮近她。
==無損壓縮==是指解壓后的數(shù)據(jù)可以完全復(fù)原叉瘩。在常用的壓縮格式中,用得較多的是有損壓縮粘捎,
==有損壓縮==是指解壓后的數(shù)據(jù)不能完全復(fù)原薇缅,會(huì)丟失一部分信息,壓縮比越小攒磨,丟失的信息就越多泳桦,信號(hào)還原后的失真就會(huì)越大。
根據(jù)不同的應(yīng)用場(chǎng)景(包括存儲(chǔ)設(shè)備娩缰、傳輸網(wǎng)絡(luò)環(huán)境灸撰、播放設(shè)備等),可以選用不同的壓縮編碼算法拼坎,如PCM浮毯、WAV、AAC泰鸡、MP3债蓝、Ogg等。
<u>壓縮編碼的原理實(shí)際上是壓縮掉冗余信號(hào)盛龄,冗余信號(hào)是指不能被人耳感知到的信號(hào)</u>
- WAV編碼
而WAV編碼的一種實(shí)現(xiàn)(有多種實(shí)現(xiàn)方式饰迹,但是都不會(huì)進(jìn)行壓縮操作)就是在PCM數(shù)據(jù)格式的前面加上44字節(jié)芳誓,分別用來描述PCM的采樣率、聲道數(shù)啊鸭、數(shù)據(jù)格式等信息锹淌。
- MP3編碼
MP3具有不錯(cuò)的壓縮比,使用LAME編碼(MP3編碼格式的一種實(shí)現(xiàn))的中高碼率的MP3文件莉掂,聽感上非常接近源WAV文件,當(dāng)然在不同的應(yīng)用場(chǎng)景下千扔,應(yīng)該調(diào)整合適的參數(shù)以達(dá)到最好的效果憎妙。
特點(diǎn):音質(zhì)在128Kbit/s以上表現(xiàn)還不錯(cuò),壓縮比比較高曲楚,大量軟件和硬件都支持厘唾,兼容性好。
適用場(chǎng)合:高比特率下對(duì)兼容性有要求的音樂欣賞龙誊。
- AAC編碼
AAC是新一代的音頻有損壓縮技術(shù)抚垃,它通過一些附加的編碼技術(shù)(比如PS、SBR等)趟大,衍生出了LC-AAC鹤树、HE-AAC、HE-AAC v2三種主要的編碼格式
特點(diǎn):在小于128Kbit/s的碼率下表現(xiàn)優(yōu)異逊朽,并且多用于視頻中的音頻編碼罕伯。
適用場(chǎng)合:128Kbit/s以下的音頻編碼,多用于視頻中音頻軌的編碼叽讳。
- Ogg編碼
Ogg是一種非常有潛力的編碼追他,在各種碼率下都有比較優(yōu)秀的表現(xiàn),尤其是在中低碼率場(chǎng)景下岛蚤。Ogg除了音質(zhì)好之外邑狸,還是完全免費(fèi)的,這為Ogg獲得更多的支持打好了基礎(chǔ)涤妒。Ogg有著非常出色的算法单雾,可以用更小的碼率達(dá)到更好的音質(zhì),
特點(diǎn):<u>可以用比MP3更小的碼率實(shí)現(xiàn)比MP3更好的音質(zhì)</u>她紫,高中低碼率下均有良好的表現(xiàn)铁坎,兼容性不夠好,流媒體特性不支持犁苏。
適用場(chǎng)合:語音聊天的音頻消息場(chǎng)景硬萍。
- MPEG
(Moving Picture Experts Group,動(dòng)態(tài)圖像專家組)是ISO(International Standardization Organization围详,國(guó)際標(biāo)準(zhǔn)化組織)與IEC(International Electrotechnical Commission朴乖,國(guó)際電工委員會(huì))于1988年成立的專門針對(duì)運(yùn)動(dòng)圖像和語音壓縮制定國(guó)際標(biāo)準(zhǔn)的組織祖屏。
- 音頻幀
Acc一個(gè)音頻幀包含1024個(gè)采樣點(diǎn),MP3一個(gè)音頻幀包含1152個(gè)采樣點(diǎn)买羞。
音頻幀的播放時(shí)間
音頻幀的播放時(shí)長(zhǎng) = 一個(gè)音頻幀對(duì)應(yīng)的采樣點(diǎn)個(gè)數(shù) / 采樣頻率
- 音軌
在音序器軟件中看到的一條一條的平行“軌道”袁勺。每條音軌分別定義了該條音軌的屬性,如音軌的音色畜普,音色庫(kù)期丰,通道數(shù),輸入/輸出端口吃挑,音量等钝荡。
當(dāng)使用音序器時(shí),一條音軌對(duì)應(yīng)于音樂的一個(gè)聲部舶衬,它把 MIDI 或者音頻數(shù)據(jù)記錄在特定的時(shí)間位置埠通。每一音軌可以定義為一種樂器的演奏。 所有的音序器都可以允許多音軌操作逛犹,這就意味著一首歌所有的音軌端辱,無論是 MIDI 還是音頻都能同時(shí)播放。
- 聲道
指聲音在錄制或播放時(shí)在不同空間位置采集或回放的相互獨(dú)立的音頻信號(hào)虽画,所以聲道數(shù)也就是聲音錄制時(shí)的音源數(shù)量或回放時(shí)相應(yīng)的揚(yáng)聲器數(shù)量舞蔽。
從雙聲道開始,聲音在錄制過程中被分配到兩個(gè)獨(dú)立的聲道码撰,從而達(dá)到了很好的聲音定位效果喷鸽。這種技術(shù)在音樂欣賞中顯得尤為有用,聽眾可以清晰地分辨出各種樂器來自的方向灸拍,從而使音樂更富想象力做祝,更加接近于臨場(chǎng)感受。
記錄聲音時(shí)鸡岗,如果每次生成一個(gè)聲波數(shù)據(jù)混槐,稱為單聲道;每次生成兩個(gè)聲波數(shù)據(jù)轩性,稱為雙聲道声登。使用雙聲道記錄聲音,能夠在一定程度上再現(xiàn)聲音的方位揣苏,反映人耳的聽覺特性悯嗓。
- 采樣率
音頻采樣率是指錄音設(shè)備在一秒鐘內(nèi)對(duì)聲音信號(hào)的采樣次數(shù),采樣頻率越高聲音的還原就越真實(shí)越自然卸察。在當(dāng)今的主流采集卡上脯厨,采樣頻率一般共分為11025Hz、22050Hz坑质、24000Hz合武、44100Hz临梗、48000Hz五個(gè)等級(jí)
頻率對(duì)應(yīng)于時(shí)間軸線,振幅對(duì)應(yīng)于電平軸線稼跳。波是無限光滑的盟庞,弦線可以看成由無數(shù)點(diǎn)組成,由于存儲(chǔ)空間是相對(duì)有限的汤善,數(shù)字編碼過程中什猖,必須對(duì)弦線的點(diǎn)進(jìn)行采樣。采樣的過程就是抽取某點(diǎn)的頻率值红淡,很顯然不狮,在一秒中內(nèi)抽取的點(diǎn)越多,獲取得頻率信息更豐富锉屈,為了復(fù)原波形荤傲,一次振動(dòng)中垮耳,必須有2個(gè)點(diǎn)的采樣颈渊,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求终佛,則需要至少每秒進(jìn)行40k次采樣俊嗽,用40kHz表達(dá),這個(gè)40kHz就是采樣率铃彰。我們常見的CD绍豁,采樣率為44.1kHz。