音視頻學(xué)習(xí)從零到整(1)
音視頻學(xué)習(xí)從零到整(2)
音視頻學(xué)習(xí)從零到整(3)
一.音頻基礎(chǔ)復(fù)習(xí)
1.1 聲音的產(chǎn)生
相對(duì)于視頻,可觀察這個(gè)現(xiàn)象.音頻在學(xué)習(xí)過程,就缺乏了想象的空間.但是如果從原理出發(fā),就不會(huì)那么難了.
聲音是什么?
聲音是波,靠物體的振動(dòng)產(chǎn)生
1.2 聲波的3要素
聲波的三要素,是頻率,振幅,波形.頻率代表音階的高低,振幅代表響度,波形則代表音色.
- 頻率越高,波長就會(huì)越短.而低頻聲響的波長則較長.所以這樣的聲音更容易繞過障礙物,能量衰減就越小.聲音就會(huì)傳播的越遠(yuǎn).
- 響度,就是能量大小的反饋.用不同的力度敲打桌面,聲音的大小勢必發(fā)生變換.在生活中,我們用分貝描述聲音的響度.
==小貼士==
- 分貝(decibel),是度量聲音的強(qiáng)度單位,常用dB表示.是由美國發(fā)明家亞歷山大.格雷厄姆.貝爾 名字命名的.
長期在夜晚接受50 分貝的噪音, 容易導(dǎo)致心血管疾驳够邸按摘; 55 分貝, 會(huì)對(duì)兒童學(xué)習(xí)產(chǎn)生負(fù)面影響纫谅; 60分貝院峡, 讓人從睡夢中驚醒; 70 分貝系宜,心肌梗死的發(fā)病率增加30%左右照激; 超過110 分貝, 可能導(dǎo)致永久性聽力損傷.
- 音色,在同樣的頻率和響度下,不同的物體發(fā)出的聲音不一樣.比如鋼琴和古箏聲音就完全不同.波形的形狀決定了聲音的音色.因?yàn)椴煌慕橘|(zhì)所產(chǎn)生的波形不同.就會(huì)產(chǎn)生不一樣的音色.
1.3 聲音傳播
聲音的發(fā)生,來源于振動(dòng).人類說話,從聲帶振動(dòng)發(fā)生聲音之后,經(jīng)過口腔,顱腔等局部區(qū)域的反射,在經(jīng)過空氣傳播到別人耳朵中.這是我們說話到聽到的過程.
聲音的傳播,可以通過空氣,液體,固定傳播.介質(zhì)不同,會(huì)影響聲音的傳播速度.
- 吸音棉:通過聲音反射而產(chǎn)生的嘈雜感,吸音材料選擇使用可以衰減入射音源的反射能量,從而對(duì)原有聲音的保真效果.比如錄音棚墻壁上就會(huì)使用吸音材質(zhì)
- 隔音:主要解決聲音穿透而降低主體空間的吵鬧感,隔音棉材質(zhì)可以衰減入射聲音的透射能量.從而達(dá)到主體空間安靜狀態(tài),比如KTV墻壁上就會(huì)安裝隔音棉材料.
二.數(shù)字音頻
2.1 模擬信號(hào)數(shù)字化過程
將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的過程,分別是采樣,量化和編碼.
音頻采樣
對(duì)模型信號(hào)進(jìn)行采樣,采樣可以理解為在時(shí)間軸上對(duì)信號(hào)進(jìn)行數(shù)字化.
而,根據(jù)奈斯特定理(采樣定理),按比聲音最高頻率高2倍以上的頻率對(duì)聲音進(jìn)行采樣.這個(gè)過程稱為AD轉(zhuǎn)換.
比如,前面提到高質(zhì)量音頻信號(hào),其頻率范圍是20Hz-20KHz.所以采樣頻率一般是44.1KHz.這樣可以保證采樣聲音達(dá)到20KHz也能被數(shù)字化.而且經(jīng)過數(shù)字化處理后的聲音,音質(zhì)也不會(huì)降低.44.1KHZ,指的是1秒會(huì)采樣44100次
量化
量化,指的是在幅度軸上對(duì)信號(hào)進(jìn)行數(shù)字化.簡單的說,就是聲音波形的數(shù)據(jù)是多少位的二進(jìn)制數(shù)據(jù)盹牧,通常用bit做單位.比如16比特的二進(jìn)制信號(hào)來表示聲音的一個(gè)采樣.它的取值范圍[-32768,32767].一共有65536個(gè)值.如16bit俩垃、24bit。16bit量化級(jí)記錄聲音的數(shù)據(jù)是用16位的二進(jìn)制數(shù)汰寓,因此口柳,量化級(jí)也是數(shù)字聲音質(zhì)量的重要指標(biāo)。我們形容數(shù)字聲音的質(zhì)量有滑,通常就描述為24bit(量化級(jí))跃闹、48KHz采樣,比如標(biāo)準(zhǔn)CD音樂的質(zhì)量就是16bit毛好、44.1KHz采樣.
既然每個(gè)量化都是一個(gè)采樣,那么聲音這么多采樣,該如何將這些數(shù)據(jù)存儲(chǔ)起來?
編碼
什么叫編碼?
按照一定格式記錄采樣和量化后的數(shù)據(jù).
音頻編碼的格式有很多種,而通常所說的音頻裸數(shù)據(jù)指的是脈沖編碼調(diào)制(PCM)數(shù)據(jù).
如果想要描述一份PCM數(shù)據(jù),需要從如下幾個(gè)方向出發(fā):
- 量化格式(sampleFormat)
- 采樣率(sampleRate)
- 聲道數(shù)(channel)
舉例:
以CD音質(zhì)為例,量化格式為16bite,采樣率為44100,聲道數(shù)為2.這些信息描述CD音質(zhì).那么可以CD音質(zhì)數(shù)據(jù),比特率是多少?
44100 * 16 * 2 = 1378.125kbps
那么一分鐘的,這類CD音質(zhì)數(shù)據(jù)需要占用多少存儲(chǔ)空間?
1378.125 * 60 /8/1024 = 10.09MB
如果sampleFormat更加精確或者sampleRate更加密集,那么所占的存儲(chǔ)空間就會(huì)越大,同時(shí)能夠描述的聲音細(xì)節(jié)就會(huì)更加精確.
存儲(chǔ)在這些二進(jìn)制數(shù)據(jù)即可理解為將模型信號(hào)轉(zhuǎn)化為數(shù)字信號(hào).那么轉(zhuǎn)為數(shù)字信號(hào)之后,就可以對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)\播放\復(fù)制獲取其他任何操作.