前言
5G 時代音視頻的地位越來越重要友鼻,直播、音樂闺骚、在線教育彩扔、短視頻等相關(guān)APP 層出不窮,對于開發(fā)者而言僻爽,掌握音視頻相關(guān)知識可很好提升自己的競爭力借杰。本系列文章會總結(jié)一些音視頻知識,從零開始記錄總結(jié)音視頻相關(guān)知識进泼。
本篇文章是對音頻基礎(chǔ)知識的總結(jié)介紹。
音頻概念
聲音是振動產(chǎn)生的聲波纤虽,通過介質(zhì)(空氣乳绕、固體、液體)傳播并能被人或動物聽覺器官所感知的波動現(xiàn)象逼纸。
聲音是由物體的振動所引起洋措,振動頻率一般會以赫茲表示,記為Hz杰刽,指每秒周期性震動的次數(shù)菠发。
? 波長王滤,指波在一個振動周期內(nèi)傳播的距離。
音調(diào)越高滓鸠,波長越短雁乡;音調(diào)越低,波長越長糜俗。(頻率高波長短)
? 振幅踱稍,指在波動或振動中距離平衡位置或靜止位置的最大位移。
音量(響度)越大悠抹,振幅越大珠月;音量越小,振幅越小楔敌。
人耳可以感知到的聲音啤挎,其頻率范圍為20 Hz至20,000 Hz,在標(biāo)準(zhǔn)狀況下的空氣中卵凑,上述音波對應(yīng)的波長從17 m至17 mm之間庆聘。
音頻編碼
聲音是怎么處理變成計(jì)算機(jī)中的數(shù)據(jù)呢?
我們經(jīng)常見到的 mp3氛谜、wav 音頻文件又是什么呢掏觉?
1、聲音是怎么變成數(shù)據(jù)的值漫?
現(xiàn)實(shí)中的聲音非常復(fù)雜澳腹,波形極其復(fù)雜,通常我們采用的是脈沖代碼調(diào)制編碼杨何,即PCM編碼酱塔。PCM通過抽樣、量化危虱、編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)換為數(shù)字編碼羊娃。
脈沖編碼調(diào)制(Pulse-code modulation,PCM)是一種模擬信號的數(shù)字化方法埃跷。PCM將信號的強(qiáng)度依照同樣的間距分成數(shù)段蕊玷,然后用獨(dú)特的數(shù)字記號(通常是二進(jìn)制)來量化。
在下圖中弥雹,一個正弦波(紅色曲線)被取樣和量化為PCM垃帅。正弦波在每段固定時間內(nèi)被取一次樣,即x軸的刻度剪勿。而每一個樣本則依照某種運(yùn)算法(在這個例子中是ceiling function 取整)贸诚,選定它們在y軸上的位置。這樣便產(chǎn)生完全離散的輸入信號的替代物,很容易編碼成為數(shù)字?jǐn)?shù)據(jù)酱固,以作保存或操作械念。
PCM 中涉及到的一些概念:
- 聲道:錄制和播放時,音頻信號的數(shù)量运悲。如雙聲道龄减,立體聲。
- 采樣率:每秒從連續(xù)信號中提取并組成離散信號的采樣個數(shù)扇苞,單位是赫茲(Hz)欺殿。
奈奎斯特采樣定理:當(dāng)采樣頻率大于聲音最高頻率的兩倍,能完整的保留聲音的信息鳖敷。 - 采樣深度:量化的二進(jìn)制位數(shù)脖苏,即采樣點(diǎn)數(shù)據(jù)的位數(shù),常為16位定踱。
- 碼率:音頻流每秒的大小棍潘,單位常用bps。如一個采樣率為44.1KHz崖媚,采樣深度為16bit亦歉,雙聲道的PCM編碼的文件,碼率為 44.1K×16×2 =1411.2 Kbps
2畅哑、常見的 mp3肴楷、wav 音頻文件是什么呢?
通過上面的調(diào)制荠呐,聲音音波就從模擬信號赛蔫,轉(zhuǎn)化為數(shù)字信號的原始音頻數(shù)據(jù)。
原始音頻數(shù)據(jù)需要占用很大的存儲空間和帶寬的泥张,不適合運(yùn)輸和傳送呵恢,所以我們需要對原始聲音進(jìn)行加工,壓縮變小媚创,這一過程稱為編碼渗钉。
格式(format),或者說容器(container)钞钙,是為了運(yùn)輸和傳送的鳄橘。對音頻來說就是將編碼壓縮后的數(shù)據(jù)進(jìn)行打包,常見的音頻格式比如 mp3 等芒炼。
References
http://www.reibang.com/p/80a140cf3d99
https://blog.csdn.net/leixiaohua1020/article/details/84598542
https://zhuanlan.zhihu.com/p/69901270