一.音頻基礎學習
1.1 聲音是怎么產(chǎn)生的轩拨?
認識聲音
振動的物體能使鄰近的空氣分子振動,這些分子又引起它們鄰近的空氣分子振動荧飞,從而產(chǎn)生聲音(Sound)烙无,聲音以聲波的形式傳遞毫捣,這種傳遞過程叫聲輻射(Sound Radiation)详拙。聲波僅存在于聲源周圍的媒質(zhì)中,沒有空氣的空間里不可能有聲波培漏。聲音不僅可在空氣內(nèi)傳遞溪厘,也可在水、土牌柄、金屬等物體內(nèi)傳遞畸悬。聲音在空氣中的傳播速度為340m/s(15℃時)。
聲音三要素
- 響度
- 響度珊佣,又稱聲強或音量蹋宦,它表示的是聲音能量的強弱程度,主要取決于聲波振幅的大小咒锻。
- 響度度是聽覺的基礎
- 聽力可及的音域,是從20HZ—20000HZ之間;而能承受的音壓的范圍是從0dB(分貝)到120dB(分貝)之內(nèi).
聲音 | 聲音的強弱(dB) | 聽覺效果(感覺) |
---|---|---|
樹葉微動 | 10 | 寂靜 |
輕聲交談 | 20~30 | 安靜 |
正常說話 | 40~50 | 正常 |
大聲呼喊 | 70~80 | 較吵 |
汽車喇叭 | 90 | 很響 |
載重汽車 | 100~110 | 震耳 |
飛機發(fā)動機 | 120~130 | 疼痛難忍 |
- 音調(diào)
- 音高也稱音調(diào)冷冗,表示人耳對聲音調(diào)子高低的主觀感受。
- 客觀上音高大小主要取決于聲波基頻的高低惑艇,頻率高則音調(diào)高蒿辙,反之則低,單位用赫茲(Hz)表示
- 根據(jù)人耳對音高的實際感受滨巴,人的語音頻率范圍可放寬到80Hz-12kHz思灌,樂音較寬,效果音則更寬恭取。
- 音色
- 音色又稱音品泰偿。聲音波形的基頻所產(chǎn)生的聽得最清楚的音稱為基音,各次諧波的微小振動所產(chǎn)生的聲音稱泛音蜈垮。單一頻率的音稱為純音耗跛,具有諧波的音稱為復音。
- 高保真(Hi—Fi)音響的目標就是要盡可能準確地傳輸攒发、還原重建原始聲場的一切特征调塌,使人們其實地感受到諸如聲源定位感、空間包圍感惠猿、層次厚度感等各種臨場聽感的立體環(huán)繞聲效果羔砾。
二.數(shù)字音頻
數(shù)字音頻是一種利用數(shù)字化手段對聲音進行錄制、存放、編輯蜒茄、壓縮或播放的技術,它是隨著數(shù)字信號處理技術餐屎、計算機技術檀葛、多媒體技術的發(fā)展而形成的一種全新的聲音處理手段。數(shù)字音頻的主要應用領域是音樂后期制作和錄音腹缩。
計算機數(shù)據(jù)的存儲是以0屿聋、1的形式存取的,那么數(shù)字音頻就是首先將音頻文件轉化藏鹊,接著再將這些電平信號轉化成二進制數(shù)據(jù)保存润讥,播放的時候就把這些數(shù)據(jù)轉換為模擬的電平信號再送到喇叭播出,數(shù)字聲音和一般磁帶盘寡、廣播楚殿、電視中的聲音就存儲播放方式而言有著本質(zhì)區(qū)別。相比而言竿痰,它具有存儲方便脆粥、存儲成本低廉、存儲和傳輸?shù)倪^程中沒有聲音的失真影涉、編輯和處理非常方便等特點变隔。
模擬音頻信號數(shù)字化過程
模擬音頻信號轉化為數(shù)字音頻信號:模擬音頻信號是一個在時間上和幅度上都連續(xù)的信號,它的數(shù)字化過程如下所述蟹倾。
采樣:
在時間軸上對信號數(shù)字化匣缘。也就是,按照固定的時間間隔抽取模擬信號的值鲜棠,這樣肌厨,采樣后就可以使一個時間連續(xù)的信息波變?yōu)樵跁r間上取值數(shù)目有限的離散信號。量化:
在幅度軸上對信號數(shù)字化岔留。也就是夏哭,用有限個幅度值近似還原原來連續(xù)變化的幅度值,把模擬信號的連續(xù)幅度變?yōu)橛邢迶?shù)量的有一定間隔的離散值献联。-
編碼:
用二進制數(shù)表示每個采樣的量化值(十進制數(shù))竖配。
音頻編碼的格式有很多種,而通常所說的音頻裸數(shù)據(jù)指的是脈沖編碼調(diào)制(PCM)數(shù)據(jù).
如果想要描述一份PCM數(shù)據(jù),需要從如下幾個方向出發(fā):- 量化格式(sampleFormat)
- 采樣率(sampleRate)
- 聲道數(shù)(channel)
如果sampleFormat越精確或者sampleRate越密集,那么所占的存儲空間就會越大,同時能夠描述的聲音細節(jié)就會更加精確.
典型音頻編碼技術比較
編碼技術 | 算法 | 編碼標準 | 碼率(kbit/s) | 質(zhì)量 | 應用領域 |
---|---|---|---|---|---|
PCM | G.711 | 64 | 4.3 | PSTN、ISDN | |
波形編碼 | ADPCM | G.721 | 32 | 4.1 | - |
SB-ADPCM | G.722 | 64/56/48 | 4.5 | - | |
參數(shù)編碼 | LPC | - | 2.4 | 2.5 | 保密語音 |
CELPC | - | 4.8 | 3.2 | - | |
VSELPC | DIA | 8 | 3.8 | 移動通信里逆、語音信箱 | |
混合編碼 | RPE-LTP | GSM | 13.2 | 3.8 | - |
LD-CELP | G.728 | 16 | 4.1 | ISDN | |
MPE | MPE | 168 | 5.0 | CD |
說明:質(zhì)量評價共五個等級(1进胯、2、3原押、4胁镐、5),其中5.0為最高分。
上表中各種算法盯漂、應用領域中縮略語的中文和英文全稱參見下面說明颇玷。
- PCM:Pulse Code Modulation,脈沖編碼調(diào)制就缆。
- ADPCM:Adaptive Differential Pulse Code Modulation帖渠,自適應差分脈沖編碼調(diào)制。
- SB-ADPCM:Subband Adaptive Differential Pulse Code Modulation竭宰,子帶-自適應差分脈沖編碼調(diào)制空郊。
- LPC:Linear Predictive Coding,線性預測編碼切揭。
- CELPC:Code Excited Linear Predictive Coding狞甚,碼激勵線性預測編碼。
- VSELPC:Vector Sum Excited Linear Predictive Coding廓旬,矢量和激勵線性預測編碼哼审。
- RPE-LTP:Regular Pulse Excited-Long Term Predictive,規(guī)則脈沖激勵長時預測嗤谚。
- LD-CELP:Low Delay-Code Excited Linear Predictive棺蛛,低時延碼激勵線性預測。
- MPE:Multi-Pulse Excited巩步,多脈沖激勵旁赊。
- PSTN:Public Switched Telephone Network,公共交換電話網(wǎng)椅野。
- ISDN:Integrated Services Digital Network终畅,綜合業(yè)務數(shù)字網(wǎng)。
音頻采樣率
音頻采樣率是指錄音設備在單位時間內(nèi)對模擬信號采樣的多少竟闪,采樣頻率越高离福,機械波的波形就越真實越自然。在當今的主流采集卡上炼蛤,采樣頻率一般共分為11025Hz妖爷、22050Hz、24000Hz理朋、44100Hz絮识、48000Hz五個等級,11025Hz能達到AM調(diào)幅廣播的聲音品質(zhì)嗽上,而22050Hz和24000HZ能達到FM調(diào)頻廣播的聲音品質(zhì)次舌,44100Hz則是理論上的CD音質(zhì)界限,48000Hz則更加精確一些兽愤。
常用的采樣率
- 8,000 Hz - 電話所用采樣率, 對于人的說話已經(jīng)足夠
- 11,025 Hz-AM調(diào)幅廣播所用采樣率
- 22,050 Hz和24,000 Hz- FM調(diào)頻廣播所用采樣率
- 32,000 Hz - miniDV 數(shù)碼視頻 camcorder彼念、DAT (LP mode)所用采樣率
- 44,100 Hz - 音頻 CD, 也常用于 MPEG-1 音頻(VCD, SVCD, MP3)所用采樣率
- 47,250 Hz - 商用 PCM 錄音機所用采樣率
- 48,000 Hz - miniDV挪圾、數(shù)字電視、DVD逐沙、DAT哲思、電影和專業(yè)音頻所用的數(shù)字聲音所用采樣率
- 50,000 Hz - 商用數(shù)字錄音機所用采樣率
- 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音軌吩案、BD-ROM(藍光盤)音軌也殖、和 HD-DVD (高清晰度 DVD)音軌所用所用采樣率
- 2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 過程所用采樣率
image
音頻采樣率實例
聲波其實是一種機械波,因此也有波長和振幅的特征务热,波長對應于時間軸線,振幅對應于采樣值軸線己儒。波是無限光滑的崎岂,弦線可以看成由無數(shù)點組成,由于存儲空間是相對有限的闪湾,數(shù)字編碼過程中冲甘,必須對弦線的點進行采樣。采樣的過程就是抽取某點的采樣值途样,很顯然江醇,在單位時間中內(nèi)抽取的點越多,獲取得波長信息更豐富何暇,為了復原波形陶夜,一個周期中,必須有至少2個點的采樣裆站,人耳能夠感覺到的最低波長為1.7cm条辟,即20000Hz,因此要滿足人耳的聽覺要求宏胯,則1s采樣至少40000次羽嫡,用40000Hz(40kHz)表達,這個40kHz就是采樣率肩袍。我們常見的CD杭棵,采樣率為44.1kHz。
采集過程中視頻和音頻同步是非常重要的氛赐,光有波長信息是不夠的魂爪,我們還必須獲得該波長的能量值并量化,用于表示信號強度鹰祸。量化電平數(shù)為2的整數(shù)次冪甫窟,我們常見的CD位16級的采樣大小,即2的4次方蛙婴。采樣大小相對采樣率更難理解粗井,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次采樣,采樣點分別對應的能量值分別為A1-A8浇衬,但我們只使用2bit的采樣大小懒构,結果我們只能保留A1-A8中4個點的值而舍棄另外4個。如果我們進行3bit的采樣大小耘擂,則剛好記錄下8個點的所有信息胆剧。采樣率和采樣大小的值越大,記錄的波形更接近原始信號醉冤。
三.音頻編碼
從信息論的觀點來看秩霍,描述信源的數(shù)據(jù)是信息和數(shù)據(jù)冗余之和,即: 數(shù)據(jù)=信息+數(shù)據(jù)冗余 蚁阳。音頻信號在時域和頻域上具有相關性铃绒,也即存在數(shù)據(jù)冗余。將音頻作為一個信源螺捐,音頻編碼的實質(zhì)是減少音頻中的冗余
3.1采樣率和采樣大小
聲音其實是一種能量波颠悬,因此也有頻率和振幅的特征,頻率對應于時間軸線定血,振幅對應于電平軸線赔癌。波是無限光滑的,弦線可以看成由無數(shù)點組成澜沟,由于存儲空間是相對有限的灾票,數(shù)字編碼過程中,必須對弦線的點進行采樣茫虽。采樣的過程就是抽取某點的頻率值铝条,很顯然,在一秒中內(nèi)抽取的點越多席噩,獲取得頻率信息更豐富班缰,為了復原波形,一次振動中悼枢,必須有2個點的采樣埠忘,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求馒索,則需要至少每秒進行40k次采樣莹妒,用40kHz表達,這個40kHz就是采樣率绰上。我們常見的CD旨怠,采樣率為44.1kHz。光有頻率信息是不夠的蜈块,我們還必須獲得該頻率的能量值并量化鉴腻,用于表示信號強度迷扇。量化電平數(shù)為2的整數(shù)次冪,我們常見的CD位16bit的采樣大小爽哎,即2的16次方蜓席。采樣大小相對采樣率更難理解,因為要顯得抽象點课锌,舉個簡單例子:假設對一個波進行8次采樣厨内,采樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的采樣大小渺贤,結果我們只能保留A1-A8中4個點的值而舍棄另外4個雏胃。如果我們進行3bit的采樣大小,則剛好記錄下8個點的所有信息志鞍。采樣率和采樣大小的值越大丑掺,記錄的波形更接近原始信號。
3.2 有損和無損
根據(jù)采樣率和采樣大小可以得知述雾,相對自然界的信號,音頻編碼最多只能做到無限接近兼丰,至少目前的技術只能這樣了玻孟,相對自然界的信號,任何數(shù)字音頻編碼方案都是有損的鳍征,因為無法完全還原黍翎。在計算機應用中,能夠達到最高保真水平的就是PCM編碼题禀,被廣泛用于素材保存及音樂欣賞舞终,CD播聪、DVD以及我們常見的WAV文件中均有應用。因此碰酝,PCM約定俗成了無損編碼,因為PCM代表了數(shù)字音頻中最佳的保真水準戴差,并不意味著PCM就能夠確保信號絕對保真送爸,PCM也只能做到最大程度的無限接近。我們而習慣性的把MP3列入有損音頻編碼范疇暖释,是相對PCM編碼的袭厂。強調(diào)編碼的相對性的有損和無損,是為了告訴大家球匕,要做到真正的無損是困難的纹磺,就像用數(shù)字去表達圓周率,不管精度多高亮曹,也只是無限接近橄杨,而不是真正等于圓周率的值秘症。
3.3 使用音頻壓縮技術的原因
要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數(shù) bps讥珍。一個采樣率為44.1KHz历极,采樣大小為16bit,雙聲道的PCM編碼的WAV文件衷佃,它的數(shù)據(jù)速率則為 44.1K×16×2 =1411.2 Kbps趟卸。我們常說128K的MP3,對應的WAV的參數(shù)氏义,就是這個1411.2 Kbps锄列,這個參數(shù)也被稱為數(shù)據(jù)帶寬,它和ADSL中的帶寬是一個概念惯悠。將碼率除以8,就可以得到這個WAV的數(shù)據(jù)速率邻邮,即176.4KB/s。這表示存儲一秒鐘采樣率為44.1KHz克婶,采樣大小為16bit筒严,雙聲道的PCM編碼的音頻信號,需要176.4KB的空間情萤,1分鐘則約為10.34M鸭蛙,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友筋岛,要降低磁盤占用娶视,只有2種方法,降低采樣指標或者壓縮睁宰。降低指標是不可取的肪获,因此專家們研發(fā)了各種壓縮方案。由于用途和針對的目標市場不一樣柒傻,各種音頻壓縮編碼所達到的音質(zhì)和壓縮比都不一樣孝赫,在后面的文章中我們都會一一提到。有一點是可以肯定的红符,他們都壓縮過
3.4 頻率與采樣率的關系
采樣率表示了每秒對原始信號采樣的次數(shù)寒锚,我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢违孝?假設我們有2段正弦波信號刹前,分別為20Hz和20KHz,長度均為一秒鐘雌桑,以對應我們能聽到的最低頻和最高頻喇喉,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什么樣的結果呢校坑?結果是:20Hz的信號每次振動被采樣了40K/20=2000次拣技,而20K的信號每次振動只有2次采樣千诬。顯然,在相同的采樣率下膏斤,記錄低頻的信息遠比高頻的詳細徐绑。這也是為什么有些音響發(fā)燒友指責CD有數(shù)碼聲不夠真實的原因,CD的44.1KHz采樣也無法保證高頻信號被較好記錄莫辨。要較好的記錄高頻信號傲茄,看來需要更高的采樣率,于是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率沮榜,這是不可取的盘榨!這其實對音質(zhì)沒有任何好處,對抓軌軟件來說蟆融,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質(zhì)的保證之一草巡,而不是去提高它。較高的采樣率只有相對模擬信號的時候才有用型酥,如果被采樣的信號是數(shù)字的山憨,請不要去嘗試提高采樣率。
3.5 流特征
隨著網(wǎng)絡的發(fā)展弥喉,人們對在線收聽音樂提出了要求郁竟,因此也要求音頻文件能夠一邊讀一邊播放,而不需要把這個文件全部讀出后然后回放档桃,這樣就可以做到不用下載就可以實現(xiàn)收聽了;也可以做到一邊編碼一邊播放憔晒,正是這種特征藻肄,可以實現(xiàn)在線的直播,架設自己的數(shù)字廣播電臺成為了現(xiàn)實拒担。
四.編碼分類
根據(jù)編碼方式的不同嘹屯,音頻編碼技術分為三種:波形編碼、參數(shù)編碼和混合編碼从撼。一般來說州弟,波形編碼的話音質(zhì)量高,但編碼率也很高低零;參數(shù)編碼的編碼率很低婆翔,產(chǎn)生的合成語音的音質(zhì)不高;混合編碼使用參數(shù)編碼技術和波形編碼技術掏婶,編碼率和音質(zhì)介于它們之間啃奴。
-
波形編碼
波形編碼是指不利用生成音頻信號的任何參數(shù),直接將時間域信號變換為數(shù)字代碼雄妥,使重構的語音波形盡可能地與原始語音信號的波形形狀保持一致最蕾。波形編碼的基本原理是在時間軸上對模擬語音信號按一定的速率抽樣依溯,然后將幅度樣本分層量化,并用代碼表示瘟则。
波形編碼方法簡單黎炉、易于實現(xiàn)、適應能力強并且語音質(zhì)量好醋拧。不過因為壓縮方法簡單也帶來了一些問題:壓縮比相對較低慷嗜,導致較高的編碼率。一般來說趁仙,波形編碼的復雜程度比較低洪添,編碼率較高。通常編碼率在16 kbit/s以上的音頻質(zhì)量相當高雀费,當編碼率低于16 kbit/s時干奢,音質(zhì)會急劇下降。
最簡單的波形編碼方法是PCM(Pulse Code Modulation盏袄,脈沖編碼調(diào)制)忿峻,它只對語音信號進行采樣和量化處理。優(yōu)點是編碼方法簡單辕羽,延遲時間短逛尚,音質(zhì)高,重構的語音信號與原始語音信號幾乎沒有差別刁愿。不足之處是編碼率比較高(64 kbit/s)绰寞,對傳輸通道的錯誤比較敏感 -
參數(shù)編碼
參數(shù)編碼是從語音波形信號中提取生成語音的參數(shù),使用這些參數(shù)通過語音生成模型重構出語音铣口,使重構的語音信號盡可能地保持原始語音信號的語意滤钱。也就是說,參數(shù)編碼是把語音信號產(chǎn)生的數(shù)字模型作為基礎脑题,然后求出數(shù)字模型的模型參數(shù)件缸,再按照這些參數(shù)還原數(shù)字模型,進而合成語音叔遂。
參數(shù)編碼的編碼率較低他炊,可以達到2.4 kbit/s,產(chǎn)生的語音信號是通過建立的數(shù)字模型還原出來的已艰,因此重構的語音信號波形與原始語音信號的波形可能會存在較大的區(qū)別痊末、失真會比較大。而且因為受到語音生成模型的限制哩掺,增加數(shù)據(jù)速率也無法提高合成語音的質(zhì)量舌胶。不過,雖然參數(shù)編碼的音質(zhì)比較低疮丛,但是保密性很好幔嫂,一直被應用在軍事上辆它。典型的參數(shù)編碼方法為LPC(Linear Predictive Coding,線性預測編碼)履恩。 -
混合編碼
混合編碼是指同時使用兩種或兩種以上的編碼方法進行編碼锰茉。這種編碼方法克服了波形編碼和參數(shù)編碼的弱點,并結合了波形編碼高質(zhì)量和參數(shù)編碼的低編碼率切心,能夠取得比較好的效果飒筑。
五.編碼格式以及特點
5.1 PCM編碼
PCM 脈沖編碼調(diào)制是Pulse Code Modulation的縮寫。我們不需要關心PCM最終編碼采用的是什么計算方式绽昏,我們只需要知道PCM編碼的音頻流的優(yōu)點和缺點就可以了协屡。PCM編碼的最大的優(yōu)點就是音質(zhì)好,最大的缺點就是體積大全谤。我們常見的Audio CD就采用了PCM編碼肤晓,一張光盤的容量只能容納72分鐘的音樂信息。
5.2WAV格式
這是一種古老的音頻文件格式认然,由微軟開發(fā)补憾。WAV是一種文件格式,符合RIFF (Resource Interchange File Format) 規(guī)范卷员。所有的WAV都有一個文件頭盈匾,這個文件頭包含了音頻流的編碼參數(shù)。WAV對音頻流的編碼沒有硬性規(guī)定毕骡,除了PCM之外削饵,還有幾乎所有支持ACM規(guī)范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念未巫,我們拿AVI做個示范窿撬,因為AVI和WAV在文件結構上是非常相似的,不過AVI多了一個視頻流而已橱赠。我們接觸到的AVI有很多種尤仍,因此我們經(jīng)常需要安裝一些Decode才能觀看一些AVI箫津,我們接觸到比較多的DivX就是一種視頻編碼狭姨,AVI可以采用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮苏遥。同樣饼拍,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV田炭,但這不表示W(wǎng)AV只能使用PCM編碼师抄,MP3編碼同樣也可以運用在WAV中,和AVI一樣教硫,只要安裝好了相應的Decode叨吮,就可以欣賞這些WAV了辆布。
在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式茶鉴,所有音頻軟件都能完美支持锋玲,由于本身可以達到較高的音質(zhì)的要求,因此涵叮,WAV也是音樂編輯創(chuàng)作的首選格式惭蹂,適合保存音樂素材。因此割粮,基于PCM編碼的WAV被作為了一種中介的格式盾碗,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA舀瓢。
- 特點:音質(zhì)非常好廷雅,被大量軟件所支持。
- 適用于:多媒體開發(fā)氢伟、保存音樂和音效素材榜轿。
5.3MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受朵锣,各種與MP3相關的軟件產(chǎn)品層出不窮谬盐,而且更多的硬件產(chǎn)品也開始支持MP3,我們能夠買到的VCD/DVD播放機都很多都能夠支持MP3诚些,還有更多的便攜的MP3播放器等等飞傀,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮的格式的生存與流傳诬烹。MP3發(fā)展已經(jīng)有10個年頭了砸烦,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的簡稱,是MPEG1的衍生編碼方案绞吁,1993年由德國Fraunhofer IIS研究院和湯姆生公司合作發(fā)展成功幢痘。MP3可以做到12:1的驚人壓縮比并保持基本可聽的音質(zhì),在當年硬盤天價的日子里家破,MP3迅速被用戶接受颜说,隨著網(wǎng)絡的普及,MP3被數(shù)以億計的用戶接受汰聋。MP3編碼技術的發(fā)布之初其實是非常不完善的门粪,由于缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼烹困,音質(zhì)破壞嚴重玄妈。隨著新技術的不斷導入,mp3編碼技術一次一次的被改良,其中有2次重大技術上的改進拟蜻。
關于VBR
VBR:MP3格式的文件有一個有意思的特征绎签,就是可以邊讀邊放,這也符合流媒體的最基本特征酝锅。也就是說播放器可以不用預讀文件的全部內(nèi)容就可以播放辜御,讀到哪里播放到哪里,即使是文件有部分損壞屈张。雖然mp3可以有文件頭擒权,但對于mp3格式的文件卻不是很重要,正因為這種特性阁谆,決定了MP3文件的每一段每一幀都可以單獨的平均數(shù)據(jù)速率碳抄,而無需特別的解碼方案。于是出現(xiàn)了一種叫VBR(Variable bitrate场绿,動態(tài)數(shù)據(jù)速率)的技術剖效,可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在保證音質(zhì)的前提下最大程度的限制了文件的大小焰盗。這種技術的優(yōu)越性是顯而易見的璧尸,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配bitrate熬拒,這對沒有波形分析的編碼器而言爷光,這種技術如同虛設。正是如此澎粟,VBR技術并沒有一出現(xiàn)就顯得光彩奪目蛀序。
專家們通過長期的聲學研究,發(fā)現(xiàn)人耳存在遮蔽效應活烙。聲音信號實際是一種能量波徐裸,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的反應就是聽到這個聲音的大小啸盏,我們稱它為響度重贺,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音回懦,人們也會因為它們頻率不同而感覺到聲音大小不同气笙。人耳最容易聽到的就是500Hz的頻率,不管頻率是否增高或降低粉怕,即使是響度在相同的情況下健民,大家都會覺得聲音在變小抒巢。但響度降到一定程度時贫贝,人耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型稚晚,當頻率超過15000Hz時崇堵,人耳的會感覺到聲音很小,很多聽覺不是很好的人客燕,根本就聽不到20000Hz的頻率鸳劳,不管響度有多大。當人耳同時聽到兩個不同頻率也搓、不同響度的聲音時赏廓,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音傍妒,晚上卻成了噪聲源幔摸,根據(jù)這種原理,編碼器可以過濾掉很多聽不到的聲音颤练,以簡化信息復雜度既忆,增加壓縮比,而不明顯的降低音質(zhì)嗦玖。這種遮蔽被稱為同時遮蔽效應患雇。但聲音A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內(nèi)宇挫,遮蔽會更明顯,這個范圍叫臨界帶寬苛吱。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬器瘪。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
根據(jù)這種效應又谋,專家們設計出人耳聽覺心理模型,這個模型被導入到mp3編碼中后娱局,導致了一場翻天覆地的音質(zhì)革命彰亥,mp3編碼技術一直背負著音質(zhì)差的惡名,但這個惡名現(xiàn)在已經(jīng)逐漸被洗脫衰齐。到了此時任斋,一直被埋沒的VBR技術光彩四射,配合心理模型的運用便現(xiàn)實出強大的誘惑力與殺傷力耻涛。
長期來废酷,很多人對MP3印象不好,更多人認為WMA的最佳音質(zhì)要好過MP3抹缕,這種說法是不正確的澈蟆,在中高碼率下,編碼得當?shù)腗P3要比WMA優(yōu)秀很多卓研,可以非常接近CD音質(zhì)趴俘,在不太好的硬件設備支持下睹簇,沒有多少人可以區(qū)分兩者的差異,這不是神話故事寥闪,盡管你以前盲聽就可以很輕松區(qū)分MP3和CD太惠,但現(xiàn)在你難保證你可以分辨正確。因為MP3是優(yōu)秀的編碼疲憋,以前被埋沒了凿渊。
- 特點:音質(zhì)好,壓縮比比較高缚柳,被大量軟件和硬件支持埃脏,應用廣泛。
- 適用于:適合用于比較高要求的音樂欣賞秋忙。
5.4 OGG編碼
網(wǎng)絡上出現(xiàn)了一種叫Ogg Vorbis的音頻編碼剂癌,號稱MP3殺手!Ogg Vorbis究竟什么來頭呢翰绊?OGG是一個龐大的多媒體開發(fā)計劃的項目名稱佩谷,將涉及視頻音頻等方面的編碼開發(fā)。整個OGG項目計劃的目的就是向任何人提供完全免費多媒體編碼方案监嗜!OGG的信念就是:OPEN谐檀!FREE!Vorbis這個詞匯是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名裁奇。這個詞匯成為了OGG項目中音頻編碼的正式命名桐猬。目前Vorbis已經(jīng)開發(fā)成功,并且開發(fā)出了編碼器刽肠。
Ogg Vorbis是高質(zhì)量的音頻編碼方案溃肪,官方數(shù)據(jù)顯示:Ogg Vorbis可以在相對較低的數(shù)據(jù)速率下實現(xiàn)比MP3更好的音質(zhì)!Ogg Vorbis這種編碼也遠比90年代開發(fā)成功的MP3先進音五,它可以支持多聲道惫撰,這意味著什么?這意味著Ogg Vorbis在SACD躺涝、DTSCD厨钻、DVD AUDIO抓軌軟件(目前這種軟件還沒有)的支持下,可以對所有的聲道進行編碼坚嗜,而不是MP3只能編碼2個聲道夯膀。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化苍蔬,尤其在欣賞交響時诱建,會帶來更多臨場感。這場革命性的變化是MP3無法適應的碟绑。
和MP3一樣俺猿,Ogg Vorbis是一種靈活開放的音頻編碼茎匠,能夠在編碼方案已經(jīng)固定下來后還能對音質(zhì)進行明顯的調(diào)節(jié)和新算法的改良。因此辜荠,它的聲音質(zhì)量將會越來越好,和MP3相似抓狭,Ogg Vorbis更像一個音頻編碼框架伯病,可以不斷導入新技術逐步完善。和MP3一樣否过,OGG也支持VBR午笛。
- 特點:可以用比mp3更小的碼率實現(xiàn)比mp3更好的音質(zhì),高中低碼率下均具有良好的表現(xiàn)苗桂。
- 適用于:用更小的存儲空間獲得更好的音質(zhì)(相對MP3)药磺。
5.5 MPC編碼
MPC是又是另外一個令人刮目相看的實力派選手,它的普及過程非常低調(diào)煤伟,也沒有什么復雜的背景故事癌佩,她的出現(xiàn)目的就只有一個,更小的體積更好的音質(zhì)便锨!MPC以前被稱作MP+围辙,很顯然,可以看出她針對的競爭對手是誰放案。但是姚建,只要用過這種編碼的人都會有個深刻的印象,就是她出眾的音質(zhì)吱殉。
特點:中高碼率下掸冤,具有有損編碼中最佳的音質(zhì)表現(xiàn),高碼率下友雳,高頻表現(xiàn)極佳稿湿。
適用于:在節(jié)省大量空間的前提下獲得最佳音質(zhì)的音樂欣賞。
5.6 mp3PRO編碼
2001年6月14日押赊,美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協(xié)會(Fraunhofer Institute)于6月14日發(fā)布了一種新的音樂格式版本缎罢,名稱為mp3PRO,這是一種基于mp3編碼技術的改良方案考杉,從官方公布的特征看來確實相當吸引人策精。從各方面的資料顯示,mp3PRO并不是一種全新的格式崇棠,完全是基于傳統(tǒng)mp3編碼技術的一種改良咽袜,本身最大的技術亮點就在于SBR(Spectral Band Replication 頻段復制),這是一種新的音頻編碼增強算法枕稀。它提供了改善低位率情況下音頻和語音編碼的性能的可能询刹。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率谜嫉。SBR最大的優(yōu)勢就是在低數(shù)據(jù)速率下實現(xiàn)非常高效的編碼,與傳統(tǒng)的編碼技術不同的是凹联,SBR更像是一種后處理技術沐兰,因此解碼器的算法的優(yōu)劣直接影響到音質(zhì)的好壞。高頻實際上是由解碼器(播放器)產(chǎn)生的蔽挠,SBR編碼的數(shù)據(jù)更像是一種產(chǎn)生高頻的命令集住闯,或者稱為指導性的信號源,這有點駇idi的工作方式澳淑。我們可以看到比原,mp3PRO其實是一種mp3信號流和SBR信號流的混合數(shù)據(jù)流編碼。有關資料顯示杠巡,SBR技術可以改善低數(shù)據(jù)流量下的高頻音質(zhì)量窘,改善程度約為30%,我們不管這個30%是如何得來的氢拥,但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質(zhì)水平(注:在相同的編碼條件下蚌铜,數(shù)據(jù)速率的提升和音質(zhì)的提升不是成正比的,至少人耳聽覺上是這樣的)嫩海,這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的厘线。
- 特點:低碼率下的音質(zhì)之王。
- 適用于:低要求下的音樂欣賞出革。
5.7 WMA格式
WMA就是Windows Media Audio編碼后的文件格式造壮,由微軟開發(fā),WMA針對的不是單機市場骂束,是網(wǎng)絡耳璧!競爭對手就是網(wǎng)絡媒體市場中著名的Real Networks。微軟聲稱展箱,在只有64kbps的碼率情況下旨枯,WMA可以達到接近CD的音質(zhì)。和以往的編碼不同混驰,WMA支持防復制功能攀隔,她支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數(shù)甚至于播放的機器等等栖榨。WMA支持流技術昆汹,即一邊讀一邊播放,因此WMA可以很輕松的實現(xiàn)在線廣播婴栽,由于是微軟的杰作满粗,因此,微軟在Windows中加入了對WMA的支持愚争,WMA有著優(yōu)秀的技術特征映皆,在微軟的大力推廣下挤聘,這種格式被越來越多的人所接受。
- 特點:低碼率下的音質(zhì)表現(xiàn)難有對手捅彻。
- 適用于:數(shù)字電臺架設组去、在線試聽、低要求下的音樂欣賞步淹。
5.8 RA格式
RA就是RealAudio格式从隆,這是各位網(wǎng)蟲接觸得非常多的一種格式,大部分音樂網(wǎng)站的在線試聽都是采用了RealAudio贤旷,這種格式完全針對的就是網(wǎng)絡上的媒體市場广料,支持非常豐富的功能砾脑。最大的閃爍點就是這種格式可以根據(jù)聽眾的帶寬來控制自己的碼率幼驶,在保證流暢的前提下盡可能提高音質(zhì)。RA可以支持多種音頻編碼韧衣,包括ATRAC3盅藻。和WMA一樣,RA不但都支持邊讀邊放畅铭,也同樣支持使用特殊協(xié)議來隱匿文件的真實網(wǎng)絡地址氏淑,從而實現(xiàn)只在線播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要硕噩,在各方的大力推廣下假残,RA和WMA是目前互聯(lián)網(wǎng)上,用于在線試聽最多的音頻媒體格式炉擅。
5.9 APE格式
APE是Monkey's Audio提供的一種無損壓縮格式辉懒。Monkey's Audio提供了Winamp的插件支持,因此這就意味著壓縮后的文件不再是單純的壓縮格式谍失,而是和MP3一樣可以播放的音頻文件格式眶俩。這種格式的壓縮比遠低于其他格式,但能夠做到真正無損快鱼,因此獲得了不少發(fā)燒用戶的青睞颠印。在現(xiàn)有不少無損壓縮方案種,APE是一種有著突出性能的格式抹竹,令人滿意的壓縮比以及飛快的壓縮速度线罕,成為了不少朋友私下交流發(fā)燒音樂的唯一選擇。
- 特點:音質(zhì)非常好窃判。
- 適用于:最高品質(zhì)的音樂欣賞及收藏闻坚。
六.總結
本文詳細介紹了聲音的產(chǎn)生、聲音的三要素兢孝、數(shù)字音頻窿凤、音頻數(shù)字模擬化仅偎,音頻編碼、編碼分類及使用場景.