信息論的觀點來看,描述信源的數(shù)據(jù)是信息和數(shù)據(jù)冗余之和故俐,即:數(shù)據(jù)=信息+數(shù)據(jù)冗余分瘾。音頻信號在時域和頻域上具有相關性胎围,也即存在數(shù)據(jù)冗余。將音頻作為一個信源德召,音頻編碼的實質(zhì)是減少音頻中的冗余白魂。
自然界中的聲音非常復雜,波形極其復雜上岗,通常我們采用的是脈沖代碼調(diào)制編碼福荸,即PCM編碼。PCM通過抽樣肴掷、量化敬锐、編碼三個步驟將連續(xù)變化的模擬信號轉(zhuǎn)換為數(shù)字編碼。
內(nèi)容介紹
聲音三要素
聲音的特性可由三個要素來描述呆瞻,即響度台夺、音調(diào)和音色。
- 響度:人耳對聲音強弱的主觀感覺稱為響度痴脾。響度和聲波振動的幅度有關谒养。一般說來,聲波振動幅度越大則響度也越大明郭。當我們用較大的力量敲鼓時,鼓膜振動的幅度大丰泊,發(fā)出的聲音響薯定;輕輕敲鼓時,鼓膜振動的幅度小瞳购,發(fā)出的聲音弱话侄。
音叉振動時發(fā)出的聲波為單音,即只有一個頻率成分学赛。若設法將音叉的振動規(guī)律記錄下來年堆,可發(fā)現(xiàn)其振動波形為一正弦波。當用不同力量敲擊某個音叉時盏浇,音叉發(fā)出的聲波幅度不同变丧,這意味著聲音的響度不同。給出了兩個聲音波形绢掰,其幅度一大一小痒蓬,幅度大的波形其聲音響度大童擎,幅度小的波形其聲音響度小。另外攻晒,人們對響度的感覺還和聲波的頻率有關顾复,同樣強度的聲波,如果其頻率不同鲁捏,人耳感覺到的響度也不同芯砸。 - 音調(diào):人耳對聲音高低的感覺稱為音調(diào)。音調(diào)主要與聲波的頻率有關给梅。聲波的頻率高假丧,則音調(diào)也高。當我們分別敲擊一個小鼓和一個大鼓時破喻,會感覺它們所發(fā)出的聲音不同虎谢。小鼓被敲擊后振動頻率快,發(fā)出的聲音比較清脆曹质,即音調(diào)較高婴噩;而大鼓被敲擊后振動頻率較慢,發(fā)出的聲音比較低沉羽德,即音調(diào)較低几莽。如果分別敲擊一個小音叉和一個大音叉時,同樣會感覺到小音叉所發(fā)聲音的音調(diào)較高宅静,大音叉所發(fā)聲音音調(diào)較低章蚣。如果設法把大、小音叉所發(fā)出的聲波記錄下來姨夹,可發(fā)現(xiàn)小音叉在單位時間內(nèi)振動的次數(shù)多纤垂,即頻率高,大音叉在單位時間內(nèi)振動的次數(shù)少磷账,即頻率低峭沦。給出了兩個頻率不同的聲音波形,從聲音可聽出逃糟,頻率高的聲音波形聽起來音調(diào)較高吼鱼,而頻率低的聲音波形聽起來則音調(diào)較低。
- 音色:音色是人們區(qū)別具有同樣響度绰咽、同樣音調(diào)的兩個聲音之所以不同的特性菇肃,或者說是人耳對各種頻率、各種強度的聲波的綜合反應取募。音色與聲波的振動波形有關琐谤,或者說與聲音的頻譜結(jié)構(gòu)有關。前面說過矛辕,音叉可產(chǎn)生一個單一頻率的聲波笑跛,其波形為正弦波付魔。但實際上人們在自然界中聽到的絕大部分聲音都具有非常復雜的波形,這些波形由基波和多種諧波構(gòu)成飞蹂。諧波的多少和強弱構(gòu)成了不同的音色几苍。各種發(fā)聲物體在發(fā)出同一音調(diào)聲音時,其基波成分相同陈哑。但由于諧波的多少不同妻坝,并且各次諧波的幅度各異,因而產(chǎn)生了不同的音色惊窖。
例如當我們聽胡琴和揚琴等樂器同奏一個曲子時刽宪,雖然它們的音調(diào)相同,但我們卻能把不同樂器的聲音區(qū)別開來界酒。這是因為圣拄,各種樂器的發(fā)音材料和結(jié)構(gòu)不同,它們發(fā)出同一個音調(diào)的聲音時毁欣,雖然基波相同庇谆,但諧波構(gòu)成不同,因此產(chǎn)生的波形不同凭疮,從而造成音色不同饭耳。給出了小提琴和鋼琴的波形和聲音,這兩個聲音的響度和音調(diào)都是相同的执解,但聽起來卻不一樣寞肖,這就是因為這兩個聲音的音色不同(波形不同)。
音調(diào)是指聲音的高低衰腌,它是由聲源振動的頻率決定的.響度是指聲音的大小新蟆,它是由聲源振動的振幅決定的且與距離有關。比如我們看電視時右蕊,調(diào)節(jié)音量開關栅葡,可以控制聲音的大小,而不能改變音調(diào)的高低.在日常生活用的語言中尤泽,往往用“高低”來表示聲音的大小,比如“高聲喧嘩”中的“高”规脸,不是指音調(diào)高低坯约,而是指聲音“大小”.在學習中不注意聲音大小和高低的區(qū)別,會造成音調(diào)和響度兩個不同的概念模糊不清莫鸭,這在學習中應該引起特別注意闹丐。
采樣率和采樣大小
聲音其實是一種能量波,因此也有頻率和振幅的特征被因,頻率對應于時間軸線卿拴,振幅對應于電平軸線衫仑。波是無限光滑的,弦線可以看成由無數(shù)點組成堕花,由于存儲空間是相對有限的文狱,數(shù)字編碼過程中,必須對弦線的點進行采樣缘挽。采樣的過程就是抽取某點的頻率值瞄崇,很顯然,在一秒中內(nèi)抽取的點越多壕曼,獲取得頻率信息更豐富苏研,為了復原波形,一次振動中腮郊,必須有2個點的采樣摹蘑,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求轧飞,則需要至少每秒進行40k次采樣衅鹿,用40kHz表達,這個40kHz就是采樣率踪少。我們常見的CD塘安,采樣率為44.1kHz。光有頻率信息是不夠的援奢,我們還必須獲得該頻率的能量值并量化兼犯,用于表示信號強度从诲。量化電平數(shù)為2的整數(shù)次冪谓着,我們常見的CD位16bit的采樣大小症见,即2的16次方聋庵。采樣大小相對采樣率更難理解柔逼,因為要顯得抽象點盯腌,舉個簡單例子:假設對一個波進行8次采樣冻辩,采樣點分別對應的能量值分別為A1-A8蛋铆,但我們只使用2bit的采樣大小驱显,結(jié)果我們只能保留A1-A8中4個點的值而舍棄另外4個诗芜。如果我們進行3bit的采樣大小,則剛好記錄下8個點的所有信息埃疫。采樣率和采樣大小的值越大伏恐,記錄的波形更接近原始信號。
有損和無損
根據(jù)采樣率和采樣大小可以得知栓霜,相對自然界的信號翠桦,音頻編碼最多只能做到無限接近,至少目前的技術(shù)只能這樣了胳蛮,相對自然界的信號销凑,任何數(shù)字音頻編碼方案都是有損的丛晌,因為無法完全還原。在計算機應用中斗幼,能夠達到最高保真水平的就是PCM編碼澎蛛,被廣泛用于素材保存及音樂欣賞,CD孟岛、DVD以及我們常見的WAV文件中均有應用瓶竭。因此,PCM約定俗成了無損編碼渠羞,因為PCM代表了數(shù)字音頻中最佳的保真水準斤贰,并不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近次询。我們而習慣性的把MP3列入有損音頻編碼范疇荧恍,是相對PCM編碼的。強調(diào)編碼的相對性的有損和無損屯吊,是為了告訴大家送巡,要做到真正的無損是困難的,就像用數(shù)字去表達圓周率盒卸,不管精度多高骗爆,也只是無限接近,而不是真正等于圓周率的值蔽介。
使用音頻壓縮技術(shù)的原因
要算一個PCM音頻流的碼率是一件很輕松的事情摘投,采樣率值×采樣大小值×聲道數(shù) bps。一個采樣率為44.1KHz虹蓄,采樣大小為16bit犀呼,雙聲道的PCM編碼的WAV文件,它的數(shù)據(jù)速率則為 44.1K×16×2 =1411.2 Kbps薇组。我們常說128K的MP3外臂,對應的WAV的參數(shù),就是這個1411.2 Kbps律胀,這個參數(shù)也被稱為數(shù)據(jù)帶寬宋光,它和ADSL中的帶寬是一個概念。將碼率除以8,就可以得到這個WAV的數(shù)據(jù)速率炭菌,即176.4KB/s跃须。這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit娃兽,雙聲道的PCM編碼的音頻信號,需要176.4KB的空間尽楔,1分鐘則約為10.34M投储,這對大部分用戶是不可接受的第练,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用玛荞,只有2種方法娇掏,降低采樣指標或者壓縮。降低指標是不可取的勋眯,因此專家們研發(fā)了各種壓縮方案婴梧。由于用途和針對的目標市場不一樣,各種音頻壓縮編碼所達到的音質(zhì)和壓縮比都不一樣客蹋,在后面的文章中我們都會一一提到塞蹭。有一點是可以肯定的,他們都壓縮過讶坯。
頻率與采樣率的關系
采樣率表示了每秒對原始信號采樣的次數(shù)番电,我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢辆琅?假設我們有2段正弦波信號漱办,分別為20Hz和20KHz,長度均為一秒鐘婉烟,以對應我們能聽到的最低頻和最高頻娩井,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什么樣的結(jié)果呢似袁?結(jié)果是:20Hz的信號每次振動被采樣了40K/20=2000次洞辣,而20K的信號每次振動只有2次采樣。顯然叔营,在相同的采樣率下屋彪,記錄低頻的信息遠比高頻的詳細。這也是為什么有些音響發(fā)燒友指責CD有數(shù)碼聲不夠真實的原因绒尊,CD的44.1KHz采樣也無法保證高頻信號被較好記錄畜挥。要較好的記錄高頻信號,看來需要更高的采樣率婴谱,于是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率蟹但,這是不可取的!這其實對音質(zhì)沒有任何好處谭羔,對抓軌軟件來說华糖,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質(zhì)的保證之一,而不是去提高它瘟裸。較高的采樣率只有相對模擬信號的時候才有用客叉,如果被采樣的信號是數(shù)字的,請不要去嘗試提高采樣率。
亨利·奈奎斯特(Harry Nyquist)采樣定理:當對連續(xù)變化的信號波形進行采樣時,若采樣率fs高于該信號所含最高頻率的兩倍,那么可以由采樣值通過插補技術(shù)正確的回復原信號中的波形,否則將會引起頻譜混疊(Aliasing),產(chǎn)生混疊噪音(Aliasing Noise),而重疊的部分是不能恢復的.(同樣適用于模擬視頻信號的采樣)
人聲語音的特點兼搏。人類的聽力感知范圍是從20Hz到20kHz卵慰。這個頻寬范圍被劃分成四個頻寬類別:窄帶、寬帶佛呻、超寬帶和全帶裳朋。
音軌和聲道的區(qū)別?
- 音軌:過去吓著,當歌手在錄音棚里錄音的情況跟現(xiàn)在大不一樣 就是讓歌手和樂隊一起錄音 歌手一邊唱鲤嫡,樂隊一邊伴奏 然后錄音機把這些聲音一起錄下來。 大多數(shù)讀者都認為錄音就是這樣錄 而且過去也的確這樣錄的 不過這樣錄音有一個很不方便的地方 那就是绑莺,如果歌手唱錯了暖眼,錄音師要歌手從新開始唱 那么樂隊也要重新開始伴奏 如果歌手唱錯一兩次還沒大關系 如果歌手唱錯三、四次甚至是更多次數(shù) 那么樂隊就要跟著重新伴奏四紊撕、五次或更多 而且這樣的情況并不少見 這樣樂隊就會產(chǎn)生不滿的情緒 還會產(chǎn)生其他一┎環(huán)獎? 后來就采用了一項新技術(shù)罢荡,可以避免這樣的不便 那就是讓樂隊單獨演奏,并用錄音設備錄下來对扶,只是錄在單獨一條音軌上
然后讓歌手帶上耳機区赵,聽著樂隊的伴奏錄音演唱, 并錄下來浪南,錄在另一條和伴奏音軌平行的音軌上 如果歌手唱錯了笼才,需要重新唱,只要把伴奏錄音重新放就可以了 這種技術(shù)就是雙音軌技術(shù)络凿,這種技術(shù)能夠把多種聲音混合的錄在一起骡送,實現(xiàn)各種美妙的音效 其實我們唱的卡拉OK就是采用了音軌技術(shù)
其實以上說的是雙音軌技術(shù),還有多音軌技術(shù)絮记,可以把三摔踱、四種聲音或者更多的聲音分別錄制成單獨的音軌然后一起播放出來 - 聲道數(shù):聲卡所支持的聲道數(shù)是衡量聲卡檔次的重要指標之一,從單聲道到最新的環(huán)繞立體聲怨愤,下面一一詳細介紹:
- 單聲道
單聲道是比較原始的聲音復制形式派敷,早期的聲卡采用的比較普遍。當通過兩個揚聲器回放單聲道信息的時候撰洗,我們可以明顯感覺到聲音是從兩個音箱中間傳遞到我們耳朵里的篮愉。這種缺乏位置感的錄制方式用現(xiàn)在的眼光看自然是很落后的,但在聲卡剛剛起步時差导,已經(jīng)是非常先進的技術(shù)了试躏。 - 立體聲
單聲道缺乏對聲音的位置定位,而立體聲技術(shù)則徹底改變了這一狀況设褐。聲音在錄制過程中被分配到兩個獨立的聲道颠蕴,從而達到了很好的聲音定位效果泣刹。這種技術(shù)在音樂欣賞中顯得尤為有用,聽眾可以清晰地分辨出各種樂器來自的方向犀被,從而使音樂更富想象力项玛,更加接近于臨場感受。立體聲技術(shù)廣泛運用于自Sound Blaster Pro以后的大量聲卡弱判,成為了影響深遠的一個音頻標準。時至今日锥惋,立體聲依然是許多產(chǎn)品遵循的技術(shù)標準昌腰。 - 準立體聲
準立體聲聲卡的基本概念就是:在錄制聲音的時候采用單聲道,而放音有時是立體聲膀跌,有時是單聲道遭商。采用這種技術(shù)的聲卡也曾在市面上流行過一段時間,但現(xiàn)在已經(jīng)銷聲匿跡了捅伤。 - 四聲道環(huán)繞
人們的欲望是無止境的劫流,立體聲雖然滿足了人們對左右聲道位置感體驗的要求,但是隨著技術(shù)的進一步發(fā)展丛忆,大家逐漸發(fā)現(xiàn)雙聲道已經(jīng)越來越不能滿足我們的需求祠汇。由于PCI聲卡的出現(xiàn)帶來了許多新的技術(shù),其中發(fā)展最為神速的當數(shù)三維音效熄诡。三維音效的主旨是為人們帶來一個虛擬的聲音環(huán)境可很,通過特殊的HRTF技術(shù)營造一個趨于真實的聲場,從而獲得更好的游戲聽覺效果和聲場定位凰浮。而要達到好的效果我抠,僅僅依靠兩個音箱是遠遠不夠的,所以立體聲技術(shù)在三維音效面前就顯得捉襟見肘了袜茧,但四聲道環(huán)繞音頻技術(shù)則很好的解決了這一問題菜拓。
四聲道環(huán)繞規(guī)定了4個發(fā)音點:前左、前右笛厦,后左纳鼎、后右,聽眾則被包圍在這中間递递。同時還建議增加一個低音音箱喷橙,以加強對低頻信號的回放處理(這也就是如今4.1聲道音箱系統(tǒng)廣泛流行的原因)。就整體效果而言登舞,四聲道系統(tǒng)可以為聽眾帶來來自多個不同方向的聲音環(huán)繞贰逾,可以獲得身臨各種不同環(huán)境的聽覺感受,給用戶以全新的體驗菠秒。如今四聲道技術(shù)已經(jīng)廣泛融入于各類中高檔聲卡的設計中疙剑,成為未來發(fā)展的主流趨勢氯迂。 - 5.1聲道
5.1聲道已廣泛運用于各類傳統(tǒng)影院和家庭影院中,一些比較知名的聲音錄制壓縮格式言缤,譬如杜比AC-3(Dolby Digital)嚼蚀、DTS等都是以5.1聲音系統(tǒng)為技術(shù)藍本的,其中“.1”聲道管挟,則是一個專門設計的超低音聲道轿曙,這一聲道可以產(chǎn)生頻響范圍20~120Hz的超低音。其實5.1聲音系統(tǒng)來源于4.1環(huán)繞僻孝,不同之處在于它增加了一個中置單元导帝。這個中置單元負責傳送低于80Hz的聲音信號,在欣賞影片時有利于加強人聲穿铆,把對話集中在整個聲場的中部您单,以增加整體效果。相信每一個真正體驗過Dolby AC-3音效的朋友都會為5.1聲道所折服荞雏。
流特征
隨著網(wǎng)絡的發(fā)展虐秦,人們對在線收聽音樂提出了要求,因此也要求音頻文件能夠一邊讀一邊播放凤优,而不需要把這個文件全部讀出后然后回放悦陋,這樣就可以做到不用下載就可以實現(xiàn)收聽了;也可以做到一邊編碼一邊播放别洪,正是這種特征叨恨,可以實現(xiàn)在線的直播,架設自己的數(shù)字廣播電臺成為了現(xiàn)實挖垛。
編碼分類
根據(jù)編碼方式的不同痒钝,音頻編碼技術(shù)分為三種:波形編碼、參數(shù)編碼和混合編碼痢毒。一般來說送矩,波形編碼的話音質(zhì)量高,但編碼速率也很高哪替;參數(shù)編碼的編碼速率很低栋荸,產(chǎn)生的合成語音的音質(zhì)不高;混合編碼使用參數(shù)編碼技術(shù)和波形編碼技術(shù)凭舶,編碼速率和音質(zhì)介于它們之間晌块。
1、波形編碼
波形編碼是指不利用生成音頻信號的任何參數(shù)帅霜,直接將時間域信號變換為數(shù)字代碼匆背,使重構(gòu)的語音波形盡可能地與原始語音信號的波形形狀保持一致。波形編碼的基本原理是在時間軸上對模擬語音信號按一定的速率抽樣身冀,然后將幅度樣本分層量化钝尸,并用代碼表示括享。
波形編碼方法簡單、易于實現(xiàn)珍促、適應能力強并且語音質(zhì)量好铃辖。不過因為壓縮方法簡單也帶來了一些問題:壓縮比相對較低,需要較高的編碼速率猪叙。一般來說娇斩,波形編碼的復雜程度比較低,編碼速率較高穴翩、通常在16 kbit/s以上成洗,質(zhì)量相當高。但編碼速率低于16 kbit/s時藏否,音質(zhì)會急劇下降。
最簡單的波形編碼方法是PCM(Pulse Code Modulation充包,脈沖編碼調(diào)制)副签,它只對語音信號進行采樣和量化處理。優(yōu)點是編碼方法簡單基矮,延遲時間短淆储,音質(zhì)高,重構(gòu)的語音信號與原始語音信號幾乎沒有差別家浇。不足之處是編碼速率比較高(64 kbit/s)本砰,對傳輸通道的錯誤比較敏感。
2钢悲、參數(shù)編碼
參數(shù)編碼是從語音波形信號中提取生成語音的參數(shù)点额,使用這些參數(shù)通過語音生成模型重構(gòu)出語音,使重構(gòu)的語音信號盡可能地保持原始語音信號的語意莺琳。也就是說还棱,參數(shù)編碼是把語音信號產(chǎn)生的數(shù)字模型作為基礎,然后求出數(shù)字模型的模型參數(shù)惭等,再按照這些參數(shù)還原數(shù)字模型珍手,進而合成語音。
參數(shù)編碼的編碼速率較低辞做,可以達到2.4 kbit/s琳要,產(chǎn)生的語音信號是通過建立的數(shù)字模型還原出來的,因此重構(gòu)的語音信號波形與原始語音信號的波形可能會存在較大的區(qū)別秤茅、失真會比較大稚补。而且因為受到語音生成模型的限制,增加數(shù)據(jù)速率也無法提高合成語音的質(zhì)量嫂伞。不過孔厉,雖然參數(shù)編碼的音質(zhì)比較低拯钻,但是保密性很好,一直被應用在軍事上撰豺。典型的參數(shù)編碼方法為LPC(Linear Predictive Coding粪般,線性預測編碼)。
3污桦、混合編碼
混合編碼是指同時使用兩種或兩種以上的編碼方法進行編碼亩歹。這種編碼方法克服了波形編碼和參數(shù)編碼的弱點,并結(jié)合了波形編碼高質(zhì)量和參數(shù)編碼的低編碼速率凡橱,能夠取得比較好的效果小作。
編碼格式
PCM編碼
PCM 脈沖編碼調(diào)制是Pulse Code Modulation的縮寫。前面的文字我們提到了PCM大致的工作流程稼钩,我們不需要關心PCM最終編碼采用的是什么計算方式顾稀,我們只需要知道PCM編碼的音頻流的優(yōu)點和缺點就可以了。PCM編碼的最大的優(yōu)點就是音質(zhì)好坝撑,最大的缺點就是體積大静秆。我們常見的Audio CD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息巡李。
WAV格式
這是一種古老的音頻文件格式抚笔,由微軟開發(fā)。WAV是一種文件格式侨拦,符合RIFF (Resource Interchange File Format) 規(guī)范殊橙。所有的WAV都有一個文件頭,這個文件頭包含了音頻流的編碼參數(shù)狱从。WAV對音頻流的編碼沒有硬性規(guī)定膨蛮,除了PCM之外,還有幾乎所有支持ACM規(guī)范的編碼都可以為WAV的音頻流進行編碼季研。很多朋友沒有這個概念鸽疾,我們拿AVI做個示范,因為AVI和WAV在文件結(jié)構(gòu)上是非常相似的训貌,不過AVI多了一個視頻流而已制肮。我們接觸到的AVI有很多種,因此我們經(jīng)常需要安裝一些Decode才能觀看一些AVI递沪,我們接觸到比較多的DivX就是一種視頻編碼豺鼻,AVI可以采用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮款慨。同樣儒飒,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV檩奠,但這不表示W(wǎng)AV只能使用PCM編碼桩了,MP3編碼同樣也可以運用在WAV中附帽,和AVI一樣,只要安裝好了相應的Decode井誉,就可以欣賞這些WAV了蕉扮。
在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式颗圣,所有音頻軟件都能完美支持喳钟,由于本身可以達到較高的音質(zhì)的要求,因此在岂,WAV也是音樂編輯創(chuàng)作的首選格式奔则,適合保存音樂素材。因此蔽午,基于PCM編碼的WAV被作為了一種中介的格式易茬,常常使用在其他編碼的相互轉(zhuǎn)換之中,例如MP3轉(zhuǎn)換成WMA及老。
MP3編碼
動態(tài)圖像專家組-1或動態(tài)圖像專家組-2 音頻層III(MPEG-1 or MPEG-2 Audio Layer III)疾呻,經(jīng)常稱為MP3,是當今相當流行的一種數(shù)字音頻編碼和有損壓縮格式写半,它被設計來大幅降低音頻數(shù)據(jù)量,它舍棄PCM音訊資料中尉咕,對人類聽覺不重要的資料叠蝇,從而達到了壓縮成較小的檔案。而對于大多數(shù)用戶的聽覺感受來說年缎,MP3的音質(zhì)與最初的不壓縮音頻相比沒有明顯的下降悔捶。它是在1991年,由位于德國埃爾朗根的研究組織Fraunhofer-Gesellschaft的一組工程師發(fā)明和標準化的单芜。MP3的普及蜕该,曾對音樂產(chǎn)業(yè)造成沖擊與影響。
MP3是一個數(shù)據(jù)壓縮格式洲鸠。它舍棄脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中堂淡,對人類聽覺不重要的數(shù)據(jù)(類似于JPEG是一個有損圖像壓縮),從而達到了壓縮成小得多的文件大小扒腕。
在MP3中使用了許多技術(shù)绢淀,其中包括心理聲學,以確定音頻的哪一部分可以丟棄瘾腰。MP3音頻可以按照不同的比特率進行壓縮皆的,提供了權(quán)衡數(shù)據(jù)大小和音質(zhì)之間的依據(jù)。
MP3格式使用了混合的轉(zhuǎn)換機制將時域信號轉(zhuǎn)換成頻域信號:
- 32波段多相積分濾波器(PQF)
- 36或者12 tap 改良離散余弦濾波器(MDCT)蹋盆;每個子波段大小可以在0...1和2...31之間獨立選擇
- 混疊衰減后處理
盡管有許多創(chuàng)造和推廣其他格式的重要努力费薄,如 MPEG 標準中的 AAC(Advanced Audio Coding)和 Xiph.Org 開源無專利的 Ogg Vorbis硝全。然而,由于MP3的空前的流通楞抡,在目前來說伟众,其他格式不可能威脅其地位。MP3不僅有廣泛的用戶端軟體支持拌倍,也有很多的硬件支持赂鲤,比如便攜式數(shù)位音頻播放器(泛指MP3播放器)、移動電話柱恤、DVD和CD播放器数初。
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受梗顺,各種與MP3相關的軟件產(chǎn)品層出不窮泡孩,而且更多的硬件產(chǎn)品也開始支持MP3,我們能夠買到的VCD/DVD播放機都很多都能夠支持MP3寺谤,還有更多的便攜的MP3播放器等等仑鸥,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮的格式的生存與流傳变屁。MP3發(fā)展已經(jīng)有10個年頭了眼俊,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的簡稱,是MPEG1的衍生編碼方案粟关,1993年由德國Fraunhofer IIS研究院和湯姆生公司合作發(fā)展成功疮胖。MP3可以做到12:1的驚人壓縮比并保持基本可聽的音質(zhì),在當年硬盤天價的日子里闷板,MP3迅速被用戶接受澎灸,隨著網(wǎng)絡的普及,MP3被數(shù)以億計的用戶接受遮晚。MP3編碼技術(shù)的發(fā)布之初其實是非常不完善的腊徙,由于缺乏對聲音和人耳聽覺的研究焙畔,早期的mp3編碼器幾乎全是以粗暴方式來編碼棺耍,音質(zhì)破壞嚴重耕拷。隨著新技術(shù)的不斷導入,mp3編碼技術(shù)一次一次的被改良萧求,其中有2次重大技術(shù)上的改進括蝠。
發(fā)展
MPEG-1 Audio Layer II編碼開始時是德國Deutsche Forschungs- und Versuchsanstalt für Luft- und Raumfahrt(后來稱為Deutsches Zentrum für Luft- und Raumfahrt, 德國太空中心)Egon Meier-Engelen管理的數(shù)字音頻廣播(DAB)項目。這個項目是歐盟作為EUREKA研究項目資助的饭聚,它的名字通常稱為EU-147忌警。EU-147的研究期間是1987年到1994年。
到了1991年,就已經(jīng)出現(xiàn)了兩個提案:Musicam(稱為Layer 2)和ASPEC(自適應頻譜感知熵編碼)法绵。荷蘭飛利浦公司箕速、法國CCETT和德國Institut für Rundfunktechnik提出的Musicam方法由于它的簡單、出錯時的穩(wěn)定性以及在高質(zhì)量壓縮時較少的計算量而被選中朋譬⊙尉ィ基于子帶編碼的Musicam格式是確定MPEG音頻壓縮格式(采樣率、幀結(jié)構(gòu)徙赢、數(shù)據(jù)頭字柠、每幀采樣點)的一個關鍵因素。這項技術(shù)和它的設計思路完全融合到了ISO MPEG Audio Layer I狡赐、II以及后來的Layer III(MP3)格式的定義中窑业。在Mussmann教授(漢諾威大學)的主持下,標準的制定由Leon van de Kerkhof(Layer I)和Gerhard Stoll(Layer II)完成枕屉。
一個由荷蘭Leon Van de Kerkhof常柄、德國Gerhard Stoll、法國Yves-Fran?ois Dehery和德國Karlheinz Brandenburg組成的工作小組吸收了Musicam和ASPEC的設計思想搀擂,并添加了他們自己的設計思想從而開發(fā)出了MP3西潘,MP3能夠在128kbit/s達到MP2 192kbit/s音質(zhì)。
所有這些算法最終都在1992年成為了MPEG的第一個標準組MPEG-1的一部分哨颂,并且生成了1993年公布的國際標準ISO/IEC 11172-3喷市。MPEG音頻上的更進一步的工作最終成為了1994年制定的第二個MPEG標準組MPEG-2標準的一部分,這個標準正式的稱呼是1995年首次公布的ISO/IEC 13818-3威恼。
編碼器的壓縮效率通常由比特率定義品姓,因為壓縮率依賴于位數(shù)(bit depth)和輸入信號的采樣率。然而沃测,經(jīng)常有產(chǎn)品使用CD參數(shù)(44.1kHz、兩個通道食茎、每通道16位或者稱為2x16位)作為壓縮率參考蒂破,使用這個參考的壓縮率通常較高,這也說明了壓縮率對于有損壓縮存在的問題别渔。
Karlheinz Brandenburg使用CD介質(zhì)的Suzanne Vega的歌曲Tom's Diner來評價MP3壓縮算法附迷。使用這首歌是因為這首歌的柔和、簡單旋律使得在回放時更容易聽到壓縮格式中的缺陷哎媚。一些人開玩笑地將Suzanne Vega稱為“MP3之母”喇伯。來自于EBU V3/SQAM參考CD的更多一些嚴肅和critical音頻選段(鐘琴,三角鐵拨与,手風琴稻据,...)被專業(yè)音頻工程師用來評價MPEG音頻格式的主觀感受質(zhì)量。
MP3走向大眾
為了生成位兼容的MPEG Audio文件(Layer 1买喧、Layer 2捻悯、Layer 3)匆赃,ISO MPEG Audio委員會成員用C語言開發(fā)的一個稱為ISO 11172-5的參考模擬軟件。在一些非實時操作系統(tǒng)上它能夠演示第一款壓縮音頻基于DSP的實時硬件解碼今缚。一些其他的MPEG Audio實時開發(fā)出來用于面向消費接收機和機頂盒的數(shù)字廣播(無線電DAB和電視DVB)算柳。
后來,1994年7月7日Fraunhofer-Gesellschaft發(fā)布了第一個稱為l3enc的MP3編碼器姓言。
Fraunhofer開發(fā)組在1995年7月14日選定擴展名:".mp3"(以前擴展名是".bit")瞬项。使用第一款實時軟件MP3播放器Winplay3(1995年9月9日發(fā)布)許多人能夠在自己的個人電腦上編碼和回放MP3文件。由于當時的硬盤相對較泻渭浴(如500MB)囱淋,這項技術(shù)對于在計算機上存儲娛樂音樂來說是至關重要的。
MP2兽泣、MP3與因特網(wǎng)
1993年10月绎橘,MP2(MPEG-1 Audio Layer 2)文件在因特網(wǎng)上出現(xiàn),它們經(jīng)常使用Xing MPEG Audio Player播放唠倦,后來又出現(xiàn)了Tobias Bading為Unix開發(fā)的MAPlay称鳞。MAPlay于1994年2月22日首次發(fā)布,現(xiàn)在已經(jīng)移植到微軟視窗平臺上稠鼻。
剛開始僅有的MP2編碼器產(chǎn)品是Xing Encoder和CDDA2WAV冈止,CDDA2WAV是一個將CD音軌轉(zhuǎn)換成WAV格式的CD抓取器。
Internet Underground Music Archive(IUMA)通常被認為是在線音樂革命的鼻祖候齿,IUMA是因特網(wǎng)上第一個高保真音樂網(wǎng)站熙暴,在MP3和網(wǎng)絡流行之前它有數(shù)千首授權(quán)的MP2錄音。
從1995年上半年開始直到整個九十年代后期慌盯,MP3開始在因特網(wǎng)上蓬勃發(fā)展周霉。MP3的流行主要得益于如Nullsoft于1997年發(fā)布的Winamp和于1999年發(fā)布的Napster,這樣的公司和軟件包的成功亚皂,并且它們相互促進發(fā)展俱箱。這些程序使得普通用戶很容易地播放、制作灭必、共享和收集MP3文件狞谱。
關于MP3文件的點對點技術(shù)文件共享的爭論在最近幾年迅速蔓延—這主要是由于壓縮使得文件共享成為可能,未經(jīng)壓縮的文件過于龐大難于共享禁漓。由于MP3文件通過因特網(wǎng)大量傳播跟衅,一些主要唱片廠商通過法律起訴Napster來保護它們的版權(quán)(參見知識產(chǎn)權(quán))。
如iTunes Store這樣的商業(yè)在線音樂發(fā)行服務通常選擇其他或者專有的支持數(shù)字版權(quán)管理(DRM)的音樂文件格式以控制和限制數(shù)字音樂的使用播歼。支持DRM的格式的使用是為了防止受版權(quán)保護的素材免被侵犯版權(quán)伶跷,但是大多數(shù)的保護機制都能被一些方法破解。這些方法能夠被計算機高手用來生成能夠自由復制的解鎖文件。如果希望得到一個壓縮的音頻文件撩穿,這個錄制的音頻流必須進行壓縮且代價是音質(zhì)的降低磷支。
比特率
比特率對于MP3文件來說是可變的∈彻眩總的原則是比特率越高則聲音文件中包含的原始聲音信息越多雾狈,這樣回放時聲音質(zhì)量也越高。在MP3編碼的早期抵皱,整個文件使用一個固定的比特率善榛,稱為固定碼率(CBR)。
MPEG-1 Layer 3允許使用的比特率是32呻畸、40移盆、48、56伤为、64咒循、80、96绞愚、112叙甸、128、160位衩、192裆蒸、224、256和320 kbit/s糖驴,允許的采樣頻率是32僚祷、44.1和48kHz。44.1kHz是最為經(jīng)常使用的速度(與CD的采樣速率相同)贮缕,128kbit/s是事實上“好品質(zhì)”的標準辙谜,盡管320kbit/s在P2P文件共享網(wǎng)絡上越來越受到歡迎。MPEG-2和[非正式的]MPEG-2.5包括其他一些比特率:6感昼、12装哆、24、32抑诸、40烂琴、48爹殊、56蜕乡、64、80梗夸、96层玲、112、128、144辛块、160kbit/s畔派。
可變碼率(VBR)也是可能的。MP3文件的中的音頻切分成有自己不同比特率的幀润绵,這樣在文件編碼的時候就可以動態(tài)地改變比特率线椰。盡管在最初的實現(xiàn)中并沒有這項功能。VBR技術(shù)現(xiàn)在音頻/視頻編碼領域已經(jīng)得到了廣泛的應用尘盼,這項技術(shù)使得在聲音變化大的部分使用較大的比特率而在聲音變化小的部分使用較小的比特率成為可能憨愉。這個方法類似于聲音控制的磁帶錄音機不記錄靜止部分節(jié)省磁帶消耗。一些編碼器在很大程度上依賴于這項技術(shù)卿捎。
高達640kbit/s的比特率可以使用LAME編碼器和自由格式來實現(xiàn)配紫,但是由于它并非標準比特率之一,有些低端或早期的MP3播放器不能夠播放這些文件午阵。
MP3的音頻質(zhì)量
因為MP3是一種有損壓縮格式躺孝,它提供了多種不同“比特率”(bit rate)的選項—也就是用來表示每秒音頻所需的編碼數(shù)據(jù)位數(shù)。典型的速度介于128kbps和320kbps(kbit/s)之間底桂。與此對照的是植袍,CD上未經(jīng)壓縮的音頻比特率是1411.2 kbps(16位/采樣點× 44100采樣點/秒× 2通道)。
使用較低比特率編碼的MP3文件通称萆叮回放質(zhì)量較低奋单。使用過低的比特率,“壓縮噪聲(compression artifact)”(原始錄音中沒有的聲音)將會在回放時出現(xiàn)猫十。說明壓縮噪聲的一個好例子是:壓縮歡呼的聲音览濒;由于它的隨機性和急劇變化,所以編碼器的錯誤就會更明顯拖云,并且聽起來就象回聲贷笛。
除了編碼文件的比特率之外;MP3文件的質(zhì)量宙项,也與編碼器的質(zhì)量以及編碼信號的難度有關乏苦。使用優(yōu)質(zhì)編碼器編碼的普通信號,一些人認為128kbit/s的MP3以及44.1kHz的CD采樣的音質(zhì)近似于CD音質(zhì)尤筐,同時得到了大約11:1的壓縮率汇荐。在這個比率下正確編碼的MP3只能夠獲得比調(diào)頻廣播更好的音質(zhì),這主要是那些模擬介質(zhì)的帶寬限制盆繁、信噪比和其他一些限制掀淘。然而,聽力測試顯示經(jīng)過簡單的練習測試聽眾能夠可靠地區(qū)分出128kbit/s MP3與原始CD的區(qū)別[來源請求]油昂。在許多情況下他們認為MP3音質(zhì)不佳是不可接受的革娄,然而其他一些聽眾或者換個環(huán)境(如在嘈雜的車中或者聚會上)他們又認為音質(zhì)是可接受的倾贰。很顯然,MP3編碼的瑕疵在低端聲卡或者揚聲器上比較不明顯拦惋,而在連接到計算機的高質(zhì)量立體聲系統(tǒng)匆浙,尤其是使用高保真音響設備或者高質(zhì)量的耳機時則比較明顯。
Fraunhofer Gesellschaft(FhG)在他們的官方網(wǎng)站上厕妖,公布了下面的MPEG-1 Layer 1/2/3的壓縮率和數(shù)據(jù)速率用于比較:
- Layer 1: 384 kbit/s首尼,壓縮率4:1
- Layer 2: 192 - 256 kbit/s,壓縮率8:1-6:1
- Layer 3: 112 - 128 kbit/s言秸,壓縮率12:1-10:1
不同層面之間的差別是因為它們使用了不同的心理聲學模型導致的饰恕;Layer 1的算法相當簡單,所以透明編碼就需要更高的比特率井仰。然而埋嵌,由于不同的編碼器使用不同的模型,很難進行這樣的完全比較俱恶。
許多人認為所引用的速率雹嗦,出于對Layer 2和Layer 3記錄的偏愛,而出現(xiàn)了嚴重扭曲合是。他們爭辯說實際的速率如下所列:
- Layer 1: 384 kbit/s優(yōu)秀
- Layer 2: 256 - 384 kbit/s優(yōu)秀了罪,224 - 256 kbit/s很好,192 - 224 kbit/s好
- Layer 3: 224 - 320 kbit/s優(yōu)秀聪全,192 - 224 kbit/s很好泊藕,128 - 192 kbit/s好
當比較壓縮機制時,很重要的是要使用同等音質(zhì)的編碼器难礼。將新編碼器與基于過時技術(shù)甚至是帶有缺陷的舊編碼器比較可能會產(chǎn)生對于舊格式不利的結(jié)果娃圆。由于有損編碼會丟失信息這樣一個現(xiàn)實,MP3算法通過創(chuàng)建人類聽覺總體特征的模型盡量保證丟棄的部分不被人耳識別出來(例如蛾茉,由于noise masking)讼呢,不同的編碼器能夠在不同程度上實現(xiàn)這一點。
一些可能的編碼器:
- Mike Cheng在1998年早些時候首次開發(fā)的LAME谦炬。與其他相比悦屏,它是一個完全遵循LGPL的MP3編碼器,它有良好的速度和音質(zhì)键思,甚至對MP3技術(shù)的后繼版本形成了挑戰(zhàn)[來源請求]础爬。
- Fraunhofer Gesellschaft:有些編碼器不錯,有些有缺陷吼鳞。
有許多的早期編碼器現(xiàn)在已經(jīng)不再廣泛使用: - ISO dist10
- BladeEnc
- ACM Producer Pro.
好的編碼器能夠在128到160kbit/s下達到可接受的音質(zhì)看蚜,在160到192kbit/s下達到接近透明的音質(zhì)。所以不在特定編碼器或者最好的編碼器話題內(nèi)說128kbit/s或者192kbit/s下的音質(zhì)是容易引起誤解的赖条。一個好的編碼器在128kbit/s下生成的MP3有可能比一個不好的編碼器在192kbit/s下生成的MP3音質(zhì)更好失乾。另外,即使是同樣的編碼器同樣的文件大小纬乍,一個不變比特率的MP3可能比一個變比特率的MP3音質(zhì)要差很多碱茁。
需要注意的一個重要問題是音頻信號的質(zhì)量是一個主觀判斷。安慰效果(Placebo effect)是很嚴重的仿贬,許多用戶聲明要有一定水準的透明度纽竣。許多用戶在A/B測試中都沒有通過,他們無法在更低的比特率下區(qū)分文件茧泪。一個特定的比特率對于有些用戶來說是足夠的蜓氨,對于另外一些用戶來說是不夠的。每個人的聲音感知可能有所不同队伟,所以一個能夠滿足所有人的特定心理聲學模型并不明顯存在穴吹。僅僅改變試聽環(huán)境,如音頻播放系統(tǒng)或者環(huán)境可能就會顯現(xiàn)出有損壓縮所產(chǎn)生的音質(zhì)降低嗜侮。上面給出的數(shù)字只是大多數(shù)人的一個大致有效參考港令,但是在有損壓縮領域真正有效的壓縮過程質(zhì)量測試手段就是試聽音頻結(jié)果。
如果你的目標是實現(xiàn)沒有質(zhì)量損失的音頻文件或者用在演播室中的音頻文件锈颗,就應該使用無損壓縮(Lossless)算法顷霹,目前能夠?qū)?6位PCM音頻數(shù)據(jù)壓縮到38%并且聲音沒有任何損失,這樣的無損壓縮編碼有LA击吱、Sony ATRAC Advanced Lossless淋淀、Dolby TrueHD、DTS Master Lossless Audio覆醇、MLP朵纷、Sony Reality Audio、WavPack永脓、Apple Lossless柴罐、TTA、FLAC憨奸、Windows Media Audio 9 Lossless(WMA)和APE(Monkey's Audio)等等革屠。
對于需要進行編輯、混合處理的音頻文件要盡量使用無損格式排宰,否則有損壓縮產(chǎn)生的誤差可能在處理后無法預測似芝,多次編碼產(chǎn)生的損失將會混雜在一起,在處理之后進行編碼這些損失將會變得更加明顯板甘。無損壓縮在降低壓縮率的代價下能夠達到最好的結(jié)果党瓮。
一些簡單的編輯操作,如切掉音頻的部分片段盐类,可以直接在MP3數(shù)據(jù)上操作而不需要重新編碼寞奸。對于這些操作來說呛谜,只要使用合適的軟件("mp3DirectCut"和"MP3Gain"),上面提到的問題可以不必考慮枪萄。
MP3的設計限制
MP3格式存有設計限制隐岛,即使使用更好的編碼器仍舊不能克服這些限制。一些新的壓縮格式如AAC瓷翻、Ogg Vorbis等不再有這些限制聚凹。
按照技術(shù)術(shù)語,MP3有如下一些限制:
- 編碼的比特率位速最高質(zhì)量可達320Kbps齐帚,基本不損失原本音效質(zhì)量[4]妒牙。
- 時間分辨率相對于變化迅速的信號來說太低。
- 采樣頻率最高為48kHz对妄,對于超過48kHz采樣頻率的音頻無法編碼在MP3內(nèi)湘今,而CD經(jīng)常使用的采樣速率為44.1kHz。
- 聯(lián)合立體聲(Joint stereo)是基于幀與幀完成的剪菱。
- 沒有定義編碼器/解碼器的整體時延象浑,這就意味著gapless playback缺少一個正式的規(guī)定。
然而琅豆,即使有這些限制愉豺,一個經(jīng)良好的調(diào)整MP3編碼器仍能夠提供與其他格式相提并論或更高的編碼質(zhì)量。
MPEG-1標準中沒有MP3編碼器的一個精確規(guī)范茫因,然而與此相反蚪拦,解碼算法和文件格式卻進行了細致的定義。人們設想編碼的實現(xiàn)是設計自己的適合去除原始音頻中部分信息的算法(或者是它在頻域中的修正離散余弦(MDCT)表示)冻押。在編碼過程中驰贷,576個時域樣本被轉(zhuǎn)換成576個頻域樣本,如果是瞬變信號就使用192而不是576個采樣點洛巢,這是限制量化噪聲隨著隨瞬變信號短暫擴散括袒。
這是聽覺心理學的研究領域:人類主觀聲音感知。
這樣帶來的結(jié)果就是出現(xiàn)了許多不同的MP3編碼器稿茉,每種生成的聲音質(zhì)量都不相同锹锰。有許多它們的比較結(jié)果,這樣一個潛在用戶很容易選擇合適的編碼器漓库。需要記住的是高比特率編碼表現(xiàn)優(yōu)秀的編碼器(如LAME這個在高比特率廣泛使用的編碼器)未必在低比特率的表現(xiàn)也同樣好恃慧。
MP3音頻編碼
MPEG-1標準中沒有MP3編碼器的一個精確規(guī)范,然而與此相反渺蒿,解碼算法和文件格式卻進行了細致的定義痢士。人們設想編碼的實現(xiàn)是設計自己的適合去除原始音頻中部分信息的算法(或者是它在頻域中的修正離散余弦(MDCT)表示)。在編碼過程中茂装,576個時域樣本被轉(zhuǎn)換成576個頻域樣本怠蹂,如果是瞬變信號就使用192而不是576個采樣點善延,這是限制量化噪聲隨著隨瞬變信號短暫擴散。
這是聽覺心理學的研究領域:人類主觀聲音感知城侧。
這樣帶來的結(jié)果就是出現(xiàn)了許多不同的MP3編碼器易遣,每種生成的聲音質(zhì)量都不相同。有許多它們的比較結(jié)果赞庶,這樣一個潛在用戶很容易選擇合適的編碼器。需要記住的是高比特率編碼表現(xiàn)優(yōu)秀的編碼器(如LAME這個在高比特率廣泛使用的編碼器)未必在低比特率的表現(xiàn)也同樣好澳骤。
MP3音頻解碼
另一方面歧强,解碼在標準中進行了細致的定義。
多數(shù)解碼器是bitstream compliant为肮,也就是說MP3文件解碼出來的非壓縮輸出信號將與標準文檔中數(shù)學定義的輸出信號一模一樣(在規(guī)定的近似誤差范圍內(nèi))摊册。
MP3文件有一個標準的格式,這個格式就是包括384颊艳、576茅特、或者1152個采樣點(隨MPEG的版本和層不同而不同)的幀,并且所有的幀都有關聯(lián)的頭信息(32位)和輔助信息(9棋枕、17或者32字節(jié)白修,隨著MPEG版本和立體聲或者單通道的不同而不同)。頭和輔助信息能夠幫助解碼器正確地解碼相關的霍夫曼編碼數(shù)據(jù)重斑。
所以兵睛,大多數(shù)的解碼器比較幾乎都是完全基于它們的計算效率(例如,它們在解碼過程中所需要的內(nèi)存或者CPU時間)窥浪。
關于VBR
VBR:MP3格式的文件有一個有意思的特征祖很,就是可以邊讀邊放,這也符合流媒體的最基本特征漾脂。也就是說播放器可以不用預讀文件的全部內(nèi)容就可以播放假颇,讀到哪里播放到哪里,即使是文件有部分損壞骨稿。雖然mp3可以有文件頭笨鸡,但對于mp3格式的文件卻不是很重要,正因為這種特性坦冠,決定了MP3文件的每一段每一幀都可以單獨的平均數(shù)據(jù)速率镜豹,而無需特別的解碼方案。于是出現(xiàn)了一種叫VBR(Variable bitrate蓝牲,動態(tài)數(shù)據(jù)速率)的技術(shù)趟脂,可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在保證音質(zhì)的前提下最大程度的限制了文件的大小例衍。這種技術(shù)的優(yōu)越性是顯而易見的昔期,但要運用確實是一件難事已卸,因為這要求編碼器知道如何為每一段分配bitrate,這對沒有波形分析的編碼器而言硼一,這種技術(shù)如同虛設累澡。正是如此,VBR技術(shù)并沒有一出現(xiàn)就顯得光彩奪目般贼。
專家們通過長期的聲學研究愧哟,發(fā)現(xiàn)人耳存在 遮蔽效應。聲音信號實際是一種能量波哼蛆,在空氣或其他媒介中傳播蕊梧,人耳對聲音能量的多少即響度或聲壓最直接的反應就是聽到這個聲音的大小,我們稱它為響度腮介,表示響度這種能量的單位為分貝(dB)肥矢。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小不同叠洗。人耳最容易聽到的就是4000Hz的頻率甘改,不管頻率是否增高或降低,即使是響度在相同的情況下灭抑,大家都會覺得聲音在變小十艾。但響度降到一定程度時,人耳就聽不到了腾节,每一個頻率都有著不同的值疟羹。
可以看到這條曲線基本成一個V字型,當頻率超過15000Hz時禀倔,人耳的會感覺到聲音很小榄融,很多聽覺不是很好的人,根本就聽不到20000Hz的頻率救湖,不管響度有多大愧杯。當人耳同時聽到兩個不同頻率、不同響度的聲音時鞋既,響度較小的那個也會被忽略力九,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻成了噪聲源邑闺,根據(jù)這種原理跌前,編碼器可以過濾掉很多聽不到的聲音,以簡化信息復雜度陡舅,增加壓縮比抵乓,而不明顯的降低音質(zhì)。這種遮蔽被稱為同時遮蔽效應。但聲音A被聲音B遮蔽灾炭,如果A處于B為中心的遮蔽范圍內(nèi)茎芋,遮蔽會更明顯,這個范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣蜈出,頻率越高的臨界帶寬越寬田弥。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
根據(jù)這種效應,專家們設計出人耳聽覺心理模型铡原,這個模型被導入到mp3編碼中后偷厦,導致了一場翻天覆地的音質(zhì)革命,mp3編碼技術(shù)一直背負著音質(zhì)差的惡名燕刻,但這個惡名現(xiàn)在已經(jīng)逐漸被洗脫只泼。到了此時,一直被埋沒的VBR技術(shù)光彩四射酌儒,配合心理模型的運用便現(xiàn)實出強大的誘惑力與殺傷力辜妓。
長期來枯途,很多人對MP3印象不好忌怎,更多人認為WMA的最佳音質(zhì)要好過MP3,這種說法是不正確的酪夷,在中高碼率下榴啸,編碼得當?shù)腗P3要比WMA優(yōu)秀很多,可以非常接近CD音質(zhì)晚岭,在不太好的硬件設備支持下鸥印,沒有多少人可以區(qū)分兩者的差異,這不是神話故事坦报,盡管你以前盲聽就可以很輕松區(qū)分MP3和CD库说,但現(xiàn)在你難保證你可以分辨正確。因為MP3是優(yōu)秀的編碼片择,以前被埋沒了潜的。
OGG編碼
網(wǎng)絡上出現(xiàn)了一種叫Ogg Vorbis的音頻編碼,號稱MP3殺手字管!Ogg Vorbis究竟什么來頭呢啰挪?OGG是一個龐大的多媒體開發(fā)計劃的項目名稱,將涉及視頻音頻等方面的編碼開發(fā)嘲叔。整個OGG項目計劃的目的就是向任何人提供完全免費多媒體編碼方案亡呵!OGG的信念就是:OPEN!FREE硫戈!Vorbis這個詞匯是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名锰什。這個詞匯成為了OGG項目中音頻編碼的正式命名。目前Vorbis已經(jīng)開發(fā)成功,并且開發(fā)出了編碼器歇由。
Ogg Vorbis是高質(zhì)量的音頻編碼方案卵牍,官方數(shù)據(jù)顯示:Ogg Vorbis可以在相對較低的數(shù)據(jù)速率下實現(xiàn)比MP3更好的音質(zhì)牵囤!Ogg Vorbis這種編碼也遠比90年代開發(fā)成功的MP3先進最岗,它可以支持多聲道,這意味著什么弥激?這意味著Ogg Vorbis在SACD谢谦、DTSCD释牺、DVD AUDIO抓軌軟件(目前這種軟件還沒有)的支持下,可以對所有的聲道進行編碼回挽,而不是MP3只能編碼2個聲道没咙。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化千劈,尤其在欣賞交響時祭刚,會帶來更多臨場感。這場革命性的變化是MP3無法適應的墙牌。
和MP3一樣涡驮,Ogg Vorbis是一種靈活開放的音頻編碼,能夠在編碼方案已經(jīng)固定下來后還能對音質(zhì)進行明顯的調(diào)節(jié)和新算法的改良喜滨。因此捉捅,它的聲音質(zhì)量將會越來越好,和MP3相似虽风,Ogg Vorbis更像一個音頻編碼框架棒口,可以不斷導入新技術(shù)逐步完善。和MP3一樣辜膝,OGG也支持VBR无牵。
MPC編碼
MPC是又是另外一個令人刮目相看的實力派選手,它的普及過程非常低調(diào)厂抖,也沒有什么復雜的背景故事茎毁,她的出現(xiàn)目的就只有一個,更小的體積更好的音質(zhì)验游!MPC以前被稱作MP+充岛,很顯然,可以看出她針對的競爭對手是誰耕蝉。但是崔梗,只要用過這種編碼的人都會有個深刻的印象,就是她出眾的音質(zhì)垒在。
mp3PRO編碼
2001年6月14日蒜魄,美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協(xié)會(Fraunhofer Institute)于6月14日發(fā)布了一種新的音樂格式版本,名稱為mp3PRO,這是一種基于mp3編碼技術(shù)的改良方案谈为,從官方公布的特征看來確實相當吸引人旅挤。從各方面的資料顯示,mp3PRO并不是一種全新的格式伞鲫,完全是基于傳統(tǒng)mp3編碼技術(shù)的一種改良粘茄,本身最大的技術(shù)亮點就在于SBR(Spectral Band Replication 頻段復制),這是一種新的音頻編碼增強算法秕脓。它提供了改善低位率情況下音頻和語音編碼的性能的可能柒瓣。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。SBR最大的優(yōu)勢就是在低數(shù)據(jù)速率下實現(xiàn)非常高效的編碼吠架,與傳統(tǒng)的編碼技術(shù)不同的是芙贫,SBR更像是一種后處理技術(shù),因此解碼器的算法的優(yōu)劣直接影響到音質(zhì)的好壞傍药。高頻實際上是由解碼器(播放器)產(chǎn)生的磺平,SBR編碼的數(shù)據(jù)更像是一種產(chǎn)生高頻的命令集,或者稱為指導性的信號源拐辽,這有點駇idi的工作方式拣挪。我們可以看到,mp3PRO其實是一種mp3信號流和SBR信號流的混合數(shù)據(jù)流編碼薛训。有關資料顯示媒吗,SBR技術(shù)可以改善低數(shù)據(jù)流量下的高頻音質(zhì)仑氛,改善程度約為30%乙埃,我們不管這個30%是如何得來的,但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質(zhì)水平(注:在相同的編碼條件下锯岖,數(shù)據(jù)速率的提升和音質(zhì)的提升不是成正比的介袜,至少人耳聽覺上是這樣的),這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的出吹。
WMA格式
WMA就是Windows Media Audio編碼后的文件格式遇伞,由微軟開發(fā),WMA針對的不是單機市場捶牢,是網(wǎng)絡鸠珠!競爭對手就是網(wǎng)絡媒體市場中著名的Real Networks。微軟聲稱秋麸,在只有64kbps的碼率情況下渐排,WMA可以達到接近CD的音質(zhì)。和以往的編碼不同灸蟆,WMA支持防復制功能驯耻,她支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數(shù)甚至于播放的機器等等。WMA支持流技術(shù)可缚,即一邊讀一邊播放霎迫,因此WMA可以很輕松的實現(xiàn)在線廣播,由于是微軟的杰作帘靡,因此知给,微軟在Windows中加入了對WMA的支持,WMA有著優(yōu)秀的技術(shù)特征描姚,在微軟的大力推廣下炼鞠,這種格式被越來越多的人所接受。
RA格式
RA就是RealAudio格式轰胁,這是各位網(wǎng)蟲接觸得非常多的一種格式谒主,大部分音樂網(wǎng)站的在線試聽都是采用了RealAudio,這種格式完全針對的就是網(wǎng)絡上的媒體市場赃阀,支持非常豐富的功能霎肯。最大的閃爍點就是這種格式可以根據(jù)聽眾的帶寬來控制自己的碼率,在保證流暢的前提下盡可能提高音質(zhì)榛斯。RA可以支持多種音頻編碼观游,包括ATRAC3。和WMA一樣驮俗,RA不但都支持邊讀邊放懂缕,也同樣支持使用特殊協(xié)議來隱匿文件的真實網(wǎng)絡地址,從而實現(xiàn)只在線播放而不提供下載的欣賞方式王凑。這對唱片公司和唱片銷售公司很重要搪柑,在各方的大力推廣下,RA和WMA是目前互聯(lián)網(wǎng)上索烹,用于在線試聽最多的音頻媒體格式工碾。
APE格式
APE是Monkey's Audio提供的一種無損壓縮格式。Monkey's Audio提供了Winamp的插件支持百姓,因此這就意味著壓縮后的文件不再是單純的壓縮格式渊额,而是和MP3一樣可以播放的音頻文件格式。這種格式的壓縮比遠低于其他格式垒拢,但能夠做到真正無損旬迹,因此獲得了不少發(fā)燒用戶的青睞。在現(xiàn)有不少無損壓縮方案種求类,APE是一種有著突出性能的格式奔垦,令人滿意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發(fā)燒音樂的唯一選擇仑嗅。
格式特點
各種各樣的音頻編碼都有其技術(shù)特征及不同場合的適用性宴倍,我們大致講解一下如何去靈活應用這些音頻編碼张症。
PCM編碼的WAV
前面就提到過,PCM編碼的WAV文件是音質(zhì)最好的格式鸵贬,Windows平臺下俗他,所有音頻軟件都能夠提供對她的支持。Windows提供的WinAPI中有不少函數(shù)可以直接播放wav阔逼,因此兆衅,在開發(fā)多媒體軟件時,往往大量采用wav嗜浮,用作事件聲效和背景音樂羡亩。PCM編碼的wav可以達到相同采樣率和采樣大小條件下的最好音質(zhì),因此危融,也被大量用于音頻編輯畏铆、非線性編輯等領域。
- 特點:音質(zhì)非常好吉殃,被大量軟件所支持辞居。
- 適用于:多媒體開發(fā)、保存音樂和音效素材蛋勺。
MP3
MP3具有不錯的壓縮比瓦灶,使用LAME編碼的中高碼率的mp3,聽感上已經(jīng)非常接近源WAV文件抱完。使用合適的參數(shù)贼陶,LAME編碼的MP3很適合于音樂欣賞。由于MP3推出年代已久巧娱,加之還算不錯的音質(zhì)及壓縮比碉怔,不少游戲也使用mp3做事件音效和背景音樂。幾乎所有著名的音頻編輯軟件也提供了對MP3的支持家卖,可以將mp3象wav一樣使用眨层,但由于mp3編碼是有損的庙楚,因此多次編輯后上荡,音質(zhì)會急劇下降,mp3并不適合保存素材馒闷,但作為作品的demo確實相當優(yōu)秀的酪捡。mp3長遠的歷史和不錯的音質(zhì),使之成為應用最廣的有損編碼之一纳账,網(wǎng)絡上可以找到大量的mp3資源逛薇,mp3player日漸成為一種時尚。不少VCDPlayer疏虫、DVDPlayer甚至手機都可以播放mp3永罚,mp3是被支持的最好的編碼之一啤呼。MP3也并非完美,在較低碼率下表現(xiàn)不好呢袱。MP3也具有流媒體的基本特征官扣,可以做到在線播放。
- 特點:音質(zhì)好羞福,壓縮比比較高惕蹄,被大量軟件和硬件支持,應用廣泛治专。
- 適用于:適合用于比較高要求的音樂欣賞卖陵。
OGG
Ogg是一種非常有潛力的編碼,在各種碼率下都有比較驚人的表現(xiàn)张峰,尤其中低碼率下泪蔫。Ogg除了音質(zhì)好之外,她還是一個完全免費的編碼喘批,這對ogg被更多支持打好了基礎鸥滨。Ogg有著非常出色的算法,可以用更小的碼率達到更好的音質(zhì)谤祖,128kbps的Ogg比192kbps甚至更高碼率的mp3還要出色婿滓。Ogg的高音具有一定的金屬味道,因此在編碼一些高頻要求很高的樂器獨奏時粥喜,Ogg的這個缺陷會暴露出來凸主。OGG具有流媒體的基本特征,但現(xiàn)在還沒有媒體服務軟件支持额湘,因此基于ogg的數(shù)字廣播還無法實現(xiàn)卿吐。Ogg目前的被支持的情況還不夠好,無論是軟件的還是硬件的锋华,都無法和mp3相提并論嗡官。
- 特點:可以用比mp3更小的碼率實現(xiàn)比mp3更好的音質(zhì),高中低碼率下均具有良好的表現(xiàn)毯焕。
- 適用于:用更小的存儲空間獲得更好的音質(zhì)(相對MP3)衍腥。
MPC
和OGG一樣,MPC的競爭對手也是mp3纳猫,在中高碼率下婆咸,MPC可以做到比競爭對手更好音質(zhì),在中等碼率下芜辕,MPC的表現(xiàn)不遜色于Ogg尚骄,在高碼率下,MPC的表現(xiàn)更是獨孤求敗侵续,MPC的音質(zhì)優(yōu)勢主要表現(xiàn)在高頻部分倔丈,MPC的高頻要比MP3細膩不少憨闰,也沒有Ogg那種金屬味道,是目前最適合用于音樂欣賞的有損編碼需五。由于都是新生的編碼起趾,和Ogg際遇相似,也缺乏廣泛的軟件和硬件支持警儒。MPC有不錯的編碼效率训裆,編碼時間要比OGG和LAME短不少。
- 特點:中高碼率下蜀铲,具有有損編碼中最佳的音質(zhì)表現(xiàn)边琉,高碼率下,高頻表現(xiàn)極佳记劝。
- 適用于:在節(jié)省大量空間的前提下獲得最佳音質(zhì)的音樂欣賞变姨。
WMA
微軟開發(fā)的WMA同樣也是不少朋友所喜愛的,在低碼率下厌丑,有著好過mp3很多的音質(zhì)表現(xiàn)定欧,WMA的出現(xiàn),立刻淘汰了曾經(jīng)風靡一時的VQF編碼怒竿。有微軟背景的WMA獲得了很好的軟件及硬件支持砍鸠,Windows Media Player就能夠播放WMA,也能夠收聽基于WMA編碼技術(shù)的數(shù)字電臺耕驰。因為播放器幾乎存在于每一臺PC上爷辱,越來越多的音樂網(wǎng)站都樂意使用WMA作為在線試聽的首選了。除了支持環(huán)境好之外朦肘,WMA在64-128kbps碼率下也具有相當出色的表現(xiàn)饭弓,雖然不少要求較高的朋友并不夠滿意,但更多要求不高的朋友接受了這種編碼媒抠,WMA很快的普及開了弟断。
- 特點:低碼率下的音質(zhì)表現(xiàn)難有對手。
- 適用于:數(shù)字電臺架設趴生、在線試聽阀趴、低要求下的音樂欣賞。
mp3PRO
作為mp3的改良版本的mp3PRO表現(xiàn)出了相當不錯的素質(zhì)冲秽,高音豐滿舍咖,雖然mp3PRO是通過SBR技術(shù)在播放過程中插入的,但實際聽感相當不錯锉桑,雖然顯得有點單薄,但在64kbps的世界里已經(jīng)沒有對手了窍株,甚至超過了128kbps的mp3民轴,但很遺憾的是攻柠,mp3PRO的低頻表現(xiàn)也象mp3一樣的破,所幸的是后裸,SBR的高頻插值可以或多或少的掩蓋掉這個缺陷瑰钮,因此mp3PRO的低頻弱勢反而不如WMA那么明顯。大家可以在使用RCA mp3PRO Audio Player的PRO開關來切換PRO模式和普通模式時深深的感覺到微驶。整體而言浪谴,64kbps的mp3PRO達到了128kbps的mp3的音質(zhì)水平,在高頻部分還略有勝出因苹。
- 特點:低碼率下的音質(zhì)之王苟耻。
- 適用于:低要求下的音樂欣賞。
APE
一種新興的無損音頻編碼扶檐,可以提供50-70%的壓縮比凶杖,雖然比起有損編碼來太不值得一提了,但對于追求完美音質(zhì)的朋友簡直是天大的福音款筑。APE可以做到真正的無損智蝠,而不僅是聽起來無損,壓縮比也要比類似的無損格式要好奈梳。
- 特點:音質(zhì)非常好杈湾。
- 適用于:最高品質(zhì)的音樂欣賞及收藏。
相關算法
音量計算
音量值計算:db=20*lg(x/2^15)
攘须,其中x表示樣點幅度值毛秘,db表示分貝值。
聲音是一種波阻课,PCM數(shù)據(jù)是波形的描述叫挟,音量值表示波的能量,和波的振幅相關限煞,和各點的相對差值有關抹恳。16bits的采樣值表示范圍是-3276832767。把每個點依次連接起來就是聲音的波形了署驻。求音量先將數(shù)據(jù)轉(zhuǎn)換成-11之間(因為位率是是精度表示奋献,要轉(zhuǎn)換成相對最大值的比例),進行傅立葉變換旺上,提高速度使用快速傅立葉變換(FFT)瓶蚂,求出當時的頻譜圖,就是各個頻率的音量大小宣吱。求平均就是總音量窃这。
FFT變換有實部數(shù)據(jù)和虛部數(shù)據(jù),其能量值是(實部實部+虛部虛部)的開方征候,而聲音的大小是分貝杭攻,20lg(能量值)祟敛,所以頻譜圖各音量是10lg(實部實部+虛部虛部)
音頻編碼技術(shù)比較
說明:質(zhì)量評價共五個等級(1、2兆解、3馆铁、4、5)锅睛,其中5.0為最高分埠巨。
上表中各種算法、應用領域中縮略語的中文和英文全稱參見下面說明现拒。
- PCM:Pulse Code Modulation辣垒,脈沖編碼調(diào)制。
- ADPCM:Adaptive Differential Pulse Code Modulation具练,自適應差分脈沖編碼調(diào)制乍构。
- SB-ADPCM:Subband Adaptive Differential Pulse Code Modulation,子帶-自適應差分脈沖編碼調(diào)制扛点。
- LPC:Linear Predictive Coding哥遮,線性預測編碼。
- CELPC:Code Excited Linear Predictive Coding陵究,碼激勵線性預測編碼眠饮。
- VSELPC:Vector Sum Excited Linear Predictive Coding,矢量和激勵線性預測編碼铜邮。
- RPE-LTP:Regular Pulse Excited-Long Term Predictive仪召,規(guī)則脈沖激勵長時預測。
- LD-CELP:Low Delay-Code Excited Linear Predictive松蒜,低時延碼激勵線性預測扔茅。
- MPE:Multi-Pulse Excited,多脈沖激勵秸苗。
- PSTN:Public Switched Telephone Network召娜,公共交換電話網(wǎng)。
- ISDN:Integrated Services Digital Network惊楼,綜合業(yè)務數(shù)字網(wǎng)玖瘸。
Android Audio相關api
- AcousticEchoCanceler:回聲消除器
- AutomaticGainControl:自動增強控制器
- NoiseSuppressor:噪音抑制器
- BassBoost:重低音調(diào)節(jié)器
- Equalizer:均衡器
- PresetReverb:預設音場控制器
- Visualizer:示波器