大家使用播放器播放MP4文件時拳氢,可以看到畫面践剂,也可以聽到聲音弓摘,這里就涉及到幾個知識點:
- MP4文件是什么?
- 畫面怎么來的?
- 聲音怎么來的?
先來講講畫面是什么。我們最容易理解的畫面就是一張圖片刃宵,一張圖片是靜止的衡瓶,如果把一張張圖片拼接起來,就會形成動態(tài)效果组去。微信上的動態(tài)表情就是由一張張圖片拼接起來形成的gif動圖鞍陨。
MP4文件中的畫面就是由一幀幀的畫面組成的,每一幀就類似于一張圖片从隆。但是有個問題诚撵,每張圖片所占用的空間比較大,如果直接把它們組合在一起键闺,會形成一個非常大的文件缩筛,那就不方便文件的存儲和傳播了嚎京。所以我們需要一些方式來把這些圖片進(jìn)行壓縮,類似于把一個1M大小的txt文本文件一壓縮就可能不到1K大小了,壓縮了1000倍近尚。這個技術(shù)在視頻領(lǐng)域就叫“編碼”搜变,對應(yīng)的解壓過程就叫“解碼”艘蹋。視頻編解碼目前最常用的就是H264技術(shù)车酣。聲音也類似畫面,其中的編解碼一般用的是AAC榴都。
有了這些連續(xù)的畫面和聲音待锈,得需要有個東西或者說容器把這些東西裝起來,這個容器就是MP4嘴高。我們還會看到FLV竿音,MKV文件和屎,與MP4一樣也是容器,只是他們的規(guī)則有些不同而已春瞬。類似word可以把文字和圖片裝在一個文件里面柴信,pdf也可以做相同的事情。
現(xiàn)在大部分視頻都采用H264協(xié)議宽气,這個協(xié)議最主要的好處是高的視頻壓縮比和良好的網(wǎng)絡(luò)親和性随常。協(xié)議很復(fù)雜,我們只說說它的幾個關(guān)鍵知識:I抹竹、P线罕、B、SPS窃判、PPS幀,碼率喇闸,分辨率袄琳。
我們回想一下看視頻的場景,一般情況下燃乍,一段場景內(nèi)變化的圖像都不會太多唆樊,比如直播視頻中,一般都只有主播的嘴在動刻蟹,背景啊逗旁,服飾什么的都基本不會變化。參照一段時間內(nèi)圖像的統(tǒng)計結(jié)果表明舆瘪,在相鄰幾幅圖像畫面中片效,一般有差別的像素只有10%以內(nèi)的點,亮度差值變化不超過2%,而色度差值的變化只有1%以內(nèi)英古。所以對于一段變化不大圖像畫面淀衣,我們可以先編碼出一個完整的圖像幀A,隨后的B幀就不編碼全部圖像召调,只寫入與A幀的差別膨桥,這樣B幀的大小就只有完整幀的1/10或更小唠叛!B幀之后的C幀如果變化不大只嚣,我們可以繼續(xù)以參考B的方式編碼C幀,這樣循環(huán)下去艺沼。這段圖像我們稱為一個序列(序列就是有相同特點的一段數(shù)據(jù))册舞,當(dāng)某個圖像與之前的圖像變化很大,無法參考前面的幀來生成澳厢,那我們就結(jié)束上一個序列环础,開始下一段序列囚似,也就是對這個圖像生成一個完整幀A1,隨后的圖像就參考A1生成线得,只寫入與A1的差別內(nèi)容饶唤。如此循環(huán)......
接下來來一段比較專業(yè)化的描述:在H264中圖像以序列為單位進(jìn)行組織,一個序列是一段圖像編碼后的數(shù)據(jù)流贯钩,以I幀開始募狂,到下一個I幀結(jié)束。一個序列的第一個圖像叫做 IDR 圖像(立即刷新圖像)角雷,IDR 圖像都是 I 幀圖像祸穷。H.264 引入 IDR 圖像是為了解碼的重同步,當(dāng)解碼器解碼到 IDR 圖像時勺三,立即將參考幀隊列清空雷滚,將已解碼的數(shù)據(jù)全部輸出或拋棄,重新查找參數(shù)集吗坚,開始一個新的序列祈远。這樣,如果前一個序列出現(xiàn)重大錯誤商源,在這里可以獲得重新同步的機(jī)會车份。IDR圖像之后的圖像永遠(yuǎn)不會使用IDR之前的圖像的數(shù)據(jù)來解碼。一個序列就是一段內(nèi)容差異不太大的圖像編碼后生成的一串?dāng)?shù)據(jù)流牡彻。當(dāng)運(yùn)動變化比較少時扫沼,一個序列可以很長,因為運(yùn)動變化少就代表圖像畫面的內(nèi)容變動很小庄吼,所以就可以編一個I幀缎除,然后一直P幀、B幀了霸褒。當(dāng)運(yùn)動變化多時伴找,可能一個序列就比較短了,比如就包含一個I幀和3废菱、4個P幀技矮。
I幀是關(guān)鍵幀,你可以理解為這一幀畫面的完整保留殊轴;P幀是前向預(yù)測編碼幀衰倦,表示的是這一幀跟之前的一個關(guān)鍵幀(或P幀)的差別;B幀是雙向預(yù)測內(nèi)插編碼幀旁理,也就是B幀記錄的是本幀與前后幀的差別樊零。一般直播場景下都會把B幀丟掉,以節(jié)省帶寬。
另外還有SPS(序列參數(shù)集)和PPS(圖像參數(shù)集)兩種類型的幀驻襟,其包含了初始化H.264解碼器所需要的信息參數(shù)夺艰,包括編碼所用的profile,level沉衣,圖像的寬和高郁副,deblock濾波器等,這兩類幀一種出現(xiàn)在H264文件前面豌习;在直播場景下存谎,一般會在I幀之前都發(fā)送這兩類幀,以便接收端能從中途判定流媒體的參數(shù)肥隆。