視頻
視頻的播放過程可以簡單理解為一幀一幀的畫面按照時間順序呈現(xiàn)出來的過程,就像在一個本子的每一頁畫上畫五嫂,然后快速翻動的感覺颗品。
但是在實際應(yīng)用中肯尺,并不是每一幀都是完整的畫面,因為如果每一幀畫面都是完整的圖片躯枢,那么一個視頻的體積就會很大则吟,這樣對于網(wǎng)絡(luò)傳輸或者視頻數(shù)據(jù)存儲來說成本太高,所以通常會對視頻流中的一部分畫面進行壓縮(編碼)處理锄蹂。由于壓縮處理的方式不同氓仲,視頻中的畫面幀就分為了不同的類別,其中包括:I 幀得糜、P 幀敬扛、B 幀。
I朝抖、P啥箭、B 幀
I 幀、P 幀治宣、B 幀的區(qū)別在于:
- I 幀(Intra coded frames):I 幀圖像采用幀內(nèi)編碼方式急侥,即只利用了單幀圖像內(nèi)的空間相關(guān)性,而沒有利用時間相關(guān)性炼七。I 幀使用幀內(nèi)壓縮缆巧,不使用運動補償,由于 I 幀不依賴其它幀豌拙,所以是隨機存取的入點陕悬,同時是解碼的基準幀。I 幀主要用于接收機的初始化和信道的獲取按傅,以及節(jié)目的切換和插入捉超,I 幀圖像的壓縮倍數(shù)相對較低。I 幀圖像是周期性出現(xiàn)在圖像序列中的唯绍,出現(xiàn)頻率可由編碼器選擇拼岳。
- P 幀(Predicted frames):P 幀和 B 幀圖像采用幀間編碼方式,即同時利用了空間和時間上的相關(guān)性况芒。P 幀圖像只采用前向時間預測惜纸,可以提高壓縮效率和圖像質(zhì)量。P 幀圖像中可以包含幀內(nèi)編碼的部分绝骚,即 P 幀中的每一個宏塊可以是前向預測耐版,也可以是幀內(nèi)編碼。
- B 幀(Bi-directional predicted frames):B 幀圖像采用雙向時間預測压汪,可以大大提高壓縮倍數(shù)粪牲。值得注意的是,由于 B 幀圖像采用了未來幀作為參考止剖,因此 MPEG-2 編碼碼流中圖像幀的傳輸順序和顯示順序是不同的腺阳。
也就是說落君,一個I幀可以不依賴其他幀就解碼出一幅完整的圖像,而P幀亭引、B幀不行绎速。P幀需要依賴視頻流中排在它前面的幀才能解碼出圖像。B幀則需要依賴視頻流中排在它前面或后面的幀才能解碼出圖像痛侍。
這就帶來一個問題:在視頻流中朝氓,先到來的B幀無法立即解碼,需要等待它依賴的后面的I主届、P幀先解碼完成赵哲,這樣一來播放時間與解碼時間不一致了,順序打亂了君丁,那這些幀該如何播放呢枫夺?這時就需要我們來了解另外兩個概念:DTS 和 PTS。
補充一個基于I 幀绘闷、P 幀橡庞、B 幀上很重要的概念:
GOP
GOP即Group of picture(圖像組),指兩個I幀之間的距離印蔗,Reference(參考周期)指兩個P幀之間的距離扒最。一個I幀所占用的字節(jié)數(shù)大于一個P幀,一個P幀所占用的字節(jié)數(shù)大于一個B幀华嘹。所以在碼率不變的前提下吧趣,GOP值越大,P耙厚、B幀的數(shù)量會越多强挫,平均每個I、P薛躬、B幀所占用的字節(jié)數(shù)就越多俯渤,也就更容易獲取較好的圖像質(zhì)量;Reference越大型宝,B幀的數(shù)量越多八匠,同理也更容易獲得較好的圖像質(zhì)量。
需要說明的是趴酣,通過提高GOP值來提高圖像質(zhì)量是有限度的梨树,在遇到場景切換的情況時,H.264編碼器會自動強制插入一個I幀价卤,此時實際的GOP值被縮短了。另一方面渊涝,在一個GOP中慎璧,P床嫌、B幀是由I幀預測得到的,當I幀的圖像質(zhì)量比較差時胸私,會影響到一個GOP中后續(xù)P厌处、B幀的圖像質(zhì)量,直到下一個GOP開始才有可能得以恢復岁疼,所以GOP值也不宜設(shè)置過大阔涉。
同時,由于P捷绒、B幀的復雜度大于I幀瑰排,所以過多的P、B幀會影響編碼效率暖侨,使編碼效率降低椭住。另外,過長的GOP還會影響Seek操作的響應(yīng)速度字逗,由于P京郑、B幀是由前面的I或P幀預測得到的,所以Seek操作需要直接定位葫掉,解碼某一個P或B幀時些举,需要先解碼得到本GOP內(nèi)的I幀及之前的N個預測幀才可以,GOP值越長俭厚,需要解碼的預測幀就越多户魏,seek響應(yīng)的時間也越長。
DTS套腹、PTS 的概念
DTS绪抛、PTS 的概念如下所述:
- DTS(Decoding Time Stamp):即解碼時間戳,這個時間戳的意義在于告訴播放器該在什么時候解碼這一幀的數(shù)據(jù)电禀。
- PTS(Presentation Time Stamp):即顯示時間戳幢码,這個時間戳用來告訴播放器該在什么時候顯示這一幀的數(shù)據(jù)。
需要注意的是:雖然DTS尖飞、PTS是用于指導播放端的行為症副,但它們是在編碼的時候由編碼器生成的。
當視頻流中沒有 B 幀時政基,通常DTS和PTS的順序是一致的贞铣。但如果有 B 幀時,就回到了我們前面說的問題:解碼順序和播放順序不一致了沮明。
比如一個視頻中辕坝,幀的顯示順序是:I B B P,現(xiàn)在我們需要在解碼 B 幀時知道 P 幀中信息荐健,因此這幾幀在視頻流中的順序可能是:I P B B酱畅,這時候就體現(xiàn)出每幀都有DTS和PTS的作用了琳袄。DTS 告訴我們該按什么順序解碼這幾幀圖像,PTS 告訴我們該按什么順序顯示這幾幀圖像纺酸。順序大概如下:
PTS: 1 4 2 3
DTS: 1 2 3 4
Stream: I P B B
音視頻的同步
上面說了視頻幀窖逗、DTS、PTS 相關(guān)的概念餐蔬。我們都知道在一個媒體流中碎紊,除了視頻以外,通常還包括音頻樊诺。音頻的播放仗考,也有 DTS、PTS 的概念啄骇,但是音頻沒有類似視頻中 B 幀痴鳄,不需要雙向預測,所以音頻幀的 DTS缸夹、PTS 順序是一致的痪寻。
音頻視頻混合在一起播放,就呈現(xiàn)了我們常乘洳眩看到的廣義的視頻橡类。在音視頻一起播放的時候,我們通常需要面臨一個問題:怎么去同步它們芽唇,以免出現(xiàn)畫不對聲的情況顾画。
要實現(xiàn)音視頻同步,通常需要選擇一個參考時鐘匆笤,參考時鐘上的時間是線性遞增的研侣,編碼音視頻流時依據(jù)參考時鐘上的時間給每幀數(shù)據(jù)打上時間戳。在播放時炮捧,讀取數(shù)據(jù)幀上的時間戳庶诡,同時參考當前參考時鐘上的時間來安排播放。這里的說的時間戳就是我們前面說的 PTS咆课。實踐中末誓,我們可以選擇:同步視頻到音頻、同步音頻到視頻书蚪、同步音頻和視頻到外部時鐘喇澡。