前幾篇文章绩聘,實(shí)現(xiàn)了音頻與視頻的單獨(dú)播放沥割,但將音視頻結(jié)合到一塊之后會出現(xiàn)音頻與視頻不同步的問題。經(jīng)研究之后凿菩,在此記錄下原因机杜、同步原理、以及實(shí)現(xiàn)衅谷。
一椒拗、原理
如果簡單的按照音頻的采樣率與視頻的幀率去播放,由于機(jī)器運(yùn)行速度,解碼效率等種種造成時(shí)間差異的因素影響蚀苛,很難同步在验,音視頻時(shí)間差將會呈現(xiàn)線性增長。所以要做音視頻的同步堵未,有三種方式:
參考一個(gè)外部時(shí)鐘腋舌,將音頻與視頻同步至此時(shí)間。我首先想到這種方式渗蟹,但是并不好块饺,由于某些生物學(xué)的原理,人對聲音的變化比較敏感雌芽,但是對視覺變化不太敏感授艰。所以頻繁的去調(diào)整聲音的播放會有些刺耳或者雜音吧影響用戶體驗(yàn)。(ps:順便科普生物學(xué)知識世落,自我感覺好高大上_)淮腾。
以視頻為基準(zhǔn),音頻去同步視頻的時(shí)間岛心。不采用来破,理由同上。
以音頻為基準(zhǔn)忘古,視頻去同步音頻的時(shí)間徘禁。 所以這個(gè)辦法了。
所以髓堪,原理就是以音頻時(shí)間為基準(zhǔn)送朱,判斷視頻快了還是慢了,從而調(diào)整視頻速度干旁。其實(shí)是一個(gè)動態(tài)的追趕與等待的過程驶沼。
二、一些概念
音視頻中都有DTS與PTS争群。
- DTS 回怜,Decoding Time Stamp,解碼時(shí)間戳换薄,告訴解碼器packet的解碼順序玉雾。
- PTS ,Presentation Time Stamp轻要,顯示時(shí)間戳复旬,指示從packet中解碼出來的數(shù)據(jù)的顯示順序。
音頻中二者是相同的冲泥,但是視頻由于B幀(雙向預(yù)測)的存在驹碍,會造成解碼順序與顯示順序并不相同壁涎,也就是視頻中DTS與PTS不一定相同。
- 時(shí)間基 :看FFmpeg源碼
/**
* This is the fundamental unit of time (in seconds) in terms
* of which frame timestamps are represented. For fixed-fps content,
* timebase should be 1/framerate and timestamp increments should be
* identically 1.
* This often, but not always is the inverse of the frame rate or field rate
* for video.
* - encoding: MUST be set by user.
* - decoding: the use of this field for decoding is deprecated.
* Use framerate instead.
*/
AVRational time_base;
/**
* rational number numerator/denominator
*/
typedef struct AVRational{
int num; ///< numerator
int den; ///< denominator
} AVRational;
個(gè)人理解志秃,其實(shí)就是ffmpeg中的用分?jǐn)?shù)表示時(shí)間單位怔球,num為分子,den為分母洽损。并且ffmpeg提供了計(jì)算方法:
/**
* Convert rational to double.
* @param a rational to convert
* @return (double) a
*/
static inline double av_q2d(AVRational a){
return a.num / (double) a.den;
}
所以 視頻中某幀的顯示時(shí)間 計(jì)算方式為(單位為妙):
time = pts * av_q2d(time_base);
三庞溜、同步代碼
1、 音頻部分
clock 為音頻的播放時(shí)長(從開始到當(dāng)前的時(shí)間)
if (packet->pts != AV_NOPTS_VALUE) {
audio->clock = av_q2d(audio->time_base) * packet->pts;
}
然后加上此packet中數(shù)據(jù)需要播放的時(shí)間
double time = datalen/((double) 44100 *2 * 2);
audio->clock = audio->clock +time;
datalen為數(shù)據(jù)長度碑定。采樣率為44100流码,采樣位數(shù)為16,通道數(shù)為2延刘。所以 數(shù)據(jù)長度 / 每秒字節(jié)數(shù)漫试。
ps:此處計(jì)算方式不是很完美,有很多問題碘赖,回頭研究在再補(bǔ)上驾荣。
二、 視頻部分
先定義幾個(gè)值:
double last_play //上一幀的播放時(shí)間
,play //當(dāng)前幀的播放時(shí)間
, last_delay // 上一次播放視頻的兩幀視頻間隔時(shí)間
,delay //兩幀視頻間隔時(shí)間
,audio_clock //音頻軌道 實(shí)際播放時(shí)間
,diff //音頻幀與視頻幀相差時(shí)間
,sync_threshold //合理的范圍
,start_time //從第一幀開始的絕對時(shí)間
,pts
,actual_delay//真正需要延遲時(shí)間
start_time = av_gettime() / 1000000.0;
// 獲取pts
if ((pts = av_frame_get_best_effort_timestamp(frame)) == AV_NOPTS_VALUE) {
pts = 0;
}
play = pts * av_q2d(vedio->time_base);
// 糾正時(shí)間
play = vedio->synchronize(frame, play);
delay = play - last_play;
if (delay <= 0 || delay > 1) {
delay = last_delay;
}
audio_clock = vedio->audio->clock;
last_delay = delay;
last_play = play;
//音頻與視頻的時(shí)間差
diff = vedio->clock - audio_clock;
// 在合理范圍外 才會延遲 加快
sync_threshold = (delay > 0.01 ? 0.01 : delay);
if (fabs(diff) < 10) {
if (diff <= -sync_threshold) {
delay = 0;
} else if (diff >= sync_threshold) {
delay = 2 * delay;
}
}
start_time += delay;
actual_delay = start_time - av_gettime() / 1000000.0;
if (actual_delay < 0.01) {
actual_delay = 0.01;
}
// 休眠時(shí)間 ffmpeg 建議這樣寫 為什么 要這樣寫 有待研究
av_usleep(actual_delay * 1000000.0 + 6000);
糾正play (播放時(shí)間)的方法 repeat_pict / (2 * fps) 是ffmpeg注釋里教的
synchronize(AVFrame *frame, double play) {
//clock是當(dāng)前播放的時(shí)間位置
if (play != 0)
clock=play;
else //pst為0 則先把pts設(shè)為上一幀時(shí)間
play = clock;
//可能有pts為0 則主動增加clock
//需要求出擴(kuò)展延時(shí):
double repeat_pict = frame->repeat_pict;
//使用AvCodecContext的而不是stream的
double frame_delay = av_q2d(codec->time_base);
//fps
double fps = 1 / frame_delay;
//pts 加上 這個(gè)延遲 是顯示時(shí)間
double extra_delay = repeat_pict / (2 * fps);
double delay = extra_delay + frame_delay;
clock += delay;
return play;
}
四普泡、最后
運(yùn)行同步效果還不錯(cuò)播掷,但 好多地方有待改進(jìn)。有空再改撼班。接下來研究下 推流
項(xiàng)目鏈接