ffmpeg的tutorial中文版學習筆記(五)

如何同步視頻

源代碼:tutorial05-1.c

前面整個的一段時間,我們有了一個幾乎無用的電影播放器。當然,它能播放視頻,也能播放音頻,但是它還不能被稱爲一部電影。那麼我們還要做什麼呢?

PTSDTS

幸運的是,音頻和視頻流都有一些關於以多快速度和什麼時間來播放它們的信息在裏面。音頻流有采樣,視頻流有幀率。然而,如果我們只是簡單的通過幀數和乘以幀率的方式來同步視頻,那麼就很有可能會失去同步。於是作爲一種補充,在流中的包有種叫做DTS(解碼時間戳)和PTS(顯示時間戳)的機制。爲了這兩個參數,你需要了解電影存放的方式。像MPEG等格式,使用被叫做B幀(B表示雙向bidrectional)的方式。另外兩種幀被叫做I幀和P幀(I表示關鍵幀,P表示預測幀)。I幀包含了某個特定的完整圖像。P幀依賴於前面的I幀或P幀,並且使用比較或者差分的方式來編碼。B幀與P幀有點類似,但是它是依賴於前面和後面的幀的信息的。這也就解釋了爲什麼我們可能在調用avcodec_decode_video以後會得不到一幀圖像

所以對於一個電影,幀是這樣來顯示的:I B B P。現在我們需要在顯示B幀之前知道P幀中的信息。因此,幀可能會按照這樣的方式來存儲:IPBB。這就是爲什麼我們會有一個解碼時間戳和一個顯示時間戳的原因。解碼時間戳告訴我們什麼時候需要解碼,顯示時間戳告訴我們什麼時候需要顯示。所以,在這種情況下,我們的流可以是這樣的:

   PTS: 1 4 2 3
   DTS: 1 2 3 4
Stream: I P B B

通常PTSDTS只有在流中有B幀的時候會不同。

當我們調用av_read_frame()得到一個包的時候,PTSDTS的信息也會保存在包中。但是我們真正想要的PTS是我們剛剛解碼出來的原始幀的PTS,這樣我們才能知道什麼時候來顯示它。然而,我們從avcodec_decode_video()函數中得到的幀只是一個AVFrame,其中並沒有包含有用的PTS值(注意:AVFrame含有一成員pts,但這並不一定就含着我們想要的pts值)。然而,ffmpeg會將包重新排序,這樣正被avcodec_decode_video()處理的包的DTS就與其之前返回的那幀的PTS相同。但同樣要注意的是:我們也並不一定就能得到這個信息。

不用擔心,因爲有另外一種辦法可以找到幀的PTS,我們可以讓程序自己來重新排序包。我們保存一幀的第一個包的PTS:這將作爲整個這一幀的PTS。我們可以通過函數avcodec_decode_video()來計算出哪個包是一幀的第一個包。怎樣實現呢?任何時候當一個包開始一幀的時候,avcodec_decode_video()將調用一個函數來爲一幀申請一個緩衝。當然,ffmpeg允許我們重新定義這個分配內存的函數。所以我們製作了一個新的函數來保存一個包的時間戳。

當然,儘管那樣,我們可能還是得不到一個正確的時間戳。我們將在後面處理這個問題。

同步

現在,知道了什麼時候來顯示一個視頻幀,但是我們怎樣來實際操作呢?想法是:當我們顯示了一幀以後,我們計算出下一幀顯示的時間,然後我們簡單的設置一個新的定時器來在一定間隔後刷新屏幕。你可能會想,我們以系統時鐘爲準來檢查下一幀的PTS值來看應該設置多長時間。這種方式可以工作,但是有兩種情況要處理。

首先,要知道下一個PTS是什麼。現在我們能添加視頻速率到我們的PTS中--太對了!然而,有些電影需要幀重複。這意味着我們重複播放當前的幀。這將導致程序顯示下一幀太快了。所以我們需要計算它們。

第二,正如已有的程序那樣,視頻和音頻各自播放很歡快,一點也不受同步的影響。如果一切都工作得很好的話,我們不必擔心。但是,你的電腦並不總是那麼完美的,很多視頻文件也不是完好的。所以,我們有三種選擇:同步音頻到視頻,同步視頻到音頻,或者都同步到外部時鐘(例如你的電腦時鐘)。從現在開始,我們將同步視頻到音頻。

寫代碼:獲得幀的時間戳

現在讓我們到代碼中來做這些事情。我們將需要爲我們的大結構體添加一些成員,但是我們會根據需要來做。首先,讓我們看一下視頻線程。記住,在這裏我們得到了解碼線程輸出到隊列中的包。這裏我們需要的是從avcodec_decode_video函數中得到幀的時間戳。我們討論的第一種方式是從上次處理的包中得到DTS,這是很容易的:

  double pts;

  pFrame = avcodec_alloc_frame();

  for(;;) 
  {
    if(packet_queue_get(&is->videoq, packet, 1) < 0) 
    {
      // means we quit getting packets
      break;
    }
    pts = 0;

    // Save global pts to be stored in pFrame in first call
    global_video_pkt_pts = packet->pts;
    // Decode video frame
    avcodec_decode_video2(is->video_st->codec, pFrame, &frameFinished,packet);

    if(packet->dts == AV_NOPTS_VALUE&& pFrame->opaque && *(uint64_t*)pFrame->opaque != AV_NOPTS_VALUE) 
    {
      pts = *(uint64_t *)pFrame->opaque;
    } 
    else if(packet->dts != AV_NOPTS_VALUE) 
    {
      pts = packet->dts;
    } 
    else 
    {
      pts = 0;
    }
    pts *= av_q2d(is->video_st->time_base);


如果我們得不到PTS就把它設置爲0

好,那是很容易的。但是我們所說的如果包的DTS不能幫到我們,我們需要使用這一幀的第一個包的PTS(兩種途徑標記一樣)。我們通過讓ffmpeg使用我們自己的申請幀程序來實現。下面的是函數的格式:

int get_buffer(struct AVCodecContext *c, AVFrame *pic);

void release_buffer(struct AVCodecContext *c, AVFrame *pic);


申請函數沒有告訴我們關於包的任何事情,所以我們要自己每次在得到一個包的時候把PTS保存到一個全局變量中去。然後,我們把值保存到AVFrame結構體的變量opaque中。所以一開始,這就是我們的函數:

uint64_t global_video_pkt_pts = AV_NOPTS_VALUE;

/* These are called whenever we allocate a frame
* buffer. We use this to store the global_pts in
* a frame at the time it is allocated.
*/
int our_get_buffer(struct AVCodecContext *c, AVFrame *pic) 
{
  int ret = avcodec_default_get_buffer(c, pic);
  uint64_t *pts = av_malloc(sizeof(uint64_t));
  *pts = global_video_pkt_pts;
  pic->opaque = pts;
  return ret;
}
void our_release_buffer(struct AVCodecContext *c, AVFrame *pic) 
{
  if(pic) 
    av_freep(&pic->opaque);
  avcodec_default_release_buffer(c, pic);
}

函數avcodec_default_get_bufferavcodec_default_release_bufferffmpeg中默認的申請緩衝的函數。函數av_freep是一個內存管理函數,它不但把內存釋放而且把指針設置爲NULL

現在到了我們流打開的函數(stream_component_open),我們添加這幾行來告訴ffmpeg如何去做:

    codecCtx->get_buffer = our_get_buffer;
    codecCtx->release_buffer = our_release_buffer;

現在我們必需添加代碼來保存PTS到全局變量中,然後在需要的時候來使用它。我們的代碼現在看起來應該是這樣子:

  for(;;) 
  {
    if(packet_queue_get(&is->videoq, packet, 1) < 0) 
    {
      // means we quit getting packets
      break;
    }
    pts = 0;

    // Save global pts to be stored in pFrame in first call
    global_video_pkt_pts = packet->pts;
    // Decode video frame
    avcodec_decode_video2(is->video_st->codec, pFrame, &frameFinished,packet);

    if(packet->dts == AV_NOPTS_VALUE&& pFrame->opaque && *(uint64_t*)pFrame->opaque != AV_NOPTS_VALUE) 
    {
      pts = *(uint64_t *)pFrame->opaque;
    } 
    else if(packet->dts != AV_NOPTS_VALUE) 
    {
      pts = packet->dts;
    } 
    else 
    {
      pts = 0;
    }
    pts *= av_q2d(is->video_st->time_base);

技術提示:你可能已經注意到我們使用int64來表示PTS。這是因爲PTS是以整型來保存的。這個值是一個時間戳相當於時間的度量,用來以流的time_base爲單位進行時間度量。例如,如果一個流是24幀每秒,值爲42PTS表示這一幀應該排在第42個幀的位置。 如果我們每秒有24幀(當然這值也許並不完全正確)。我們可以通過除以幀率來把這個值轉化爲秒。流中的time_base值以1/framerate表示(對於固定幀率來說),所以爲得到以秒爲單位的PTS,我們需要乘以time_base

寫代碼:使用PTS來同步

現在我們得到了PTS。我們要注意前面討論到的兩個同步問題。我們將定義一個函數叫做synchronize_video,它可以更新同步的PTS。這個函數也能最終處理我們得不到PTS的情況。同時我們要知道下一幀的時間以便於正確設置刷新速率。我們可以使用內部的反映當前視頻已經播放時間的時鐘video_clock來完成這個功能。我們把這些值添加到大結構體中。

typedef struct VideoState 
{
      ...........
      double video_clock; ///<pts of last decoded frame / predicted pts of next decoded frame
      ...........
}


下面的是函數synchronize_video,它可以很好的自我註釋:

double synchronize_video(VideoState *is, AVFrame *src_frame, double pts) 
{

  double frame_delay;

  if(pts != 0) 
  {
    /* if we have pts, set video clock to it */
    is->video_clock = pts;
printf("pts=%lf\n",pts);
  } 
  else 
  {
    /* if we aren't given a pts, set it to the clock */
    pts = is->video_clock;
  }
  /* update the video clock */
  frame_delay = av_q2d(is->video_st->codec->time_base);
  /* if we are repeating a frame, adjust clock accordingly */
  frame_delay += src_frame->repeat_pict * (frame_delay * 0.5);
  is->video_clock += frame_delay;
  return pts;
}

你也會注意到我們也計算了重複的幀。


現在讓我們得到正確的PTS並且使用queue_picture來隊列化幀,添加一個新的時間戳參數pts

    // Did we get a video frame?
    if(frameFinished) 
    {
      pts = synchronize_video(is, pFrame, pts);
      if(queue_picture(is, pFrame, pts) < 0) 
      {
        break;
      }
    }

對於queue_picture來說唯一改變的事情就是我們把時間戳值pts保存到VideoPicture結構體中,我們我們必需添加一個時間戳變量到結構體中並且添加一行代碼:

typedef struct VideoPicture 
{
  .......
  double pts;
} VideoPicture;

<p style="text-align:left" align="left"><span lang="EN-US" style="font-family:宋體;color:#333333;font-size:9pt">int queue_picture(VideoState *is, AVFrame *pFrame, double pts) {</span></p><p style="text-align:left" align="left"><span lang="EN-US" style="font-family:宋體;color:#333333;font-size:9pt">  ... stuff ...</span></p><p style="text-align:left" align="left"><span lang="EN-US" style="font-family:宋體;color:#333333;font-size:9pt">  if(vp->bmp) {</span></p><p style="text-align:left" align="left"><span lang="EN-US" style="font-family:宋體;color:#333333;font-size:9pt">    ... convert picture ...</span></p><p style="text-align:left" align="left"><span lang="EN-US" style="font-family:宋體;color:#333333;font-size:9pt">    vp->pts = pts;</span></p><p style="text-align:left" align="left"><span lang="EN-US" style="font-family:宋體;color:#333333;font-size:9pt">    ... alert queue ...</span></p><p style="text-align:left" align="left"><span lang="EN-US" style="font-family:宋體;color:#333333;font-size:9pt">  }</span></p>}

現在我們的圖像隊列中的所有圖像都有了正確的時間戳值,所以讓我們看一下視頻刷新函數。你會記得上次我們用80ms的刷新時間來欺騙它。那麼,現在我們將會算出實際的值。

我們的策略是通過簡單計算前一幀和現在這一幀的時間戳來預測出下一個時間戳的時間。同時,我們需要同步視頻到音頻。我們將設置一個音頻時間audio clock;一個內部值記錄了我們正在播放的音頻的位置。就像從任意的mp3播放器中讀出來的數字一樣。既然我們把視頻同步到音頻,視頻線程使用這個值來算出是否太快還是太慢。

我們將在後面來實現這些代碼;現在我們假設我們已經有一個可以給我們音頻時間的函數get_audio_clock。一旦我們有了這個值,我們在音頻和視頻失去同步的時候應該做些什麼呢?我們應調整下次刷新的值:如果時間戳太落後於音頻時間,我們加倍計算延遲。如果時間戳太領先於音頻時間,我們將盡可能快的刷新(原文這麼寫對嗎???--還是參考代碼好了,老外的表述與我們的理解有差別)。我們有了調整過的刷新時間(或延遲),並記錄了運行時間frame_timerframe_timer = 電影開始播放時的系統時間 + 播放中所有延時的總和我們簡單的添加新的時延到frame_timer,並把它和電腦的系統時間進行比較,然後使用那個差值來調度下一次刷新。這可能有點難以理解,所以請認真研究代碼:

void video_refresh_timer(void *userdata) 
{

  VideoState *is = (VideoState *)userdata;
  VideoPicture *vp;
  double actual_delay, delay, sync_threshold, ref_clock, diff;
  
  if(is->video_st) 
  {
    if(is->pictq_size == 0) 
    {
      schedule_refresh(is, 1);
    } 
    else 
    {
      vp = &is->pictq[is->pictq_rindex];

      delay = vp->pts - is->frame_last_pts; /* the pts from last time */
      if(delay <= 0 || delay >= 1.0) 
      {
        /* if incorrect delay, use previous one */
        delay = is->frame_last_delay;
      }
      /* save for next time */
      is->frame_last_delay = delay;
      is->frame_last_pts = vp->pts;

      /* update delay to sync to audio */
      ref_clock = get_audio_clock(is);
      diff = vp->pts - ref_clock;

      /* Skip or repeat the frame. Take delay into account
      FFPlay still doesn't "know if this is the best guess." */
      sync_threshold = (delay > AV_SYNC_THRESHOLD) ? delay : AV_SYNC_THRESHOLD;
      if(fabs(diff) < AV_NOSYNC_THRESHOLD) 
      {
        if(diff <= -sync_threshold) 
        {
          delay = 0;
        } 
        else if(diff >= sync_threshold) 
        {
          delay = 2 * delay;
        }
      }
      is->frame_timer += delay;
      /* computer the REAL delay */
      actual_delay = is->frame_timer - (av_gettime() / 1000000.0);
      if(actual_delay < 0.010) 
      {
        /* Really it should skip the picture instead */
        actual_delay = 0.010;
      }
      schedule_refresh(is, (int)(actual_delay * 1000 + 0.5));
      /* show the picture! */
      video_display(is);
      
      /* update queue for next picture! */
      if(++is->pictq_rindex == VIDEO_PICTURE_QUEUE_SIZE) 
      {
        is->pictq_rindex = 0;
      }
      SDL_LockMutex(is->pictq_mutex);
      is->pictq_size--;
      SDL_CondSignal(is->pictq_cond);
      SDL_UnlockMutex(is->pictq_mutex);
    }
  } 
  else 
  {
    schedule_refresh(is, 100);
  }
}


我們在這裏做了一些檢查:首先,我們保證現在的時間戳和上一個時間戳之間的時延delay是有意義的。如果不是的話,我們就猜測着用上次的延遲。接着,我們有一個同步閾值,因爲在同步的時候事情並不總是那麼完美的。在ffplay中使用0.01作爲它的值。我們也保證閾值不會比時間戳之間的間隔短。最後,我們把最小的刷新值設置爲10毫秒。(事實上這裏我們應該跳過這一幀,但是我們不想爲此而煩惱。)

我們給大結構體添加了很多的變量,所以不要忘記檢查一下代碼。同時也不要忘記在函數stream_component_open中初始化幀時間frame_timer和前面的幀延遲frame delay

      is->frame_timer = (double)av_gettime() / 1000000.0;
      is->frame_last_delay = 40e-3;

同步:聲音時鐘

現在讓我們看一下怎樣來得到聲音時鐘。我們可以在聲音解碼函數audio_decode_frame中更新時鐘時間。現在,請記住我們並不是每次調用這個函數的時候都在處理新的包,所以有我們要在兩個地方更新時鐘。第一個地方是我們得到新的包的時候:我們簡單的設置聲音時鐘爲這個包的時間戳。然後,如果一個包裏有許多幀,我們通過樣本數和採樣率來計算,所以當我們得到包的時候:

    /* if update, update the audio clock w/pts */
    if(pkt->pts != AV_NOPTS_VALUE) 
    {
      is->audio_clock = av_q2d(is->audio_st->time_base)*pkt->pts;
      //printf("--%g----%g--%g\n",is->audio_clock,av_q2d(is->audio_st->time_base),pkt->pts);

    }

然後當我們處理這個包的時候:

      pts = is->audio_clock;
      *pts_ptr = pts;
      n = 2 * is->audio_st->codec->channels;
      //printf("%d,,,%d\n",is->audio_st->codec->sample_rate,data_size );
      is->audio_clock += (double)data_size /(double)(n * is->audio_st->codec->sample_rate);

一點細節:此函數多包含了一個參數pts_ptr。這時的pts_ptr是一個用來通知audio_callback函數當前聲音包的時間戳的指針。這將在下次用來同步聲音和視頻。

現在我們可以最後來實現我們的get_audio_clock函數。它並不只是得到is->audio_clock值那樣簡單。注意我們會在每次處理它的時候設置聲音時間戳,但是如果你看了audio_callback函數,它花費了時間來把數據從聲音包中移到我們的輸出緩衝區中。這意味着我們聲音時鐘中記錄的時間比實際的要早太多(我猜也即先計算出is->audio_clock,但是相應的數據可能在audio_callback函數中還沒從聲音包中移到我們的輸出緩衝區中,所以要減去這部分多算的時間。)所以我們必須要檢查一下我們還有多少沒有寫入。下面是完整的代碼:


double get_audio_clock(VideoState *is) 
{
  double pts;
  int hw_buf_size, bytes_per_sec, n;
  
  pts = is->audio_clock; /* maintained in the audio thread */
  hw_buf_size = is->audio_buf_size - is->audio_buf_index;
  bytes_per_sec = 0;
  n = is->audio_st->codec->channels * 2;
  if(is->audio_st) 
  {
    bytes_per_sec = is->audio_st->codec->sample_rate * n;
  }
  if(bytes_per_sec) 
  {
    pts -= (double)hw_buf_size / bytes_per_sec;
  }
  return pts;
}
你應該知道爲什麼這個函數可以正常工作了;)

這就是了!讓我們編譯它:

gcc ./<span class="css-truncate css-truncate-target"><span class="js-directory-link">tutorial05-1.c</span></span> -o ./<span class="css-truncate css-truncate-target"><span class="js-directory-link">tutorial05-1</span></span> -lavutil -lavformat -lavcodec -lswscale  -lz -lm `sdl-config --cflags --libs` -I /home/Jiakun/ffmpeg_build/include/
 -L /home/Jiakun/ffmpeg_build/lib/ -I /usr/include/SDL/

源代碼: 見這裏的github;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章