FFmpeg簡易播放器的實現-音視頻同步

轉載出處:https://www.cnblogs.com/leisure_chn/p/10284653.html

注:感覺挺不錯的,轉發記錄下。

基於FFmpeg和SDL實現的簡易視頻播放器,主要分爲讀取視頻文件解碼和調用SDL顯示兩大部分。
FFmpeg簡易播放器系列文章如下:


[1]. FFmpeg簡易播放器的實現-最簡版
[2]. FFmpeg簡易播放器的實現-視頻播放
[3]. FFmpeg簡易播放器的實現-音頻播放
[4]. FFmpeg簡易播放器的實現-音視頻播放
[5]. FFmpeg簡易播放器的實現-音視頻同步


前面四次實驗,從最簡入手,循序漸進,研究播放器的實現過程。第四次實驗,雖然音頻和視頻都能播放出來,但是聲音和圖像無法同步,而沒有音視頻同步的播放器只是屬於概念性質的播放器,無法實際使用。本次實驗將實現音頻和視頻的同步,這樣,一個能夠實際使用的簡易播放器纔算初具雛形,在這個基礎上,後續可再進行完善和優化。

音視頻同步是播放器中比較複雜的一部分內容。前幾次實驗中的代碼遠不能滿足要求,需要大幅修改。本次實驗不在前幾次代碼上修改,而是基於ffplay源碼進行修改。ffplay是FFmpeg工程自帶的一個簡單播放器,儘管稱爲簡單播放器,其代碼實現仍顯得過爲複雜,本實驗對ffplay.c進行刪減,刪掉複雜的命令選項、濾鏡操作、SEEK操作、逐幀插放等功能,僅保留最核心的音視頻同步部分。

儘管不使用之前的代碼,但播放器的基本原理和大致流程相同,前面幾次實驗仍具有有效參考價值。

1. 視頻播放器基本原理

下圖引用自“雷霄驊,視音頻編解碼技術零基礎學習方法”,因原圖太小,看不太清楚,故重新制作了一張圖片。
播放器基本原理示意圖
如下內容引用自“雷霄驊,視音頻編解碼技術零基礎學習方法”:

解協議
將流媒體協議的數據,解析爲標準的相應的封裝格式數據。視音頻在網絡上傳播的時候,常常採用各種流媒體協議,例如HTTP,RTMP,或是MMS等等。這些協議在傳輸視音頻數據的同時,也會傳輸一些信令數據。這些信令數據包括對播放的控制(播放,暫停,停止),或者對網絡狀態的描述等。解協議的過程中會去除掉信令數據而只保留視音頻數據。例如,採用RTMP協議傳輸的數據,經過解協議操作後,輸出FLV格式的數據。

解封裝
將輸入的封裝格式的數據,分離成爲音頻流壓縮編碼數據和視頻流壓縮編碼數據。封裝格式種類很多,例如MP4,MKV,RMVB,TS,FLV,AVI等等,它的作用就是將已經壓縮編碼的視頻數據和音頻數據按照一定的格式放到一起。例如,FLV格式的數據,經過解封裝操作後,輸出H.264編碼的視頻碼流和AAC編碼的音頻碼流。

解碼
將視頻/音頻壓縮編碼數據,解碼成爲非壓縮的視頻/音頻原始數據。音頻的壓縮編碼標準包含AAC,MP3,AC-3等等,視頻的壓縮編碼標準則包含H.264,MPEG2,VC-1等等。解碼是整個系統中最重要也是最複雜的一個環節。通過解碼,壓縮編碼的視頻數據輸出成爲非壓縮的顏色數據,例如YUV420P,RGB等等;壓縮編碼的音頻數據輸出成爲非壓縮的音頻抽樣數據,例如PCM數據。

音視頻同步
根據解封裝模塊處理過程中獲取到的參數信息,同步解碼出來的視頻和音頻數據,並將視頻音頻數據送至系統的顯卡和聲卡播放出來。

2. 簡易播放器的實現-音視頻同步

2.1 實驗平臺

實驗平臺:  openSUSE Leap 42.3
            Microsoft Visual Studio 2017 (WIN10)  
FFmpeg版本:4.1  
SDL版本:   2.0.9  

 

本工程支持在Linux和Windows平臺上運行。
Linux下FFmpeg開發環境搭建可參考“FFmpeg開發環境構建”。
Windows下使用Microsoft Visual Studio 2017打開工程目錄下“ffplayer.sln”文件即可運行。

2.2 源碼清單

使用如下命令下載源碼:

git clone https://github.com/leichn/ffplayer.git

ffplay所有源碼集中在ffplay.c一個文件中,ffplay.c篇幅過長。本實驗將ffplay.c按功能點拆分爲多個文件,源文件說明如下:

player.c    運行主線程,SDL消息處理
demux.c     解複用線程
video.c     視頻解碼線程和視頻播放線程
audio.c     音頻解碼線程和音頻播放線程
packet.c    packet隊列操作函數
frame.c     frame隊列操作函數
main.c      程序入口,外部調用示例
Makefile    Linux平臺下編譯用Makefile
lib_wins    Windows平臺下FFmpeg和SDL編譯時庫和運行時庫

 

本來想將ffplay.c中全局使用的大數據結構VideoState也拆分分散到各文件中去,但發現各文件對數據的引用關係錯綜複雜,很難拆分,因此作罷。

2.3 源碼流程分析

源碼流程和ffplay基本相同,不同的一點是ffplay中視頻播放和SDL消息處理都是在同一個線程中(主線程),本工程中將視頻播放獨立爲一個線程。
FFmpeg簡易播放器流程圖

2.4 音視頻同步

音視頻同步的詳細介紹可參考“ffplay源碼分析4-音視頻同步”,爲保證文章的完整性,本文保留此節內容。與“ffplay源碼分析4-音視頻同步”相比,本節源碼及文字均作了適當精簡。

音視頻同步的目的是爲了使播放的聲音和顯示的畫面保持一致。視頻按幀播放,圖像顯示設備每次顯示一幀畫面,視頻播放速度由幀率確定,幀率指示每秒顯示多少幀;音頻按採樣點播放,聲音播放設備每次播放一個採樣點,聲音播放速度由採樣率確定,採樣率指示每秒播放多少個採樣點。如果僅僅是視頻按幀率播放,音頻按採樣率播放,二者沒有同步機制,即使最初音視頻是基本同步的,隨着時間的流逝,音視頻會逐漸失去同步,並且不同步的現象會越來越嚴重。這是因爲:一、播放時間難以精確控制,二、異常及誤差會隨時間累積。所以,必須要採用一定的同步策略,不斷對音視頻的時間差作校正,使圖像顯示與聲音播放總體保持一致。

音視頻同步的方式基本是確定一個時鐘(音頻時鐘、視頻時鐘、外部時鐘)作爲主時鐘,非主時鐘的音頻或視頻時鐘爲從時鐘。在播放過程中,主時鐘作爲同步基準,不斷判斷從時鐘與主時鐘的差異,調節從時鐘,使從時鐘追趕(落後時)或等待(超前時)主時鐘。按照主時鐘的不同種類,可以將音視頻同步模式分爲如下三種:
音頻同步到視頻,視頻時鐘作爲主時鐘。
視頻同步到音頻,音頻時鐘作爲主時鐘。
音視頻同步到外部時鐘,外部時鐘作爲主時鐘。
本實驗採用ffplay默認的同步方式:視頻同步到音頻
ffplay中同步模式的定義如下:

enum {
    AV_SYNC_AUDIO_MASTER, /* default choice */
    AV_SYNC_VIDEO_MASTER,
    AV_SYNC_EXTERNAL_CLOCK, /* synchronize to an external clock */
};

2.4.1 time_base

time_base是PTS和DTS的時間單位,也稱時間基。
不同的封裝格式time_base不一樣,轉碼過程中的不同階段time_base也不一樣。
以mpegts封裝格式爲例,假設視頻幀率25FPS爲。編碼數據包packet(數據結構AVPacket)對應的time_base爲AVRational{1,90000}。原始數據幀frame(數據結構AVFrame)對應的time_base爲AVRational{1,25}。在解碼或播放過程中,我們關注的是frame的time_base,定義在AVStream結構體中,其表示形式AVRational{1,25}是一個分數,值爲1/25,單位是秒。在舊的FFmpeg版本中,AVStream中的time_base成員有如下注釋:

For fixed-fps content, time base should be 1/framerate and timestamp increments should be 1.

當前新版本中已無此條註釋。

2.4.2 PTS/DTS/解碼過程

DTS(Decoding Time Stamp, 解碼時間戳),表示packet的解碼時間。
PTS(Presentation Time Stamp, 顯示時間戳),表示packet解碼後數據的顯示時間。
音頻中DTS和PTS是相同的。視頻中由於B幀需要雙向預測,B幀依賴於其前和其後的幀,因此含B幀的視頻解碼順序與顯示順序不同,即DTS與PTS不同。當然,不含B幀的視頻,其DTS和PTS是相同的。

解碼順序和顯示順序相關的解釋可參考“視頻編解碼基礎概念”,選用下圖說明視頻流解碼順序和顯示順序

解碼和顯示順序

理解了含B幀視頻流解碼順序與顯示順序的不同,才容易理解視頻解碼函數video_decode_frame()中對視頻解碼的處理:
avcodec_send_packet()按解碼順序發送packet。
avcodec_receive_frame()按顯示順序輸出frame。
這個過程由解碼器處理,不需要用戶程序費心。
video_decode_frame()是非常核心的一個函數,實現如下:

// 從packet_queue中取一個packet,解碼生成frame
static int video_decode_frame(AVCodecContext *p_codec_ctx, packet_queue_t *p_pkt_queue, AVFrame *frame)
{
    int ret;
    
    while (1)
    {
        AVPacket pkt;

        while (1)
        {
            // 3. 從解碼器接收frame
            // 3.1 一個視頻packet含一個視頻frame
            //     解碼器緩存一定數量的packet後,纔有解碼後的frame輸出
            //     frame輸出順序是按pts的順序,如IBBPBBP
            //     frame->pkt_pos變量是此frame對應的packet在視頻文件中的偏移地址,值同pkt.pos
            ret = avcodec_receive_frame(p_codec_ctx, frame);
            if (ret < 0)
            {
                if (ret == AVERROR_EOF)
                {
                    av_log(NULL, AV_LOG_INFO, "video avcodec_receive_frame(): the decoder has been fully flushed\n");
                    avcodec_flush_buffers(p_codec_ctx);
                    return 0;
                }
                else if (ret == AVERROR(EAGAIN))
                {
                    av_log(NULL, AV_LOG_INFO, "video avcodec_receive_frame(): output is not available in this state - "
                            "user must try to send new input\n");
                    break;
                }
                else
                {
                    av_log(NULL, AV_LOG_ERROR, "video avcodec_receive_frame(): other errors\n");
                    continue;
                }
            }
            else
            {
                frame->pts = frame->best_effort_timestamp;
                //frame->pts = frame->pkt_dts;

                return 1;   // 成功解碼得到一個視頻幀或一個音頻幀,則返回
            }
        }

        // 1. 取出一個packet。使用pkt對應的serial賦值給d->pkt_serial
        if (packet_queue_get(p_pkt_queue, &pkt, true) < 0)
        {
            return -1;
        }

        if (pkt.data == NULL)
        {
            // 復位解碼器內部狀態/刷新內部緩衝區
            avcodec_flush_buffers(p_codec_ctx);
        }
        else
        {
            // 2. 將packet發送給解碼器
            //    發送packet的順序是按dts遞增的順序,如IPBBPBB
            //    pkt.pos變量可以標識當前packet在視頻文件中的地址偏移
            if (avcodec_send_packet(p_codec_ctx, &pkt) == AVERROR(EAGAIN))
            {
                av_log(NULL, AV_LOG_ERROR, "receive_frame and send_packet both returned EAGAIN, which is an API violation.\n");
            }

            av_packet_unref(&pkt);
        }
    }
}

本函數實現如下功能:
[1]. 從視頻packet隊列中取一個packet
[2]. 將取得的packet發送給解碼器
[3]. 從解碼器接收解碼後的frame,此frame作爲函數的輸出參數供上級函數處理

注意如下幾點:
[1]. 含B幀的視頻文件,其視頻幀存儲順序與顯示順序不同
[2]. 解碼器的輸入是packet隊列,視頻幀解碼順序與存儲順序相同,是按dts遞增的順序。dts是解碼時間戳,因此存儲順序解碼順序都是dts遞增的順序。avcodec_send_packet()就是將視頻文件中的packet序列依次發送給解碼器。發送packet的順序如IPBBPBB。
[3]. 解碼器的輸出是frame隊列,frame輸出順序是按pts遞增的順序。pts是解碼時間戳。pts與dts不一致的問題由解碼器進行了處理,用戶程序不必關心。從解碼器接收frame的順序如IBBPBBP。
[4]. 解碼器中會緩存一定數量的幀,一個新的解碼動作啓動後,向解碼器送入好幾個packet解碼器纔會輸出第一個packet,這比較容易理解,因爲解碼時幀之間有信賴關係,例如IPB三個幀被送入解碼器後,B幀解碼需要依賴I幀和P幀,所在在B幀輸出前,I幀和P幀必須存在於解碼器中而不能刪除。理解了這一點,後面視頻frame隊列中對視頻幀的顯示和刪除機制才容易理解。
[5]. 解碼器中緩存的幀可以通過沖洗(flush)解碼器取出。沖洗(flush)解碼器的方法就是調用avcodec_send_packet(..., NULL),然後多次調用avcodec_receive_frame()將緩存幀取盡。緩存幀取完後,avcodec_receive_frame()返回AVERROR_EOF。

如何確定解碼器的輸出frame與輸入packet的對應關係呢?可以對比frame->pkt_pos和pkt.pos的值,這兩個值表示packet在視頻文件中的偏移地址,如果這兩個變量值相等,表示此frame來自此packet。調試跟蹤這兩個變量值,即能發現解碼器輸入幀與輸出幀的關係。爲簡便,就不貼圖了。

2.4.3 視頻同步到音頻

視頻同步到音頻是ffplay的默認同步方式。在視頻播放線程中實現。
視頻播放線程中有一個很重要的函數video_refresh(),實現了視頻播放(包含同步控制)核心步驟,理解起來有些難度。
相關函數關係如下:

main() -->
player_running() -->
open_video() -->
open_video_playing() -->
SDL_CreateThread(video_playing_thread, ...) 創建視頻播放線程

video_playing_thread() -->
video_refresh()

 

視頻播放線程源碼如下:

static int video_playing_thread(void *arg)
{
    player_stat_t *is = (player_stat_t *)arg;
    double remaining_time = 0.0;

    while (1)
    {
        if (remaining_time > 0.0)
        {
            av_usleep((unsigned)(remaining_time * 1000000.0));
        }
        remaining_time = REFRESH_RATE;
        // 立即顯示當前幀,或延時remaining_time後再顯示
        video_refresh(is, &remaining_time);
    }

    return 0;
}

 

video_refresh()函數源碼如下:

/* called to display each frame */
static void video_refresh(void *opaque, double *remaining_time)
{
    player_stat_t *is = (player_stat_t *)opaque;
    double time;
    static bool first_frame = true;

retry:
    if (frame_queue_nb_remaining(&is->video_frm_queue) == 0)  // 所有幀已顯示
    {    
        // nothing to do, no picture to display in the queue
        return;
    }

    double last_duration, duration, delay;
    frame_t *vp, *lastvp;

    /* dequeue the picture */
    lastvp = frame_queue_peek_last(&is->video_frm_queue);     // 上一幀:上次已顯示的幀
    vp = frame_queue_peek(&is->video_frm_queue);              // 當前幀:當前待顯示的幀

    // lastvp和vp不是同一播放序列(一個seek會開始一個新播放序列),將frame_timer更新爲當前時間
    if (first_frame)
    {
        is->frame_timer = av_gettime_relative() / 1000000.0;
        first_frame = false;
    }

    // 暫停處理:不停播放上一幀圖像
    if (is->paused)
        goto display;

    /* compute nominal last_duration */
    last_duration = vp_duration(is, lastvp, vp);        // 上一幀播放時長:vp->pts - lastvp->pts
    delay = compute_target_delay(last_duration, is);    // 根據視頻時鐘和同步時鐘的差值,計算delay值

    time= av_gettime_relative()/1000000.0;
    // 當前幀播放時刻(is->frame_timer+delay)大於當前時刻(time),表示播放時刻未到
    if (time < is->frame_timer + delay) {
        // 播放時刻未到,則更新刷新時間remaining_time爲當前時刻到下一播放時刻的時間差
        *remaining_time = FFMIN(is->frame_timer + delay - time, *remaining_time);
        // 播放時刻未到,則不播放,直接返回
        return;
    }

    // 更新frame_timer值
    is->frame_timer += delay;
    // 校正frame_timer值:若frame_timer落後於當前系統時間太久(超過最大同步域值),則更新爲當前系統時間
    if (delay > 0 && time - is->frame_timer > AV_SYNC_THRESHOLD_MAX)
    {
        is->frame_timer = time;
    }

    SDL_LockMutex(is->video_frm_queue.mutex);
    if (!isnan(vp->pts))
    {
        update_video_pts(is, vp->pts, vp->pos, vp->serial); // 更新視頻時鐘:時間戳、時鐘時間
    }
    SDL_UnlockMutex(is->video_frm_queue.mutex);

    // 是否要丟棄未能及時播放的視頻幀
    if (frame_queue_nb_remaining(&is->video_frm_queue) > 1)  // 隊列中未顯示幀數>1(只有一幀則不考慮丟幀)
    {         
        frame_t *nextvp = frame_queue_peek_next(&is->video_frm_queue);  // 下一幀:下一待顯示的幀
        duration = vp_duration(is, vp, nextvp);             // 當前幀vp播放時長 = nextvp->pts - vp->pts
        // 當前幀vp未能及時播放,即下一幀播放時刻(is->frame_timer+duration)小於當前系統時刻(time)
        if (time > is->frame_timer + duration)
        {
            frame_queue_next(&is->video_frm_queue);         // 刪除上一幀已顯示幀,即刪除lastvp,讀指針加1(從lastvp更新到vp)
            goto retry;
        }
    }

    // 刪除當前讀指針元素,讀指針+1。若未丟幀,讀指針從lastvp更新到vp;若有丟幀,讀指針從vp更新到nextvp
    frame_queue_next(&is->video_frm_queue);

display:
    video_display(is);                      // 取出當前幀vp(若有丟幀是nextvp)進行播放
}

視頻同步到音頻的基本方法是:如果視頻超前音頻,則不進行播放,以等待音頻;如果視頻落後音頻,則丟棄當前幀直接播放下一幀,以追趕音頻。
此函數執行流程參考如下流程圖:

video_refresh()流程圖

步驟如下:
[1] 根據上一幀lastvp的播放時長duration,校正等到delay值,duration是上一幀理想播放時長,delay是上一幀實際播放時長,根據delay值可以計算得到當前幀的播放時刻
[2] 如果當前幀vp播放時刻未到,則繼續顯示上一幀lastvp,並將延時值remaining_time作爲輸出參數供上級調用函數處理
[3] 如果當前幀vp播放時刻已到,則立即顯示當前幀,並更新讀指針

在video_refresh()函數中,調用了compute_target_delay()來根據視頻時鐘與主時鐘的差異來調節delay值,從而調節視頻幀播放的時刻。

// 根據視頻時鐘與同步時鐘(如音頻時鐘)的差值,校正delay值,使視頻時鐘追趕或等待同步時鐘
// 輸入參數delay是上一幀播放時長,即上一幀播放後應延時多長時間後再播放當前幀,通過調節此值來調節當前幀播放快慢
// 返回值delay是將輸入參數delay經校正後得到的值
static double compute_target_delay(double delay, VideoState *is)
{
    double sync_threshold, diff = 0;

    /* update delay to follow master synchronisation source */
    if (get_master_sync_type(is) != AV_SYNC_VIDEO_MASTER) {
        /* if video is slave, we try to correct big delays by
           duplicating or deleting a frame */
        // 視頻時鐘與同步時鐘(如音頻時鐘)的差異,時鐘值是上一幀pts值(實爲:上一幀pts + 上一幀至今流逝的時間差)
        diff = get_clock(&is->vidclk) - get_master_clock(is);
        // delay是上一幀播放時長:當前幀(待播放的幀)播放時間與上一幀播放時間差理論值
        // diff是視頻時鐘與同步時鐘的差值

        /* skip or repeat frame. We take into account the
           delay to compute the threshold. I still don't know
           if it is the best guess */
        // 若delay < AV_SYNC_THRESHOLD_MIN,則同步域值爲AV_SYNC_THRESHOLD_MIN
        // 若delay > AV_SYNC_THRESHOLD_MAX,則同步域值爲AV_SYNC_THRESHOLD_MAX
        // 若AV_SYNC_THRESHOLD_MIN < delay < AV_SYNC_THRESHOLD_MAX,則同步域值爲delay
        sync_threshold = FFMAX(AV_SYNC_THRESHOLD_MIN, FFMIN(AV_SYNC_THRESHOLD_MAX, delay));
        if (!isnan(diff) && fabs(diff) < is->max_frame_duration) {
            if (diff <= -sync_threshold)        // 視頻時鐘落後於同步時鐘,且超過同步域值
                delay = FFMAX(0, delay + diff); // 當前幀播放時刻落後於同步時鐘(delay+diff<0)則delay=0(視頻追趕,立即播放),否則delay=delay+diff
            else if (diff >= sync_threshold && delay > AV_SYNC_FRAMEDUP_THRESHOLD)  // 視頻時鐘超前於同步時鐘,且超過同步域值,但上一幀播放時長超長
                delay = delay + diff;           // 僅僅校正爲delay=delay+diff,主要是AV_SYNC_FRAMEDUP_THRESHOLD參數的作用,不作同步補償
            else if (diff >= sync_threshold)    // 視頻時鐘超前於同步時鐘,且超過同步域值
                delay = 2 * delay;              // 視頻播放要放慢腳步,delay擴大至2倍
        }
    }

    av_log(NULL, AV_LOG_TRACE, "video: delay=%0.3f A-V=%f\n",
            delay, -diff);

    return delay;
}

compute_target_delay()的輸入參數delay是上一幀理想播放時長duration,返回值delay是經校正後的上一幀實際播放時長。爲方便描述,下面我們將輸入參數記作duration(對應函數的輸入參數delay),返回值記作delay(對應函數返回值delay)。
本函數實現功能如下:
[1] 計算視頻時鐘與音頻時鐘(主時鐘)的偏差diff,實際就是視頻上一幀pts減去音頻上一幀pts。所謂上一幀,就是已經播放的最後一幀,上一幀的pts可以標識視頻流/音頻流的播放時刻(進度)。
[2] 計算同步域值sync_threshold,同步域值的作用是:若視頻時鐘與音頻時鐘差異值小於同步域值,則認爲音視頻是同步的,不校正delay;若差異值大於同步域值,則認爲音視頻不同步,需要校正delay值。
同步域值的計算方法如下:
若duration < AV_SYNC_THRESHOLD_MIN,則同步域值爲AV_SYNC_THRESHOLD_MIN
若duration > AV_SYNC_THRESHOLD_MAX,則同步域值爲AV_SYNC_THRESHOLD_MAX
若AV_SYNC_THRESHOLD_MIN < duration < AV_SYNC_THRESHOLD_MAX,則同步域值爲duration
[3] delay校正策略如下:

a) 視頻時鐘落後於同步時鐘且落後值超過同步域值:
a1) 若當前幀播放時刻落後於同步時鐘(delay+diff<0)則delay=0(視頻追趕,立即播放);
a2) 否則delay=duration+diff

b) 視頻時鐘超前於同步時鐘且超過同步域值:
b1) 上一幀播放時長過長(超過最大值),僅校正爲delay=duration+diff;
b2) 否則delay=duration×2,視頻播放放慢腳步,等待音頻

c) 視頻時鐘與音頻時鐘的差異在同步域值內,表明音視頻處於同步狀態,不校正delay,則delay=duration

對上述視頻同步到音頻的過程作一個總結,參考下圖:

ffplay音視頻同步示意圖

圖中,小黑圓圈是代表幀的實際播放時刻,小紅圓圈代表幀的理論播放時刻,小綠方塊表示當前系統時間(當前時刻),小紅方塊表示位於不同區間的時間點,則當前時刻處於不同區間時,視頻同步策略爲:
[1] 當前時刻在T0位置,則重複播放上一幀,延時remaining_time後再播放當前幀
[2] 當前時刻在T1位置,則立即播放當前幀
[3] 當前時刻在T2位置,則忽略當前幀,立即顯示下一幀,加速視頻追趕
上述內容是爲了方便理解進行的簡單而形象的描述。實際過程要計算相關值,根據compute_target_delay()和video_refresh()中的策略來控制播放過程。

2.4.4 音頻播放過程

音頻時鐘是同步主時鐘,音頻按照自己的節奏進行播放即可。視頻播放時則要參考音頻時鐘。音頻播放函數由SDL音頻播放線程回調,回調函數實現如下:

// 音頻處理回調函數。讀隊列獲取音頻包,解碼,播放
// 此函數被SDL按需調用,此函數不在用戶主線程中,因此數據需要保護
// \param[in]  opaque 用戶在註冊回調函數時指定的參數
// \param[out] stream 音頻數據緩衝區地址,將解碼後的音頻數據填入此緩衝區
// \param[out] len    音頻數據緩衝區大小,單位字節
// 回調函數返回後,stream指向的音頻緩衝區將變爲無效
// 雙聲道採樣點的順序爲LRLRLR
static void sdl_audio_callback(void *opaque, Uint8 *stream, int len)
{
    player_stat_t *is = (player_stat_t *)opaque;
    int audio_size, len1;

    int64_t audio_callback_time = av_gettime_relative();

    while (len > 0) // 輸入參數len等於is->audio_hw_buf_size,是audio_open()中申請到的SDL音頻緩衝區大小
    {
        if (is->audio_cp_index >= (int)is->audio_frm_size)
        {
           // 1. 從音頻frame隊列中取出一個frame,轉換爲音頻設備支持的格式,返回值是重採樣音頻幀的大小
           audio_size = audio_resample(is, audio_callback_time);
           if (audio_size < 0)
           {
                /* if error, just output silence */
               is->p_audio_frm = NULL;
               is->audio_frm_size = SDL_AUDIO_MIN_BUFFER_SIZE / is->audio_param_tgt.frame_size * is->audio_param_tgt.frame_size;
           }
           else
           {
               is->audio_frm_size = audio_size;
           }
           is->audio_cp_index = 0;
        }
        // 引入is->audio_cp_index的作用:防止一幀音頻數據大小超過SDL音頻緩衝區大小,這樣一幀數據需要經過多次拷貝
        // 用is->audio_cp_index標識重採樣幀中已拷入SDL音頻緩衝區的數據位置索引,len1表示本次拷貝的數據量
        len1 = is->audio_frm_size - is->audio_cp_index;
        if (len1 > len)
        {
            len1 = len;
        }
        // 2. 將轉換後的音頻數據拷貝到音頻緩衝區stream中,之後的播放就是音頻設備驅動程序的工作了
        if (is->p_audio_frm != NULL)
        {
            memcpy(stream, (uint8_t *)is->p_audio_frm + is->audio_cp_index, len1);
        }
        else
        {
            memset(stream, 0, len1);
        }

        len -= len1;
        stream += len1;
        is->audio_cp_index += len1;
    }
    // is->audio_write_buf_size是本幀中尚未拷入SDL音頻緩衝區的數據量
    is->audio_write_buf_size = is->audio_frm_size - is->audio_cp_index;
    /* Let's assume the audio driver that is used by SDL has two periods. */
    // 3. 更新時鐘
    if (!isnan(is->audio_clock))
    {
        // 更新音頻時鐘,更新時刻:每次往聲卡緩衝區拷入數據後
        // 前面audio_decode_frame中更新的is->audio_clock是以音頻幀爲單位,所以此處第二個參數要減去未拷貝數據量佔用的時間
        set_clock_at(&is->audio_clk, 
                     is->audio_clock - (double)(2 * is->audio_hw_buf_size + is->audio_write_buf_size) / is->audio_param_tgt.bytes_per_sec, 
                     is->audio_clock_serial, 
                     audio_callback_time / 1000000.0);
    }
}

3. 編譯與驗證

3.1 編譯

gcc -o ffplayer ffplayer.c -lavutil -lavformat -lavcodec -lavutil -lswscale -lswresample -lSDL2

3.2 驗證

選用clock.avi測試文件,下載工程後,測試文件在resources子目錄下
查看視頻文件格式信息:

ffprobe clock.avi

打印視頻文件信息如下:

[avi @ 0x9286c0] non-interleaved AVI Input #0, avi, from 'clock.avi': Duration: 00:00:12.00, start: 0.000000, bitrate: 42 kb/s Stream #0:0: Video: msrle ([1][0][0][0] / 0x0001), pal8, 320x320, 1 fps, 1 tbr, 1 tbn, 1 tbc Stream #0:1: Audio: truespeech ([34][0][0][0] / 0x0022), 8000 Hz, mono, s16, 8 kb/s

運行測試命令:

./ffplayer clock.avi  

可以聽到每隔1秒播放一次“嘀”聲,聲音播放12次。時針每隔1秒跳動一格,跳動12次。聲音播放正常,畫面播放也正常,聲音與畫面基本同步。

4. 問題記錄

[1] 在Windows平臺上有些電腦無法播放出聲音
異常現象:
在一臺電腦上聲音能正常播放,在另一臺電腦上無法正常播放
原因分析:
原因不清楚
解決方法:
環境一個變量SDL_AUDIODRIVER=directsound或者winmm即可。
參考資料“[12] FFplay: WASAPI can't initialize audio client

[2] 音頻播放過程中持續卡頓
異常現象:
音頻播放過程中持續卡頓,類似播一下停一下
原因分析:
SDL音頻緩衝區設置過小。緩衝區小可緩存數據量少,實時性要求高,緩衝區數據被取完,又無新數據送入時,會出現播放停頓現象。
解決方法:
增大SDL音頻緩衝區

5. 遺留問題

[1]. 啓動播放瞬間,視頻畫面未及時播放
[2]. 點擊關閉按鈕關閉播放器會引起內存異常報錯

6. 參考資料

[1] 雷霄驊,視音頻編解碼技術零基礎學習方法
[2] 視頻編解碼基礎概念https://www.cnblogs.com/leisure_chn/p/10285829.html
[3] FFmpeg基礎概念https://www.cnblogs.com/leisure_chn/p/10297002.html
[4] 零基礎讀懂視頻播放器控制原理:ffplay播放器源代碼分析https://cloud.tencent.com/developer/article/1004559
[5] An ffmpeg and SDL Tutorial, Tutorial 05: Synching Video
[6] 視頻同步音頻https://zhuanlan.zhihu.com/p/44615401
[7] 音頻同步視頻https://zhuanlan.zhihu.com/p/44680734
[8] 音視頻同步(播放)原理https://blog.csdn.net/zhuweigangzwg/article/details/25815851
[9] 對ffmpeg的時間戳的理解筆記https://blog.csdn.net/topsluo/article/details/76239136
[10] ffmpeg音視頻同步---視頻同步到音頻時鐘https://my.oschina.net/u/735973/blog/806117
[11] FFmpeg音視頻同步原理與實現https://www.jianshu.com/p/3578e794f6b5
[12] FFplay: WASAPI can't initialize audio clienthttps://stackoverflow.com/questions/46835811/ffplay-wasapi-cant-initialize-audio-client-ffmpeg-3-4-binaries
[13] WASAPI can't initialize audio clienthttps://blog.csdn.net/A694543965/article/details/78786230

7. 修改記錄

2019-01-17 V1.0 初稿

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章