ffmpeg主要數據結構及其之間的關係

一、FFMPEG數據結構

      AVCodecContext：這是一個描述編解碼器上下文的數據結構，包含了衆多編解碼器需要的參數信息。

      如果是單純使用libavcodec，這部分信息需要調用者進行初始化；如果是使用整個FFMPEG庫，這部分信息在調用 av_open_input_file和av_find_stream_info的過程中根據文件的頭信息及媒體流內的頭部信息完成初始化。其中幾個主要域的釋義如下：

    extradata/extradata_size：這個buffer中存放了解碼器可能會用到的額外信息，在av_read_frame中填充。一般來說，首先，某種具體格式的demuxer在讀取格式頭信息的時候會填充extradata，其次，如果demuxer沒有做這個事情，比如可能在頭部壓根兒就沒有相關的編解碼信息，則相應的parser會繼續從已經解複用出來的媒體流中繼續尋找。在沒有找到任何額外信息的情況下，這個buffer指針爲空。
    time_base：
    width/height：視頻的寬和高。
    sample_rate/channels：音頻的採樣率和信道數目。
    sample_fmt：音頻的原始採樣格式。
    codec_name/codec_type/codec_id/codec_tag：編解碼器的信息。

      AVStream：該結構體描述一個媒體流。

      主要域的釋義如下，其中大部分域的值可以由av_open_input_file根據文件頭的信息確定，缺少的信息需要通過調用av_find_stream_info讀幀及軟解碼進一步獲取：

    index/id：index對應流的索引，這個數字是自動生成的，根據index可以從AVFormatContext::streams表中索引到該流；而id則是流的標識，依賴於具體的容器格式。比如對於MPEG TS格式，id就是pid。
    time_base：流的時間基準，是一個實數，該流中媒體數據的pts和dts都將以這個時間基準爲粒度。通常，使用av_rescale/av_rescale_q可以實現不同時間基準的轉換。
    start_time：流的起始時間，以流的時間基準爲單位，通常是該流中第一個幀的pts。
    duration：流的總時間，以流的時間基準爲單位。
    need_parsing：對該流parsing過程的控制域。
    nb_frames：流內的幀數目。
    r_frame_rate/framerate/avg_frame_rate：幀率相關。
    codec：指向該流對應的AVCodecContext結構，調用av_open_input_file時生成。
    parser：指向該流對應的AVCodecParserContext結構，調用av_find_stream_info時生成。

     AVFormatContext：這個結構體描述了一個媒體文件或媒體流的構成和基本信息。

      這是FFMpeg中最爲基本的一個結構，是其他所有結構的根，是一個多媒體文件或流的根本抽象。其中:

    nb_streams和streams所表示的AVStream結構指針數組包含了所有內嵌媒體流的描述；
    iformat和oformat指向對應的demuxer和muxer指針；
    pb則指向一個控制底層數據讀寫的ByteIOContext結構。
    start_time和duration是從streams數組的各個AVStream中推斷出的多媒體文件的起始時間和長度，以微妙爲單位。

      通常，這個結構由av_open_input_file在內部創建並以缺省值初始化部分成員。但是，如果調用者希望自己創建該結構，則需要顯式爲該結構的一些成員置缺省值——如果沒有缺省值的話，會導致之後的動作產生異常。以下成員需要被關注：

    probesize
    mux_rate
    packet_size
    flags
    max_analyze_duration
    key
    max_index_size
    max_picture_buffer
    max_delay

     AVPacket：定義在avcodec.h中。FFMPEG使用AVPacket來暫存解複用之後、解碼之前的媒體數據（一個音/視頻幀、一個字幕包等）及附加信息（解碼時間戳、顯示時間戳、時長等）。其中：

    dts表示解碼時間戳，pts表示顯示時間戳，它們的單位是所屬媒體流的時間基準。
    stream_index給出所屬媒體流的索引；
    data爲數據緩衝區指針，size爲長度；
    duration爲數據的時長，也是以所屬媒體流的時間基準爲單位；
    pos表示該數據在媒體流中的字節偏移量；
    destruct爲用於釋放數據緩衝區的函數指針；
    flags爲標誌域，其中，最低爲置1表示該數據是一個關鍵幀。

        AVPacket 結構本身只是個容器，它使用data成員指向實際的數據緩衝區，這個緩衝區可以通過av_new_packet創建，可以通過av_dup_packet 拷貝，也可以由FFMPEG的API產生（如av_read_frame），使用之後需要通過調用av_free_packet釋放。 av_free_packet調用的是結構體本身的destruct函數，它的值有兩種情況：1)av_destruct_packet_nofree或 0；2)av_destruct_packet，其中，前者僅僅是將data和size的值清0而已，後者纔會真正地釋放緩衝區。FFMPEG內部使用 AVPacket結構建立緩衝區裝載數據，同時提供destruct函數，如果FFMPEG打算自己維護緩衝區，則將destruct設爲 av_destruct_packet_nofree，用戶調用av_free_packet清理緩衝區時並不能夠將其釋放；如果FFMPEG不會再使用該緩衝區，則將destruct設爲av_destruct_packet，表示它能夠被釋放。對於緩衝區不能夠被釋放的AVPackt，用戶在使用之前最好調用av_dup_packet進行緩衝區的克隆，將其轉化爲緩衝區能夠被釋放的AVPacket，以免對緩衝區的不當佔用造成異常錯誤。而 av_dup_packet會爲destruct指針爲av_destruct_packet_nofree的AVPacket新建一個緩衝區，然後將原緩衝區的數據拷貝至新緩衝區，置data的值爲新緩衝區的地址，同時設destruct指針爲av_destruct_packet。

時間信息

      時間信息用於實現多媒體同步。同步的目的在於展示多媒體信息時，能夠保持媒體對象之間固有的時間關係。同步有兩類，一類是流內同步，其主要任務是保證單個媒體流內的時間關係，以滿足感知要求，如按照規定的幀率播放一段視頻；另一類是流間同步，主要任務是保證不同媒體流之間的時間關係，如音頻和視頻之間的關係（lipsync）。

       對於固定速率的媒體，如固定幀率的視頻或固定比特率的音頻，可以將時間信息（幀率或比特率）置於文件首部（header），如AVI的hdrl List、MP4的moov box，還有一種相對複雜的方案是將時間信息嵌入媒體流的內部，如MPEG TS和Real video，這種方案可以處理變速率的媒體，亦可有效避免同步過程中的時間漂移。

FFMPEG會爲每一個數據包打上時間標籤，以更有效地支持上層應用的同步機制。時間標籤有兩種，一種是DTS，稱爲解碼時間標籤，另一種是PTS，稱爲顯示時間標籤。對於聲音來說，這兩個時間標籤是相同的，但對於某些視頻編碼格式，由於採用了雙向預測技術，會造成DTS和PTS的不一致。

時間信息的獲取：

      通過調用av_find_stream_info，多媒體應用可以從AVFormatContext對象中拿到媒體文件的時間信息：主要是總時間長度和開始時間，此外還有與時間信息相關的比特率和文件大小。其中時間信息的單位是AV_TIME_BASE：微秒。

二、主要數據結構間的關係

1. 紅色字體的first_protocol first_iformat first_avcodec，這三個不同的頭指針，分別爲ffmpeg支持

不同的數據源、不同格式以及不同編碼的音視頻數據提供了處理的可能。

2. ffplay主要劃分爲四大部分: 數據源, 解複用, 解碼, 顯示播放. ffplay使用SDL庫進行視頻顯示和聲音播放,至於同步在ffplay中自個做的.

　　首先, 談談數據源相應的數據結構: URLContext, ByteIOContext. 這兩個與音視頻數據相關, URLProtocol

體現在功能函數上. 上圖中, URLContext的 void *priv_data 指向了FILE結構體, 其實這是作者的一點點失誤,

ffmpeg使用的是c的底層io, 沒有使用stdio. c底層io是不帶緩存的, 所以加上了ByteIOContext爲無緩衝io提供緩

存, 避免頻繁的進行i/o操作.

　　其次, 解複用對應的數據結構: AVFormatContext中的void *priv_data字段, AVStream, AVStream中void *

priv_data結合AVInputeFormat的使用, 從下一層的ByteIOContext的buffer中將音視頻數據分離.

　　最後, 解碼對應的數據結構: AVCodecContext, AVCodec體現在功能函數上, 其中AVCodecContext的void *priv_data字段是特定的decodec.

　　數據源 --> char *buffer --> 解複用 --> AVPacket(音頻包, 視頻包) --> 解碼 --> AVFrame(video) / audio_buffer(audio).

3. first_protocol將file, tcp, udp, rtp...數據當成協議看待, 各自均提供URLProtocol結構體實例以功能函數的形式進行體現. first_iformat將ffmpeg所支持的所有格式串連到一起, first_avcodec將ffmpeg支持的所有編碼器串連到一起.

　　三個指針鏈表是如何確定相應實例的呢?

　　a. (first_protocol, argv[1]參數) 參數例如: file://pathname/filename 協議: file, 默認也爲file; rtsp://ip_address/filename 協議:rtsp

　　b. (first_iformat, is->iformat->read_probe()) 　

　　c. (first_avcodec, is->iformat->read_head())

壊壊壊人噢

發佈了20 篇原創文章 · 獲贊 8 · 訪問量 13萬+

私信關注

ffmpeg主要數據結構及其之間的關係

FFMPEG 深入淺出

最簡單的基於FFmpeg的AVfilter例子（水印疊加）

av_read_frame的過程

最簡單的基於FFmpeg的封裝格式處理：視音頻複用器（muxer）

ffmpeg函數介紹

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結