mp4封裝格式各box類型講解及IBP幀計算

文章目錄

mp4封裝格式各box類型講解及IBP幀計算

MP4文件封裝格式，對應的標準爲ISO/IEC 14496-12，即信息技術視聽對象編碼的第12部分 ISO 基本媒體文件格式（Information technology Coding of audio-visual objects Part 12: ISO base media file format）

box

如果從整體上看，mp4所有的數據全部存放在一個叫box的結構中。
box，顧名思義，可以簡單的理解爲一個**箱子** 裏面可以放任何符合大小的東西，也可以繼續放箱子，箱子裏面再放東西，這種箱子裏面仍然放箱子的箱子稱爲容器箱子(container box) 你可以想象你要搬家，把你的傢俱全部放在一個個的箱子裏面，然後一個大箱子把小箱子一個個再裝箱。MP4中的 moov box 就是一種容器箱子。

box的字節序爲網絡字節序，也就是大端字節序（Big-Endian）Box由header和body組成，其中header統一指明box的大小和類型，body根據類型有不同的意義和作用。

box size 有三種可能：
1、通常的box開頭的4個字節（32位）爲box size，該大小包括box header和box body整個box的大小，這樣我們就可以在文件中定位各個box。

2、如果 box size爲1，則表示這個box的大小爲large size(“mdat”類型)。

3、如果box size爲0，表示該box爲文件的最後一個box，文件結尾即爲該box結尾。（同樣只存在於“mdat”類型的box中。）

size後面緊跟的32位爲box type，一般是4個字符，如“ftyp”、“moov”等，這些box type都是已經預定義好的，分別表示固定的意義。如果是“uuid”，表示該box爲用戶擴展類型，如果box type是未定義的，應該將其忽略。

14496-12標準中box的都有這些類型，這張表，也能從整體上了解完各類型box的說明：

MP4文件分析工具。

兩個在線的MP4 分析工具，下面內容全部以此工具來分析一份demo
online-mp4-parser
online-mp4-parser-2

可以看到這份標準的mp4視頻根路徑上有四個box – ftyp、moov、uuid、mdat
ftyp 指定了文件類型
moov 保存了音視頻數據的時空間信息
mdat 存放音視頻數據

下面依賴工具簡單依次分析一份普通mp4文件

ftyp box

該box有且只有1個，並且只能被包含在文件層，而不能被其他box包含。該box應該被放在文件的最開始，指示該MP4文件應用的相關信息。

“ftyp” body依次包括1個32位的major brand（4個字符），1個32位的minor version（整數）和1個以32位（4個字符）爲單位元素的數組compatible brands。這些都是用來指示文件應用級別的信息。

moov box

moov box 是一個 container box 該box包含了文件媒體的元數據信息，具體內容信息由子box詮釋。同File Type Box一樣，該box有且只有一個，且只被包含在文件層。一般情況下，“moov”會緊隨“ftyp”出現。

可以看到這個demo 中有 mvhd、trak、udta 三種 box 一般情況下 “moov”中會包含1個“mvhd”和若干個“trak”。其中“mvhd”爲header box，一般作爲“moov”的第一個子box出現。“trak”包含了一條音、視頻軌/流/track的相關信息，也是一個container box。

該box是解析MP4文件裏面最重要的一個box，它包含了音視頻數據的編碼格式、音視頻數據樣本，chunks的大小、存儲位置也即偏移offset、時間戳單位、DTS，CTS(PTS)，解碼時間、顯示時間等等…

moov box中記錄的每幀音視頻數據位置信息，實際上都在mdat box中，通過解析moov box來獲取到每幀音視頻數據具體位置後，使得播放器能方便的拖拉進度條。

mvhd box (Movie Header Box)

mvhd 描述了與具體音頻或視頻流無關的文件整體信息，其中的duration/timescale的值即爲單位爲秒的媒體時長。

trak box (Track Box)

trak也是一個container box，其子box包含了該track的媒體數據引用和描述。一個MP4文件中的媒體可以包含多個track，且至少有一個track，這些track之間彼此獨立，有自己的時間和空間信息。“trak”必須包含一個“tkhd”和一個“mdia”，此外還有很多可選的box（略）。

tkhd(track header box)

tkhd 描述的該track的，如果是視頻會有寬、高信息、還有文件創建時間、修改時間等。

mdia (Track Media Structure)

mdia box 描述了這條音視頻軌/流(trak)的媒體數據樣本的主要信息，對播放器來說是一個很重要的box…

mdhd (Media Header Box)

當前音/視頻軌/流(trak)的總體信息, 該box中有duration字段和timescale字段，duration/timescale的值即爲當前流的時長。

hdlr box用來指定該流的類型

stsd box的子box用於保存該流的編碼類型

avcC box指定了該流的編碼類型爲H264，儲瞭解碼所需的SPS、PPS信息。

stsc stsz stco三個box用於保存每幀視頻或音頻數據在文件中的保存位置。

stts stss ctts三個box用於保存媒體數據和時間戳的對應關係。

在同級的stbl的樣本表box裏面可以查到對應的樣本描述信息(stsd),時序信息(stts),樣本的大小信息(stsz),樣本到chunk的映射信息(stsc),chunk的位置信息(stco)等等

下面計算下PTS，來了解stbl box…

PTS和DTS的計算

I P B 幀的概念

在音視頻中，爲了提高壓縮效率，會將每幀畫面壓縮爲不同類型的視頻幀數據。
I幀表示關鍵幀，包含有一幀畫面的完整信息，解碼時只需要本幀數據就可以解碼出完整的一幀畫面。
P幀表示前向參考幀，它保存了本幀與上一幀的差異信息，它不能單獨解碼，需要根據上一幀的畫面加上本幀保存的差值來獲取本幀的完整畫面。
B幀爲雙向參考幀，它解碼時需要依賴它之前和之後的幀來獲取最終的畫面
因爲B幀需要依賴它後面的幀來進行解碼，所以它的解碼順序就必然和顯示順序不能保持一致，這時就需要解碼時間戳（DTS）和顯示時間戳（PTS）來共同決定一幀視頻數據何時解碼，然後何時顯示了。

舉個例子
一小段視頻幀序列如下：
type : I — B — B — P — B — B — P
PTS : 0.33 0.67 1.00 1.33 1.67 2.00 2.33
DTS : 0.00 0.67 1.00 0.33 1.67 2.00 1.33

PTS >= DTS

根據mp4 stts和ctts 可以得到DTS和PTS

stts（Decoding Time to Sample Box)

stts 可以計算出每個sample的dts，其中sample_delta爲該sample的dts相對於上一個smaple的差值，
那麼此樣本數據的dts爲 :

0   1000 2000 3000 4000 ···

ctts（Composition Time to Sample Box）

Composition Time 構成時間目前我直接理解的PTS。。

ctts 有每個sample的構成時間(Composition Time)和解碼時間(DTS)之間的差值(CTTS)即圖中的composition_offset。
如果不存在ctts，則代表該流不存在B幀，那麼PTS就直接等於DTS。

timescale

最後就是關於單位,你可以看到圖中樣本的單位都是以1000爲單位浮動，實際上真實DTS和PTS時間是需要除以mdia/mdhd中的timescale。這裏是30000。

有了這些，我們就可以在ctts裏面計算出pts了 :

 else if (box_type_equa(uint32_to_str(bh.type, sbuffer), "ctts")) {
        uint32_t version = 0;
        read_net_bytes_to_host_uint32(&box[8], &version);
        if(version != 0) {
            LOG_E("ctts unsupport version :%d ", version)
            return;
        }

        uint32_t entry_cnt = 0;
        read_net_bytes_to_host_uint32(&box[12], &entry_cnt);
        char buf[128] = {0};
        tree_childs_insert_with_val(tree, "version", uint32_to_ascii(version, buf));
        tree_childs_insert_with_val(tree, "entry_cnt", uint32_to_ascii(entry_cnt, buf));
        
        uint32_t i = 0, j = 0, num = 0, pos = 16;
        for (i = 0; i < entry_cnt; i++) {
            uint32_t sample_cnt;
            read_net_bytes_to_host_uint32(&box[pos], &sample_cnt);
            pos += 4;
        
            uint32_t sample_offset;
            read_net_bytes_to_host_uint32(&box[pos], &sample_offset);
            pos += 4;

            for (j = 0; j < sample_cnt; j++) {
                PushBack_Array(pts_array, At_Array(dts_array, num++) + sample_offset);
                float dt, pt = 0.0;
                printf("dts : %9.3f ms | pts : %9.3f ms | \n", At_Array(dts_array, num - 1) / (mdhd_time_scale * 1.0), At_Array(pts_array, num - 1) / (mdhd_time_scale * 1.0));
            }

stss (Sync Sample Box)

stss 裏面存放了關鍵幀的序號(I幀)，跳轉時，需要從關鍵幀開始解碼，否則會花屏。

stsz (Sample Size Boxes)：

顧名思義，樣本大小.

stsc (Sample To Chunk Box):

媒體數據的樣本是被打包進chunks(塊)的,chunks和樣本(samples)的大小不固定，該box用於說明chunks關聯樣本的信息。

first_chunk 該入口第一個chunks的索引(index).
samples_per_chunk 樣本數量/chunks.

stco (Chunk Offset Box)

描述每個chunks相對文件的偏移量。

如圖第一個chunks即前10個樣本(此例), samples.1起始地址爲 423257, samples.1的地址則爲 423257 + 140798 = 564055, 依此類推…

有了這些即可計算出音視頻的時間和空間信息了

mdat box

Meida Data Box 媒體數據box 位於頂層，定義是一個字節數組，用來存儲媒體數據。該box數量可以爲0個，也可以有多個（當媒體數據全部爲外部文件引用時），數據直接跟在box type字段後面，具體數據結構的意義需要參考metadata（主要在sample table中描述）。

參考 : ISO/IEC 14496-12:2015規範

mp4封裝格式各box類型講解及IBP幀計算

mp4封裝格式各box類型講解及IBP幀計算

文章目錄

box

ftyp box

moov box

mvhd box (Movie Header Box)

trak box (Track Box)

tkhd(track header box)

mdia (Track Media Structure)

mdhd (Media Header Box)

PTS和DTS的計算

I P B 幀的概念

stts（Decoding Time to Sample Box)

ctts（Composition Time to Sample Box）

timescale

stss (Sync Sample Box)

stsz (Sample Size Boxes)：

stsc (Sample To Chunk Box):

stco (Chunk Offset Box)

mdat box

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

grafana api創建dashboard 記錄

webrtc QOS筆記四 Nack機制淺析

webrtc QOS筆記三 RTT計算，SRS增加XR

[issues] webrtc 接入SRS丟包率不正確問題

webrtc QOS筆記二音頻buffer數據不足生成很多gap的問題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結