音視頻播放基本原理簡介

    轉載自:http://qiuye.iteye.com/blog/606320

 

   幾乎所有的視頻播放器,如VLCMPlayerXine,包括DirectShow,在播放音視頻的原理和架構上都是非常相似的
    大致的來說,播放一個視頻文件分爲4個步驟:
    1. acess 訪問,或者理解爲接收、獲取、得到
    2. demux 解複用,就是把通常合在一起的音頻和視頻分離(還有可能的字幕)   
    3. decode 解碼,包括音頻和視頻的解碼
    4. output 輸出,也分爲音頻和視頻的輸出(aoutvout


    例如,播放一個UDP組播的MPEG TS

access部分負責從網絡接收組播流,放到內存緩衝區中,access模塊關注IP協議,如是否IPv6、組播地址、組播協議、端口等信息;如果檢測出來是RTP協議(RTP協議在UDP頭部簡單得加上了固定12個字節的信息),還要分析RTP頭部信息。

demux部分首先要解析TS流的信息。TS格式是MPEG2協議的一部分,概括地說,TS通常是固定188字節的一個packet,一個TS流可以包含多個program(節目),一個program又可以包含多個視頻、音頻、和文字信息的ES流;每個ES流會有不同的PID標示。而又爲了可以分析這些ES流,TS有一些固定的PID用來間隔發送programes流信息的表格:PATPMT表。
    其實之所以需要demux,是因爲音視頻在製作的時候實際上都是獨立編碼的,得到的是分開的數據,爲了傳輸方便必須要用某種方式合起來,這就有了各種封裝格式也就有了demux
    demux分解出來的音頻和視頻流分別送往音頻解碼器和視頻解碼器。因爲原始的音視頻都是佔用大量空間,而且冗餘度較高的數據,通常在製作的時候就會進行某種壓縮。這就是我們熟知的音視頻編碼格式,包括MPEG1VCD)、MPEG2DVD)、MPEG4H.264rmvb等等。音視頻解碼器的作用就是把這些壓縮了的數據還原成原始的音視頻數據。

解碼器,例如視頻解碼器輸出的是一張一張的類似位圖格式的圖像,但是要讓人從屏幕看得到,還需要一個視頻輸出的模塊。當然可以像一個Win32窗口程序那樣直接把圖像畫到窗口DC——VLC的一個輸出模塊WinGDI就是這麼幹的,但是通常這太慢了,而且消耗大量的CPU。在Windows下比較好的辦法是用DirectX的接口,會自動調用顯卡的加速功能。
    這樣的功能分解使得模塊化更容易一點,每個模塊住需要專注於自己的事;從整體來說功能強大而且靈活。
    但是事情總是不會那麼簡單。就拿access來說,媒體的訪問是分層的,如RTSP就涉及到IPv4TCPUDPRTCPRTSP等多個層次的協議。有些視頻格式包括了傳輸、封裝格式和編輯碼格式如MPEG系列,有些封裝格式是獨立的容器,但是很多人會誤解它是編解碼格式,如mkvavi這些。
    音頻和視頻在demux之後就是獨立的,但是需要有一套機制把它們同步起來。同時我們需要有一套機制來控制速度、暫停、停止、跳進,獲取各種媒體信息,這些都是很複雜而又很重要的事情。
    另外也許需要在某個地方插入一些修改,來實現某種效果。如音頻的EQ,視頻的亮度調整之類的

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章