基於ADSP-BF561的H.264視頻編碼器的實現

 轉一篇崔海燕,王卿寫的論文

文章是把JM8.5移植到BF561上,使用VDSP++來實現的。

文章從總體上來看,是很不錯的,也看得出來,進行了相應的工作。

不過不足之處是,JM本身不適於進行實現,適於進行理論研究,最好使用X264/T264來移植,效果會好很多。同時文章也只透露了使用得是CIF格式,但沒有透露在壓縮得時候幀率能到多少等等這些參數,到最後把重心放到介紹優化上了。同時結論是優化的結果,而不是在561上實現之後達到的效果。

0引言

  H.264/AVC是ITU-T VCEG和ISO/IEC MPEG聯合制定的最新國際標準,是目前圖像研究領域的熱點技術之一。H.264的層(VCL)採用了許多新技術,因而使其編碼性能有了大幅度提高。但這是以複雜度的成倍增加爲代價的,這也使得H.264在實時及傳輸應用中面臨着巨大的挑戰。因此,要滿足圖像壓縮的實時性要求,就需要對現有的H.264編解碼器進行優化。本文主要討論H.264系統的硬件平臺和任務流程,並針對基於硬件平臺的特點,介紹了從代碼級對算法進行優化,進一步提高編碼算法的運算速度,實現H.264實時編碼的具體方法。由於ADI Blackfin561是AD公司推出的一款高性能的數字信號,它具有600MHz的主頻。爲此,本文選擇其作爲硬件平臺,來探索在資源有限的平臺上實現H.264編碼器的有效途徑。

  1硬件平臺

  1.1 A-BF561

  Blackfin561是Blackfin系列中的一款高性能定點視頻處理芯片。其主頻最高可達750 MHz,其內核包含2個16位乘法器MAC、2個40位累加器ALU、4個8位視頻ALU,以及1個40位移位器。該芯片中的2套數據地址產生器(DAG)可爲同時從存儲器存取雙操作數提供地址,每秒可處理1200M次乘加運算。芯片帶有專用的視頻信號處理指令以及100KB的片內L1存儲器(16 KB的指令Cache,16 KB的指令SRAM,64 KB的數據Cache/SRAM,4 KB的臨時數據SRAM)、128 KB的片內L2存儲器SRAM,同時具有動態電源管理功能。此外,Blackfin還包括豐富的外設接口,包括EBIU接口(4個128 MB SDRAM接口,4個1MB異步存儲器接口)、3個定時/計數器、1個UART、1個SPI接口、2個同步串行接口和1路並行外設接口(支持ITU-656數據格式)等。Blackfin在結構上充分體現了對媒體應用(特別是視頻應用)算法的支持。

  1.2基於A-BF561的器平臺

  Blackfin561器的硬件結構如圖1所示。該硬件平臺採用ADI公司的A-BF561 EZ-kit Lite評估板。此評估板包括1塊A-BF561、32 MB SDRAM和4 MB Flash,板中的AD-V1836音頻編解碼器可外接4輸入/6輸出音頻接口,而ADV7183視頻解碼器和ADV7171器則可外接3輸入/3輸出視頻接口此外,該評估板還包括1個UART接口、1個USB調試接口和1個JTAG調試接口。在圖1中,攝像頭輸入的模擬視頻信號經視頻芯片ADV7183A轉化爲數字信號,此信號從Blackfin561的PPI1(並行外部接口)進入Blackfin561芯片進行壓縮,壓縮後的碼流則經ADV7179轉換後從A-BF561的PPI2口輸出。此係統可通過Flash加載程序,並支持串口及網絡傳輸。編碼過程中的原始圖像、參考幀等數據可存儲在SDRAM中。

  2 H.264視頻壓縮編碼算法的主要特點

  視頻編解碼標準主要包括兩個系列:一個是MPEG系列,一個是H.26X系列。其中MPEG系列標準由ISO/IEC組織(國際標準化組織)制定,H.26X系列標準由ITU-T(國際電信聯盟)制定。I-TU-T標準包括H.261、H.262、H.263、H.264等,主要用於實時視頻,如電視會議等。

  H.264視頻壓縮算法採用與H.263和MPEG-4類似的、基於塊的混和編碼方法,它採用幀內編碼(Intra)和幀間編碼(Inter)兩種編碼模式。與以往的編碼標準相比,爲了提高編碼效率、壓縮比和圖像質量,H.264採用了以下全新的編碼技術:

  (1) H.264按功能將系統分爲層(VCL,Video Coding Layer)和網絡抽象層(NAL,Network Abstraction Layer)兩個層次。其中VCL用於完成對視頻序列的高效壓縮,NAL則用於規範視頻數據的格式,主要提供頭部信息以適合各種媒體的傳輸和存儲。

  (2)先進的幀內預測,它對含有較多空域細節信息的宏塊採用4×4預測,而對於較平坦的區域則採用16×16的預測模式,前者有9種預測方法,後者有4種預測方法。

  (3)幀間預測採用更多的塊劃分種類,標準中定義了7種不同尺寸和形狀的宏塊分割(16×16、16×8、8×16)和子宏塊分割(8×8、8×4、4×8、4×4)。由於採用更小的塊和自適應編碼方式,故可使得預測殘差的數據量減少,從而進一步降低了碼率。

  (4)可進行高精度的、基於1/4像素精度的運動預測。

  (5)可進行多參考幀預測。在幀間編碼時,最多可選5個不同的參考幀。

  (6)整數變換(DCT/IDCT)。對殘差圖像的4×4整數變換技術,採用定點運算來代替以往DCT變換中的浮點運算。以降低編碼時間,同時也更適合到硬件平臺的移植。

  (7)H.264/AVC支持兩種熵編碼方法,即CAVLC(基於上下文的自適應可變長編碼)和CABAC(基於上下文的自適應算術編碼)。其中CAVLC的抗差錯能力比較高,但編碼效率比CABAC低;而CABAC的編碼效率高,但需要的計算量和存儲容量更大。

  (8)採用新的環路濾波技術及熵編碼技術等。

  H.264的這些新技術使運動圖像壓縮技術向前邁進了一大步,它具有優於MPEG-4和H.263的壓縮性能,可應用於因特網、數字視頻、DVD及電視廣播等高性能視頻壓縮領域。

  3 H.264算法的實現

  將H.264在進行改進要經過以下3個步驟:機上的C算法優化、從機到的程序移植、在平臺上的代碼優化。

  3.1 機上的C算法優化

  根據系統要求,本設計選擇了ITU的Jm8.5版本baseline profile作爲標準算法軟件。ITU的參考軟件JM是基於機設計的,故可取得較高的編碼效果。將視頻編解碼軟件移植到時,應考慮到系統資源,主要應考慮的因素是系統空間(包括程序空間和數據空間),所以,需要對原始的C代碼進行評估,這就需要對所移植的代碼有所瞭解。圖2所示是H.264的算法結構。

  瞭解了算法結構以後,還需要確定在編碼算法的實現過程中,運算量較大且耗時較長的部分。VC6自帶的profile分析工具顯示:幀內與幀間編碼部分佔用了整體運行時間的60%以上。其中ME(Move Estimation,運動估計)又佔用了其中較多的時間。所以,移植與優化的重點應在運動估計部分,因此,應當對代碼結構進行調整。

  (1)大幅刪減不必要的文件和函數

  由於選用了baseline和單一參考幀,因此,很多文件和函數都可以刪減,包括有關B幀、SI片、SP片和數據分割、分層編碼、權值預測模式、CABAC編碼模式等不支持特性的冗餘程序代碼,同時包括rtp.c、sei.c、leaky_bucket.c、In-trafresh.c文件、相關的頭文件以及在global.h頭文件中相應定義的全局變量和函數,此外,還可以刪除top_pic、bottom_pic等與場有關的全局變量與局部變量、分層編碼、多slice分割以及FMO、與場編碼/幀場自適應編碼/宏塊自適應編碼有關的預測、參考幀排序、輸入輸出以及解碼器緩存操作等;也可以刪除隨機幀內宏塊刷新模式和權值預測模式等相關的冗餘代碼(如使編碼器採用NAL碼流而非RTP格式),同時刪除rtp.c;sei.c中包含一些輔助編碼信息(並不編入碼流中),如果不用,也可以刪除leaky_bucket.c用於計算泄漏緩存器的參數。

  (2)配置函數的改寫

  由於JM的系統參數配置是通過讀取encoder.cfg文件來實現的,故可將參數配置由讀取文件改爲通過初始化集中賦值函數來實現,這樣既減少了代碼量,又減少了對有限內存空間的佔用和讀取時間,提高了編碼器整體的編碼速度。例如:定義爲int型的變量input->img_height就可直接改寫爲input->img_height=288(CIF格式)。

  (3)去除冗餘的打印信息

  爲了調試與算法改進的方便,JM保留了大量的打印信息。爲了提高編碼速度,減少存儲空間消耗,這些信息完全可以刪掉,如大量的trace信息和編碼數據統計文件。如果lor.dat和stat.dat僅需在機上調試時使用,也沒必要移植到平臺上,跟這部分相關的代碼完全可以去除。但是,調試時所需的基本信息(如碼率、信噪比、編碼序列等)則應保留參考。

  通過調整可使得代碼的結構、容量更加精簡,從而爲接下來在上的移植做好準備。

3.2從機到的程序移植

  要將端精簡的程序移植到A-BF561的開發環境Visual 下,以使其能夠初步運行,所需考慮的主要是語法規則和內存分配等問題。 (1)除去所有編譯環境不支持的函數

  主要是除去某些與時間相關的函數、將文件操作修改爲讀取文件數據緩存的操作、刪除SNR信息收集等平臺實現不需要的代碼。還要注意:函數的聲明、數據結構的類型要符合的C語言格式。

  (2)添加與硬件相關的代碼

  該代碼包括系統初始化、輸出模塊代碼、中斷服務程序和碼速率控制程序等。

  (3)配置LDF文件

  因爲剛移植的代碼往往數據和程序都非常大,SRAM裏面肯定是放不下的,這時鏈接就會有問題。剛開始的時候,最好把所有的程序和數據都放在SDRAM裏,這樣鏈接就不會有問題了。Stack和heap情況類似,都先放到SDRAM。一般在開始時,往往需要的是一個可以正確運行的程序,而速度倒在其次。

  (4) Malloc問題的解決

  下的開發,malloc是一個需要解決的問題。如果動態申請內存,就算可以運行,其結果往往也是不對的。所以,最好進行靜態分配,可用數組的形式分配。

  移植完畢後,即可實現基於A-BF561的H_264編碼,此時如果速度達不到實時編碼的要求,還可以進一步進行優化。

  平臺上的代碼優化

  在Visual 開發環境下對代碼進行優化的主要方法有C語言級優化和彙編級優化。

  4.1 C語言級優化

  通過VC6的profile分析工具發現:移植與優化的重點應在運動估計部分。筆者通過比較各種算法後選擇了菱形(DS)搜索法。DS算法可採用兩種搜索模板,分別是有9個檢索點的大模板LD-SP(Large Diamond Search Pattern)和有5個檢索點的小模板S(Small Diamond Search Pattern)。其菱形搜索示意圖如圖3所示。搜索時,先用大模板計算,當最小塊誤差SAD點出現在中心點處時,再將大模板L換爲S進行匹配運算,這時,5個點中具有最小SAD者若爲中心點,則該點即爲最優匹配點,然後結束搜索,否則將繼續以此點爲搜索中心進行SPSS搜索。

  經JM實驗證實,採用此種方法,可以節約大約10%的運行時間,且代碼量無太大增長。

  針對的特點和相關的硬件指令,設計時可對代碼進行如下優化:

  ◇對程序結構進行調整。對不適合執行的語句進行改寫,以提高代碼的並行性。
  ◇宏的使用。也就是將有些較短,執行單一、調用次數多的函數改爲宏。
  ◇循環優化是將C語言中的for循環打開,排流水線,提高並行性。
  ◇計算表格化是將運行時計算的參數做成便於查找的表格常數數值,從而將運行計算轉化爲編譯運算。如在量化和反量化程序中進行移位位數的處理時,可先計算出所有可能的值,而後來的運算就可以通過查表得到數值。
  ◇浮點數定點化。因爲Blackfin561並不支持浮點運算,但原始程序代碼卻是浮點運算的格式,所以必須改成定點運算,而其修改後的執行速度也會加快很多。
  ◇儘量用邏輯運算代替乘除運算。由於乘除運算指令的執行時間要遠遠大於邏輯移位指令,尤其是除法指令,故應儘量用邏輯移位運算來代替乘除運算,以加快指令的運行速度。
  ◇儘量少進行函數調用。對一些小的函數,最好是用適當的內聯函數將其直接寫入主函數中進行替代,而對於一些調用不多的函數,也可以直接寫入主函數內,這樣可減少不必要的操作以提高速度。 
  ◇減少判斷轉換。
  ◇儘量靜態分配內存。
  ◇調用系統提供的豐富的內聯函數。

  此外,爲了充分發揮的運算能力,還必須從它的硬件結構出發,最大限度地利用它的8個功能單元,使用軟件流水線儘量讓程序無衝突地並行執行。也可將最耗時的函數抽取出來,用線性彙編改寫,從而最大限度的利用的並行性。

  4.2彙編級優化

  彙編級優化主要指如下幾點操作:

  (1)使用寄存器資源

  Blackfin561提供了8個32位數據寄存器以及一系列的地址寄存器。使用寄存器代替局部變量時,若局部變量用來保存中間結果,那麼用寄存器代替局部變量可省掉很多訪問內存的時間。

  (2)使用專用指令

  Blackfin561提供有求最大值、最小值、絕對值、CUP及大量視頻專用指令,應可能用多位的指令來訪問少位的數據。通過使用這些指令能大大提高代碼的執行速度。如用int型(32位)訪問2個short(16位)型數據時,可將其分別放在32位寄存器的高16位和低16位字段。這樣,數據讀取效率可以提高1倍,從而減少內存訪問次數。

  (3)使用並行指令和向量指令

  A-BF561中每條通用指令都可以和一條或兩條存儲器訪問指令並列執行,這樣有利於A-BF561的流水線滿負荷運行,更充分發揮A-BF561的數據處理能力。

  (4)合理存放反覆調用的程序段

  把被反覆調用的程序段(如DCT變換和IDCT變換)放在片內程序存儲區中,把頻繁用到的數據段(如編碼表)放在片內數據存儲器中,而把不常用到的程序和數據段放在片外存儲器中,以避免對程序或數據進行不必要的反覆搬移。

  (5)合理使用內外存儲器

  BF561片內只有256KB的存儲空間,因此當前幀、參考幀和當前幀的重建幀都必須放至片外存儲器,壓縮碼流若被主機讀取,也可放至片外。其它數據如程序代碼、全局變量、VLC碼錶、各編碼模塊產生的中間數據等均可放至片內。

  (6)DMA的使用

  由於CPU訪問片外存儲器的速度通常要比訪問片內慢幾十倍,片外數據的傳輸通常成爲程序運行時的瓶頸,這樣,即使代碼效率很高,流水線也會因爲等待數據而被嚴重阻塞。解決這一問題的有效方法是用DMA傳送數據。程序是逐個宏塊進行編碼的,在編碼當前宏塊的同時,先由DMA將下一個宏塊的數據、用到的參考幀數據由片外傳送至片內,當前宏塊做完運動補償後,DMA又將重建後的宏塊由片內傳送至片外。這樣CPU只對片內數據進行操作,從而使流水線可以順利進行,而壓縮碼流按逐個碼字有時間間隔地寫入,可由CPU直接寫至片外。

  5 結束語

  經過用A-BF561彙編語言改寫的對應函數的優化程序經調試運行後,DCT,IDCT部分效率提高了大約15倍,去塊濾波部分效率提高了大約6~7倍。對於模塊中的其它部分函數,也同樣取得了良好的優化結果。說明其優化工作確實達到了良好的效果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章