AV1編碼技術分析

AV1,目前業界最新的開源視頻編碼格式,對標專利費昂貴的H.265。它由思科、谷歌、網飛、亞馬遜、蘋果、Facebook、英特爾、微軟、Mozilla等組成的開放媒體聯盟(Alliance for Open Media,簡稱AOMedia)開發。而當前中文資料較少,作爲入門資料,僅在IEEE上到時找到了這麼一篇論文:An Overview of Core Coding Tools in the AV1 Video Codec
看了下該論文作者主要來自Google,所以還是挺權威的一篇技術總結。現將該論文翻譯成中文,供大家一起學習交流之用。
(英文水平有限,如有翻譯差錯還請指教。)

AV1是一種新興的開源、版權免費的視頻壓縮格式,由開放媒體聯盟(AOMedia)行業聯盟於2018年初聯合開發並最終定稿。AV1開發的主要目標是在當前的編解碼器基礎上獲得可觀的壓縮率提升,同時確保解碼的複雜性和硬件的實際可行性。本文簡要介紹了AV1中的關鍵編碼技術,並與VP9和HEVC進行了初步的壓縮性能比較。

索引:視頻壓縮,AV1,開放媒體聯盟,開源視頻編碼

一、引言

在過去的十年裏,智能設備推動着高分辨率、高質量內容消費的高速增長,使得視頻應用在互聯網上已經變得無處不在。視頻點播和視頻通話等服務是消費者主要使用的服務,它們對傳輸的基礎設施提出了嚴峻的挑戰,因此更需要高效的視頻壓縮技術。另一方面,互聯網成功的一個關鍵因素是它所使用核心技術,例如HTML、web瀏覽器(Firefox、Chrome等)和操作系統(如Android),都是開放和可自由實現的。因此,爲了創建一個與主流商用視頻格式相當的開源視頻編碼格式,在2013年年中,谷歌推出並部署了VP9視頻編解碼器。VP9的編碼效率與最先進的收費HEVC編解碼器相當,同時大大優於最常用的格式H.264及它的前身VP8。

然而,隨着對高壓縮視頻應用需求的增加和多樣化,壓縮性能的不斷提高很快變得迫在眉睫。爲此,在2015年底,谷歌成立了開放媒體聯盟(AOMedia),一個由30多家領先的高科技公司共同組成的聯盟,致力於下一代開源視頻編碼格式—AV1。

AV1開發的着重點包括但不限於以下目標:一致的高質量實時視頻傳輸、對各種帶寬的智能設備的兼容性、易處理的計算佔用空間、對硬件的優化以及對商業和非商業內容的靈活性。編解碼器最初使用的是VP9工具和增強功能,然後AOMedia的編解碼器、硬件和測試工作組被提出、測試、討論和迭代產生新的編碼工具。到今天爲止,AV1代碼庫已經到了最後的bug修復階段,並且已經合併了各種新的壓縮工具,以及爲特定用例設計的高級語法和並行化特性。本文將介紹AV1中的關鍵編碼工具,與同等質量的高性能libvpx VP9編碼器相比,AV1的平均比特率降低了近30%。
在這裏插入圖片描述

二、AV1編碼技術

A.編碼塊劃分

VP9的分區樹有4種分塊方式,從最大的64×64開始,一直到4×4層,對於8×8及以下的分塊則有一些額外的限制,如圖1的上半部分所示。注意,圖中標有爲R的分塊是遞歸的,因此R分塊可以重複再分塊,直到達到最低的4×4級。

AV1不僅將分區樹擴展爲如圖所示的10種結構,還將最大的分塊尺寸(在VP9/AV1中稱爲superblock)增大至128×128。注意,在VP9中並不存在這種的4:1/1:4矩形分塊,而這些分塊沒有一個可以再細分。此外,AV1增加了使用8×8級以下分區的靈活性,在某種意義上,2×2的色度幀間預測現在在某些情況下成爲可能。

B.幀內預測

VP9支持10種幀內預測模式,其中8種方向模式,角度45-207度,2個非方向預測模式:DC和true motion ™模式。AV1,潛在的幀內編碼進一步探索了不同的方法:方向預測的粒度進一步升級,而非方向性的預測,納入了梯度和相關性,亮度的一致性和色度信號也得到充分利用,並開發出針對人造視頻內容特殊優化的工具。
1)幀內預測方向的增強:爲了在方向紋理中實現更多種類的空間冗餘,在AV1中,將方向幀內模式擴展到更具精細粒度的角度集。 將最初的8個角度設爲名義角度,基於這些角度引入步長爲3度的精細角度微調,即預測角度由名義內角度加上角度增量表示,該角度以-3〜3的倍數爲步長。 爲了以通用方式在AV1中實現定向預測模式,這48個擴展模式由統一的定向預測器實現,該預測器將每個像素鏈接到像素邊緣的一個參考像素位置,並通過2-tap雙線性插值對參考像素進行插值。 所以,在AV1中總共啓用了56個定向內部模式。
2)無方向平滑的幀內預測器:AV1通過添加3個新的平滑預測器SMOOTHV,SMOOTHH和SMOOTH擴展了無方向幀內模式,它們在垂直或水平方向,使用二次插值或其平均值預測了像素塊。此外,TM模式已被PAETH預測器取代:對於每個像素,我們從頂部、左側和頂部左邊緣參考複製出一份,其值最接近(top+left-topleft),表示採用從具有較低坡度的方向進行參考。
3)基於遞歸濾波的幀內預測器:爲了捕獲邊緣參考塊的衰減空間相關性,FILTERINTRA模式通過將亮度塊使用二維不可分離的馬爾可夫過程。 爲AV1預設計的五個濾波器幀內模式中,每個模式用一組八個7-tap濾波器表示,反映了4×2色塊中的像素與相鄰的7個像素之間的相關性。 一個內部塊可以選擇一種幀內濾波模式,並以一批4×2補丁進行預測。 通過選中的7-tap濾波器組預測每個補丁,在8個相鄰像素位置上的權重。 對於那些未完全附加到邊緣塊上參考的補丁,將直接相鄰的預測值用作參考,這意味着在補丁之間遞歸計算預測,以便合併更多較遠位置上的邊緣像素。
4)從亮度預測色度:Chroma from Luma(CfL)是僅用於色度的幀內預測器,通過以重建後亮度像素的線性函數建模得到色度像素。重建的亮度像素被二次採樣爲色度分辨率,然後去除直流分量以得到交流分量。 爲了從交流分量中估計色度的交流分量,而不是像某些現有技術那樣要求解碼器提供縮放參數,AV1CfL根據原始色度像素確定參數並在比特流中用信號發送。 這降低了解碼器的複雜性並得到了更精確的預測。 對於DC預測,它是使用內部DC模式計算的,該模式對於大多數色度內容來說已經足夠,並且具有成熟並能快速實現的方法。 有關AV1CfL工具的更多詳細信息,請參見[6]。
5)調色板作爲預測指標:有時,尤其是對於諸如屏幕截圖和遊戲之類的人造視頻,可以用少量唯一顏色的近似塊來替代。因此,AV1將調色板模式引入到幀內編碼器中作爲通用的額外編碼工具。塊的每個平面的調色板預測器由(i)一個調色板,擁有2~8種顏色(ii)這些顏色指定了塊中所有像素的索引。基色的數量決定了保真度和緊密度之間的平衡。顏色索引基於相鄰上下文進行熵編碼。
6)幀內塊拷貝:AV1允許其幀內編碼器參考同一幀中先前重建的塊,其方式類似於幀間編碼器引用前一幀中塊的方式,這對於通常包含重複紋理的屏幕內容視頻非常有用。具體來說,一種名爲IntraBC的新預測模式被引入,它將在當前幀中拷貝一個重建的塊作爲預測。參考塊的位置由位移矢量指定,其方式類似於運動補償中的運動矢量壓縮。位移矢量屬於亮度平面的整個像素,並且可以引用對應色度平面上的半像素位置,其中雙線性濾波被應用於子像素插值。
在這裏插入圖片描述

C.幀間預測運動補償

幀間預測運動補償是視頻編碼中必不可少的模塊。在VP9中,最多允許3個候選參考幀中的2個參考,然後預測器將進行基於塊平移的運動補償,或者如果有兩個參考信號則取這兩次預測的平均值。 AV1具有更強大的幀間編碼器,可大大擴展參考幀和運動矢量的池,它打破了基於塊平移預測的侷限性,並通過使用高自適應加權算法和源,增強了複合預測。
1)擴展參考幀:AV1將每個幀的參考數從3擴展到7。除了VP9的LAST(最近過去的)幀,GOLDEN(遙遠過去的)幀和ALTREF(臨時過濾將來的)幀之外,我們在幀附近添加了兩個過去的幀(LAST2和LAST3)以及兩個將來的幀(BWDREF和ALTREF2)[7]。圖2展示了黃金幀組的多層結構,其中自適應數量的幀共享相同的GOLDEN和ALTREF幀。 BWDREF是一種直接編碼的超前幀,無需應用時域濾波,因此更適合用作相對距離較短的後向參考。 ALTREF2用作GOLDEN和ALTREF之間的中間過濾的將來參考。所有的新參考都可以通過單個預測模式使用,也可以被組合成複合模式使用。 AV1提供了豐富的參考幀對集合,既提供了雙向複合預測又提供了單向複合預測,因此可以以更靈活和更優的方式,對具有動態時域特性的各種視頻進行編碼。
2)動態空間與時間運動矢量參考:有效的運動矢量(MV)編碼對於視頻編解碼器至關重要,因爲它佔幀間碼率消耗的很大一部分。爲此,AV1結合了複雜的MV參考選擇方案通過搜索空間和時間候選,獲得給定塊較好的MV參考。 AV1不僅搜索比VP9更深的空間鄰域來構建空間候選池,而且還利用時間運動場估計機制生成時間候選。運動場估計過程分爲三個階段:運動矢量緩衝,運動軌跡創建和運動矢量投影。首先,對於編碼後的幀,我們存儲參考幀索引以及相關的運動矢量。在解碼當前幀之前,我們檢查運動軌跡,例如圖3中的MVRef2,將Ref2幀中的一個塊指向Ref0Ref2中的某個位置,可能會通過每個64×64處理單元,檢查最多3個參考中並列的192×128緩衝運動矢量場。這樣,對於任何8×8塊,其所屬的所有軌跡都將被記錄。接下來,在編碼塊級別,一旦確定了參考幀,則通過將運動軌跡線性地投影到期望的參考幀上來生成運動矢量候選,例如,將圖3中的MVRef2轉換爲MV0或MV1。一旦所有的空間和時間候選都聚集在池中,就對其進行分類,合併和排序,以獲得最多4個最終候選者[8]。計分方案取決於計算當前塊具有特定候選MV的可能性。爲了編碼MV,AV1從列表中發出選定參考MV索引的信號,然後根據需要編碼增量。在實際使用中,參考MV和其增量的組合是通過模態發出信號,這點和VP9一樣。
在這裏插入圖片描述
3)重疊塊運動補償(OBMC):OBMC通過平滑地組合從鄰近運動矢量創建的預測,可以大大減少塊邊緣附近的預測誤差。在AV1中,設計了一種兩面因果重疊算法,以使OBMC輕鬆適合高級分塊框架[9]。通過在垂直和水平方向上應用預定義的一維平滑濾波器,它逐步將基於塊的預測與二次幀間預測器結合在上方邊緣和左側邊緣。二次預測變量僅在當前塊的受限重疊區域中操作,因此它們不會在同一側彼此出現混淆。 AV1 OBMC僅對單個參考幀的宏塊啓用,並且僅與具有兩個參考幀的任何相鄰中的第一個預測器同時工作,因此,最壞情況下,所要求的存儲帶寬與傳統複合預測器是相同的。
4)扭曲運動補償:通過啓用兩種仿射預測模式,全局和局部扭曲運動補償,在AV1中開發了扭曲運動模型[10]。全局運動工具旨在處理相機運動,並允許在幀級別顯式運用運動模型,主要用於當前幀與其任何參考之間的運動。局部扭曲運動工具旨在通過從分配給因果鄰域的運動矢量信號的二維位移中推導塊級模型參數,從而以最小的開銷隱式描述變化的局部運動。通過比較兩種編碼工具在塊級別轉換模式,只有在RD成本方面有優勢時才選擇它。更重要的是,AV1中的仿射扭曲受到的限制較小,因此可以在SIMD和硬件中通過水平剪切和垂直剪切來有效地實現仿射扭曲(圖4),其中每個剪切點使用1/64像素精度的8-tap插值濾波器。
5)高級複合預測:爲AV1開發的一系列新的複合預測工具,使得其幀間編碼器更加通用。在本節中,可以將任何複合預測操作針對像素(i,j)概括爲:: pf (i, j) = m(i, j)p1(i, j)+(1 − m(i, j))p2(i, j),其中p1和p2是兩個預測變量,而pf是最終的複合預測,其中[0,1]中的加權係數m(i,j)專爲不同的用例而設計,可以很容易從預定義表中生成。 [11]
•複合楔形預測:移動物體的邊界通常很難通過網格塊來近似分區。 AV1中的解決方案是預定義16個可能的楔形分區的代碼簿,當編碼單元選擇同樣以這種方式進一步分區時,在位流中發信號通知楔形索引。如圖5所示,針對正方形和矩形塊設計了16個形狀的代碼簿,其中包含水平,垂直或傾斜度爲±2或±0.5的分區方向。爲了減輕由兩個預測變量直接並置而產生的寄生高頻分量,採用軟懸崖形的二維楔形遮罩對目標分區周圍邊緣進行平滑處理,即m(i,j)接近於0.5邊緣,並逐漸在兩端轉換爲二進制權重。
在這裏插入圖片描述
•差異調製的掩蓋預測:楔形之類的直線分區並不總是有效地分離對象。因此,AV1複合預測變量還可以通過從兩個預測變量的值不同的內容來創建非均勻加權。具體來說,p1和p2之間的像素差用於在基值之上調製權重。掩碼通過m(i, j) = b+a|p1(i, j)−p2(i, j)|生成,其中b控制的是在不同區域內一個預測變量對另一個加權變量的加權強度,其中比例因子a則是爲了實現平滑調製。
•基於幀距離的複合預測:除了權重不均勻以外,AV1還通過考慮幀距離來改進統一的加權方案。幀距離定義爲兩個幀的時間戳之間的絕對差。它自然表示從不同參考之間複製的運動補償塊的可靠性。當選擇基於幀距離的複合模式時,令d1和d2(d1≥d2)代表從當前幀到參考幀的距離,並據此計算p1和p2,整個塊使用同一個固定的權重值m。和直接線性加權不同,AV1定義了由d1/d2調製的量化權重,它平衡了重建參考的時間相關性和量化噪聲。
•複合幀內預測:爲了處理新內容和舊對象混雜的區域,AV1將幀內預測p1和單參考幀間預測p2結合在一起形成了複合幀內預測模式。對於幀內部分,支持4種常用幀內模式。遮罩m(i,j)包含兩種類型的平滑功能:(i)類似於爲楔間交互模式設計的平滑遮罩,(ii)依賴於模式的遮罩,其中權重p1,以內部模式的主方向爲導向的衰減模式。

D.變換編碼

1)變換塊分區:AV1無需像VP9中那樣強制固定變換單元大小,而是允許亮度間編碼塊劃分爲多種大小的變換單元,這些遞歸分區最多可遞減2級。爲了合併AV的擴展編碼塊分區,我們支持從4×4到64×64的正方形,2:1/1:2和4:1/1:4比例也都可以。此外,色度轉換單元總是要儘可能地大。
2)擴展的轉換內核:爲AV1中的幀內和幀間塊定義了一組更豐富的轉換內核。完整的2-D內核集由DCT,ADST,flipADST和IDTX [12]的16個水平/垂直組合組成。除了已在VP9中使用的DCT和ADST之外,flipADST則以相反的順序應用ADST,並且身份變換(IDTX)意味着沿某個方向跳過變換編碼,因此對於編碼銳利邊緣特別有用。隨着塊大小變大,某些內核開始發揮類似作用,因此,隨着變換大小的增加,內核集會逐漸減少。

E.熵編碼

1)多符號熵編碼:VP9使用基於樹的布爾非自適應二進制算術編碼器對所有語法元素進行編碼。 AV1轉而使用符號間自適應多符號算術編碼器。 AV1中的每個語法元素都是N個元素的特定字母,上下文由一組N的概率以及一個爲前期快速適應的計數之一。概率存儲在15位累積分佈函數(CDF)。與二進制算術編碼器相比,精度更高,從而可以準確地跟蹤字母表中不太常見的元素的概率。概率通過簡單的遞歸縮放進行調整,其中更新因子基於字母大小。由於符號比特率是由編碼係數、運動矢量和預測模式共同決定的,所有這些都使用大於2的字母,因此對於典型的編碼方案,與純二進制算術編碼相比,這種設計實際上使吞吐量降低2倍以上。
在硬件方面,複雜度由核心乘法器的吞吐量和大小所決定,並且核心乘法器會重新調整算術編碼狀態間隔。編碼實際上並不需要跟蹤概率所需的較高精度。這允許通過從16×15位舍入到8×9位乘法器,來從根本上縮小乘法器的大小。通過強制執行最小間隔大小,來簡化此舍入,這進一步簡化的概率更新直至其值變爲零。在軟件層面,操作次數比複雜度更重要,並且減少吞吐量和簡化更新相應地減少了每次編碼/解碼操作的固定開銷。
2)電平圖係數編碼:在VP9中,編碼引擎按照掃描順序依次處理每個量化的變換系數。其中用於每個係數的概率模型,又與先前編碼的係數級別、頻帶、及其變換塊大小等相關。爲了正確捕獲廣闊基數空間中的係數分佈,AV1改而使用電平圖設計以實現可觀變換系數建模和壓縮[13]。這一設計建立在以下研究基礎之上:較低的係數水平通常佔據了最主要的費率成本。
對於每個變換單元,AV1係數編碼器從略過標誌的編碼開始,如果無需略過變換編碼,則這一標誌其後緊跟着的是變換內核類型和所有非零係數的結束位置。然後,對於係數值,並沒有採用爲所有係數級別統一分配上下文的模型,而是將級別分爲不同的平面。較低級別的平面對應於0到2之間的係數級別,而較高級別的平面負責2以上的級別。這種分離允許我們將豐富的上下文模型分配給較低級別的平面,而這一平面充分考慮了變換維、塊大小、以及鄰近係數信息,以適度的上下文模型大小提高壓縮效率。較高級別的平面對3到15之間的級別使用簡化的上下文模型,並使用ExpGolomb代碼直接對15級以上的殘差進行編碼。

F.環路濾波工具和後處理

AV1允許將多個環路濾波工具相繼應用於解碼幀數據的過程。第一級是解塊濾波器,它與VP9中使用的解塊濾波器大致相同,只是做了些微小改動。最長的濾波器從VP9中的15抽頭減少到13抽頭。此外,在亮度和每個色度平面的水平和垂直信號分量上,單獨的信號過濾級別方面,有了更大的靈活性,以及將超級塊級別的能力方面。 AV1中的其他過濾工具如下所述。
1)受約束的方向增強濾波器(CDEF):CDEF是一種保留細節的去環濾波器,應用於解塊之後,其工作原理是估算邊緣方向,然後使用大小爲5×5的不可分離的具有12個非零權重的非線性低通定向濾波器[14]。爲了避免額外的信令,解碼器使用標準化快速搜索算法計算每8×8塊的方向,該算法將來自理想方向圖的二次誤差最小化。該濾波器僅應用於具有編碼預測殘差的塊。濾波器可以表示爲:在這裏插入圖片描述
其中N包含x(i,j)附近的像素,權重wm,n,f()和g()是下面描述的非零非線性函數,R(x)將x舍入爲最接近零的整數。 f()函數修改要過濾的像素與相鄰像素之間的差異,並由分別在64×64塊級別和幀級別指定的兩個參數(強度S和阻尼值D)確定。強度S鉗位允許的最大差值減去D所控制的削減。g()函數將要過濾的像素x的修改值限制爲x與支撐區域中x(m,n)之間的最大差值保持濾波器的低通特性。
2)循環恢復過濾器:AV1在CDEF之後添加了一組用於循環應用的工具,這些工具的使用是相互斥的,其可選大小爲64×64、128×128、或256×256的被稱之爲循環恢復單元(LRU)。具體來說,對於每個LRU,AV1允許在如下兩個濾波器[15]之一之間進行選擇。
•可分離對稱歸一化Wiener濾波器:使用7×7可分離Wiener濾波器對像素進行濾波,其係數用比特流中的信號表示。由於歸一化和對稱性約束,每個水平/垂直濾波器僅需要發送三個參數。編碼器通過智能優化,選擇正確濾波器抽頭,但是解碼器只使用從位流接收到的濾波器抽頭。
•雙自導濾波器:對於每個LRU,解碼器首先應用兩個簡易的整數化自導濾波器,其支持大小分別爲3×3和5×5,並通過比特流中的信號通知噪聲參數。 (注意,自我引導意味着引導圖像與要過濾的圖像相同)。接下來,將兩個濾波器r1和r2的輸出與同樣在比特流中用信號發送的權重(α,β)組合,以獲得最終恢復的LRU爲x + α(r1 − x) + β(r2 − x),其中x是原始降級的LRU。即使r1和r2本身不一定是好的,但在編碼器端適當選擇權重可使最終組合版本更接近於未降級的源。
3)幀超分辨率:AV1添加了一種新的幀超分辨率編碼模式,該模式允許以較低的空間分辨率對幀進行編碼,然後在更新參考緩衝區之前將其超解析地循環內完整解析爲全分辨率。儘管這種方法有着非常低的比特率可感知優勢,但是圖像處理文獻中,大多數超分辨率方法在視頻編解碼器中的環內操作,過於複雜。在AV1中,爲了使操作在計算上易於處理,將超分辨過程分解爲線性放大,然後以更高的空間分辨率應用循環恢復工具。特別地,維納濾波器特別擅長超分辨和恢復丟失的高頻。然後,唯一的附加規範操作是在使用循環恢復之前進行線性升頻。此外,爲了實現具有成本效益的硬件實現而在行緩衝器中沒有任何開銷,將上/下縮放限制爲僅水平操作。圖6描述了使用幀超分辨率時環路濾波管道的總體架構,其中CDEF以編碼(較低)分辨率運行,但是在線性升頻器水平擴展圖像以解決部分分辨率後,環路恢復運行較高的頻率丟失。
在這裏插入圖片描述
4)膠片顆粒合成:AV1中的膠片顆粒合成是在編碼/解碼循環之外進行的規範性後處理。電視和電影內容中豐富的電影顆粒通常是創作意圖的一部分,在編碼時需要保留。但是,膠片顆粒的隨機性使其很難用傳統的編碼工具進行壓縮。取而代之的是,在壓縮之前將顆粒從內容中刪除,然後估算其參數並在AV1比特流中發送。在解碼器中,根據接收到的參數合成顆粒,並將其添加到重建的視頻中。顆粒被建模爲自迴歸(AR)過程,其中亮度的最高AR係數爲24,每個色度分量的AR係數爲25。這些係數用於生成64×64亮度顆粒模板和32×32色度模板。然後從模板中的隨機位置獲取小顆粒補丁並將其應用於視頻。補丁之間的不連續性可以通過可選的重疊來緩解。薄膜的顆粒強度也隨信號強度而變化,因此每個顆粒樣品都按比例縮放[16]。
對於顆粒含量,薄膜顆粒的合成顯著降低了以夠用的質量重建顆粒所需的比特率。由於在重建圖片中單個晶粒位置可能不匹配,因此該工具通常不會改善客觀質量度量標準(例如PSNR),因此無法在第三節的比較中使用。

三,性能評估

我們對比了在AOMedia的開放式測試平臺AWCY [17]上使用AV1(2018年1月4日版)獲得的編碼性能與libvpx VP9編碼器(2018年1月4日版)以及最新的x265版本(v2.6)的編碼性能。這三個編解碼器在AWCY Objective-1快速測試儀上運行,其中包括各種分辨率和類型的4:2:0 8位視頻:12個普通1080p剪輯,4個1080p屏幕內容剪輯,7 720p剪輯和7 360p剪輯,都是60幀。在我們的測試中,AV1和VP9使用恆定質量(CQ)速率控制以2遍模式進行壓縮,通過該模式,編解碼器使用單個目標質量參數運行,該參數控制編碼質量而未指定任何比特率約束。 AV1和VP9編解碼器使用以下參數運行:
•–frame-parallel = 0 --tile-columns = 0 --auto-alt-ref = 2 --cpuused = 0 --passes = 2 --threads = 1 --kf-min-dist = 1000- kf-maxdist = 1000-lag-in-frames=25 --end-usage=q --cq-level = {20,32,43,55,63}和無限制的關鍵幀間隔。
需要說明的是,AV1 / VP9 2通道模式的第一通道只負責收集統計信息,而不是實際的編碼。 x265,用於將視頻編碼爲HEVC格式的庫,還使用恆定速率因子(crf)速率控制,以其最佳質量模式(placebo)進行了測試。 x265編碼器使用以下參數運行:
• --preset placebo --no-wpp --tune psnr --frame-threads 1 --minkeyint 1000 --keyint 1000 --no-scenecut with --crf ={15, 20, 25, 30, 35} 和無限制的關鍵幀間隔。
請注意,使用上述cq級別和crf值會使三個編解碼器生成的RD曲線在有意義的範圍內彼此接近,以進行BDRate計算。編碼性能的差異顯示在表I和表II中,以BDRate表示。負的BDRate意味着使用更少的位來達到相同的質量。 PSNR-Y,PSNR-Cb和PSNR-Cr是用於計算BDRate的客觀指標。不幸的是,在撰寫本文時,在AWCY測試臺上,還沒有實現PSNR度量來平均Y,Cb,Cr平面上的PSNR,我們將在以後的文獻中更新結果。表I將AV1與VP9進行了比較,表明AV1在所有平面上的性能均比VP9實質上高出30%。同樣,與x265相比,表II顯示了當考慮主要質量因子PSNR-Y時,一致的22.75%編碼增益,並且在Pb和Cr度量中,-40%的BDRate顯示了Cb和Cr平面上更出色的編碼能力。
在這裏插入圖片描述

致謝
特別感謝所有AOMedia成員和AV1項目的個人貢獻者的努力和奉獻。由於篇幅所限,我們只列出參與起草本文的作者。
參考文獻
[1] D. Mukherjee, J. Bankoski, A. Grange, J. Han, J. Koleszar, P. Wilkins,
Y. Xu, and R.S. Bultje, “The latest open-source video codec VP9 - an
overview and preliminary results,” Picture Coding Symposium (PCS),
December 2013.
[2] G. J. Sullivan, J. Ohm, W. Han, and T. Wiegand, “Overview of the
high efficiency video coding (HEVC) standard,” IEEE Transactions on
Circuits and Systems for Video Technology, vol. 22, no. 12, 2012.
[3] T. Wiegand, G. J. Sullivan, G. Bjontegaard, and A. Luthra, “Overview of
the H.264/AVC video coding standard,” IEEE Transactions on Circuits
and Systems for Video Technology, vol. 13, no. 7, 2003.
[4] J. Bankoski, P. Wilkins, and Y. Xu, “Technical overview of VP8, an open
source video codec for the web,” IEEE Int. Conference on Multimedia
and Expo, December 2011.
[5] “Alliance for Open Media,” http://aomedia.org.
[6] L. N. Trudeau, N. E. Egge, and D. Barr, “Predicting chroma from luma
in AV1,” Data Compression Conference, 2018.
[7] W. Lin, Z. Liu, D. Mukherjee, J. Han, P. Wilkins, Y. Xu, and K. Rose,
“Efficient AV1 video coding using a multi-layer framework,” Data
Compression Conference, 2018.
[8] J. Han, Y. Xu, and J. Bankoski, “A dynamic motion vector referencing
scheme for video coding,” IEEE Int. Confernce on Image Processing,
2016.
[9] Y. Chen and D. Mukherjee, “Variable block-size overlapped block
motion compensation in the next generation open-source video codec,”
IEEE Int. Confernce on Image Processing, 2017.
[10] S. Parker, Y. Chen, and D. Mukherjee, “Global and locally adaptive
warped motion comprensationin video compression,” IEEE Int. Confernce on Image Processing, 2017.
[11] U. Joshi, D. Mukherjee, J. Han, Y. Chen, S. Parker, H. Su, A. Chiang,
Y. Xu, Z. Liu, Y. Wang, J. Bankoski, C. Wang, and E. Keyder, “Novel
inter and intra prediction tools under consideration for the emerging AV1
video codec,” Proc. SPIE, Applications of Digital Image Processing XL,
2017.
[12] S. Parker, Y. Chen, J. Han, Z. Liu, D. Mukherjee, H. Su, Y. Wang,
J. Bankoski, and S. Li, “On transform coding tools under development
for VP10,” Proc. SPIE, Applications of Digital Image Processing XXXIX,
2016.
[13] J. Han, C.-H. Chiang, and Y. Xu, “A level map approach to transform
coefficient coding,” IEEE Int. Confernce on Image Processing, 2017.
[14] S. Midtskogen and J.-M. Valin, “The AV1 constrained directional
enhancement filter (CDEF),” IEEE Int. Conference on Acoustics, Speech,
and Signal Processing, 2018.
[15] D. Mukherjee, S. Li, Y. Chen, A. Anis, S. Parker, and J. Bankoski,
“A switchable loop-restoration with side-information framework for the
emerging AV1 video codec,” IEEE Int. Confernce on Image Processing,
2017.
[16] A. Norkin and N. Birkbeck, “Film grain synthesis for AV1 video codec,”
Data Compression Conference, 2018.
[17] “AWCY,” arewecompressedyet.com.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章