本文來自DCC2020論文《Advanced Geometric-based Inter Prediction for Versatile Video Coding》
幾何劃分相較於三角劃分,能更好的貼合物體輪廓。
相關工作
VVC中的三角劃分TPM
三角劃分TPM是VVC幀間預測工具,通過主對角線或副對角線將塊劃分爲兩個三角區域,每個區域使用單向幀間預測分別只需要一個運動矢量,MV是需要傳輸其在merge list裏的索引。兩個MV都是通過運動補償得到,會產生兩個w x h的中間預測塊Pi,最終的預測塊P_B通過將兩個塊加權得到。
其中W0+W1=8,且都是整數權重。權重由像素值到分割線的曼哈頓距離決定,例如W0=clip(0,8, w_TMP0+4)。w_TMP0是距離,對於左上角到右下角的三角劃分,距離可由下式求得,
a,b是常數因子,由塊的寬高比決定。
AV1這的楔形預測
AV1定義了16種楔形劃分方式,楔形要麼是水平垂直,要麼是±2,±0.5(取決於形狀)。和TPM類似,最終也需要對兩個預測塊進行加權。
基於幾何劃分的幀間預測GIP
GIP(Geometric-based Inter Prediction)是對TPM的補充,它可以更好的適應物體的形狀,它們的MV的merge方法和編碼方法也都相同。GIP共支持82種劃分,只支持不小於8x8的塊。編碼端需要決定塊使用的GIP索引Si∈{0...81},並通過截斷二元編碼傳到解碼端。GIP定義的邊界能更好的貼合物體輪廓,從而提高編碼效率。
分割邊界定義
分割邊界在極座標系中定義,需要兩個參數角度ϕ和偏移值ρ 確定。像素(x_c,y_c)到邊界的距離由下式計算(座標原點爲塊中心),
注:我推導的距離公式和論文中給出的不一致,通過查閱作者在TSCVT2020中的文章《Geometric Partitioning Mode in Versatile Video Coding: Algorithm Review and Analysis》找到對應公式,TCSVT中的公式和我推導一致,公式如下:
其中ϕ和ρ是定義分割邊界的參數,定義如下:
邊界參數量化
邊界參數ϕ和ρ需要量化處理,從而使82種劃分方式能對空間進行均勻劃分。
參數ϕ需要量化到預定義的ϕj,j∈{0...23}。ϕj對2π進行不均勻劃分使得tan(ϕj)保持固定,tan(ϕj)∈ { 0, ±1/4, ±1/2, ±1, ±2, ±4, ∞}。
參數ρ需要量化到預定義的ρk,k∈{0...3}。爲了避免對於不同尺寸塊的分界線分佈不均勻,ρk按下面方式求得,
其中j<12時ρx,k 和ρy,k取負值,否則取正值。
上圖是GIP部分劃分方式。GIP總共有NGIP = NϕNρ−Nϕ/2−2 = 82種劃分方式,Nϕ=24,Nρ=4,其中對稱的水平和垂直劃分由於和二叉樹劃分結果一樣所以去掉了。
GIP加權
對於幾何劃分後的兩個預測塊要進行加權生成最終預測塊,權重和像素到分割邊界的距離有關。
其中f_B函數如下圖所示,
下面是一個加權示例,
實驗結果
下表分別是RA和LD配置下的實驗結果,
下圖是RA配置下不同QP下使用TPM和GIP的像素的百分比。
感興趣的請關注微信公衆號Video Coding