VMAF:視頻質量的多方法融合評價(原理+使用方法)

背景

爲了在互聯網進行視頻傳輸,視頻源需要通過標準化的格式進行壓縮,例如H.264/AVC、H.265HEVC以及VP9、AV1等等。如果視頻過度壓縮或壓縮參數不當,將導致畫面質量受損,也就是很多人常說的壓縮失真,例如“塊效應(Blocking)”、“振鈴效應(Ringing)”或“蚊式噪聲(Mosquito noise)”。對於普通觀衆來說,視頻觀賞體驗極差。

視頻質量評價指標現狀

爲了在互聯網進行視頻傳輸,視頻源需要通過標準化的格式進行壓縮,例如H.264/AVC、H.265HEVC以及VP9、AV1等等。如果視頻過度壓縮或壓縮參數不當,將導致畫面質量受損,也就是很多人常說的壓縮失真,例如“塊效應(Blocking)”、“振鈴效應(Ringing)”或“蚊式噪聲(Mosquito noise)”。對於普通觀衆來說,視頻觀賞體驗極差。

針對不同網絡帶寬下使用各種設備的用戶提供儘可能優質的視頻觀賞質量,就需要對視頻質量進行主客觀評價。視頻質量的衡量是一個經典問題,爲了平衡視頻主客觀質量與編碼碼率,大量學者曾引入過很多簡單可行的解決方案,例如:均方誤差(Mean-squared-error,MSE)、峯值信噪比(Peak-signal-to-noise-ratio,PSNR)、結構相似性指數(Structural Similarity Index,SSIM)以及MS-SSIM。但是這些指標的出現都是基於圖像質量評價的,作爲基礎的算法研究,PSNR可能已經可以滿足要求,但是在實際應用中,PSNR無法準確的反映出用戶觀看視頻的主觀體驗。另一方面,過去使用的這些質量指標並未充分考慮到不同類型的源內容,例如,很多現有數據庫中缺乏動漫內容,大部分數據庫並未考慮膠片顆粒,而在專業娛樂內容中這些都是非常普遍的信號特徵。簡單總結來說就是,傳統指標不適合視頻內容質量的評估。
另外,PSNR和SSIM三大直接的問題(引自騰訊雲視頻雲公衆號):
1⃣️它只能衡量其與原圖的差異也即相對質量,不能計算絕對質量
2⃣️ 孤立地計算每一幀,無法利用視頻中相鄰幀的相關性和運動信息
3⃣️ PSNR/SSIM值的計算方法過於straight-forward,結果跟人眼的主觀感受並不總能匹配

爲了解決這一問題,Netflix提出了一種基於機器學習的模型設計能真實反映人對視頻質量感知情況的指標。下一節進行詳細介紹。

Video Multimethod Assessment Fusion(VMAF)

面對不同特徵的視頻源、編碼失真以及失真程度,每個衡量指標各有優劣,Netflix通過使用機器學習算法((Support Vector Machine,SVM)迴歸因子)將基本的指標“融合”爲一個最終指標,然後爲每個指標分配一定的權重,這樣就可以保留每個基本指標的評價優勢,最終得到更精確的分數,這就是VMAF(Video Multimethod Assessment Fusion)。

Netflix在制定VMAF過程中,制定了豐富的NFLX視頻數據集,視頻源包含具備各種高級特徵high-level feature(動漫、室內/室外、鏡頭搖移、面部拉近、人物、水面、顯著的物體、多個物體)以及各種底層特性low-level characteristics(膠片噪聲、亮度、對比度、材質、活動、顏色變化、色澤濃郁度、銳度)。然後將這些源短片編碼爲H.264/AVC格式的視頻流,分辨率介於384x288到1920x1080之間,碼率介於375kbps到20,000kbps之間,最終獲得了大約300個畸變(Distorted)視頻。這些視頻涵蓋了很大範圍的視頻碼率和分辨率,保證了數據的多樣性。另外,還使用NFLX視頻數據集的主觀實驗中獲得的意見分數對機器學習的模型進行訓練和測試,從而保證了VMAF分數的準確性。

在這裏插入圖片描述
以上爲VMAF原理圖,圖源水印。

VMAF融合了以下基本指標:
1.視覺信息保真度(Visual Information Fidelity,VIF)
VIF是一種獲得廣泛使用的圖像質量指標,該指標基於這樣一種前提:質量與衡量信息保真度丟失情況的措施是互補的。在最初的形式中,VIF分數是通過將四個尺度(Scale)下保真度的丟失情況結合在一起衡量的。在VMAF中,使用了一種改進版的VIF,將每個尺度下保真度的丟失看作一種基本指標。
2.細節丟失指標(Detail Loss Metric,DLM)
DLM是一種圖像質量指標,其基本原理在於:分別衡量可能影響到內容可見性的細節丟失情況,以及可能分散觀衆注意力的不必要損失。(描述失真的兩個指標)這個指標最初會將DLM和Additive Impairment Measure(AIM)結合在一起算出最終分數。在VMAF中,只使用DLM作爲基本指標,但也對一些特殊情況採取了必要的措施,例如會導致原始公式中的數值計算失效的黑幀。VIF和DLM都是衡量圖片質量的指標。考慮到視頻的時域特性(Temporal characteristic),我們還進一步引入了下列這些特性:
3. 運動量
運動信息對視頻編碼碼率的影響至關重要,這是一種衡量相鄰幀之間時域差分的有效措施,計算像素亮度分量的均值反差即可得到該值。

下載和使用

可以點擊VMAF下載源碼。Windows下,編譯比較麻煩的話,可以直接下載Windows可執行工程,在命令行運行即可,具體地,直接使用-h命令查看指引。該工程不僅可以計算VMAF,還可以計算PSNR,SSIM和MS-SSIM指標。有一個英文版使用教程可供參考。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章