細粒度視覺質量評價:回顧和思考

編者按:面向人眼感知的質量評價在許多視頻圖像處理算法和系統中發揮十分重要的作用。近年來學術界已經提出了許多質量評價方法,在已有數據集上取得了很高的性能,但是他們在實際應用中的表現仍然無法讓用戶滿意,以至於無法得到廣泛應用。LiveVideoStackCon 2022 上海站大會我們邀請到了中國科學院大學副教授 張新峯老師,爲我們詳細分享了視覺質量評價的背景與問題以及細粒度視覺質量評價方法的發展與挑戰。

文 / 張新峯

整理 / LiveVideoStack

 

大家好,很高興有機會跟各位同行一起分享我們在質量評價領域的一些想法。我接觸視頻質量評價領域已經有幾年時間,在博士和博士後期間,我主要是做視頻編解碼,做視頻編解碼的朋友可能知道我們有一個方向叫 Perceptual Coding,也就是面向人眼視覺的編碼,希望在相同的碼率下得到更高的主觀視覺質量。我們想要得到更好的主觀質量,就需要有一個很好的質量評價方法。也是基於這個目的,我開始學習和研究一些更好的面向人眼視覺的質量評價方法,進入到視覺質量評價這個領域。

01 回顧:視覺質量評價的背景

本次分享內容主要從以下三個方面展開:首先是回顧,介紹下目前面向視覺信號的質量評價的背景、意義以及目的;然後介紹下視覺質量評價目前存在的一些問題以及我們對該領域問題的一些思考;最後介紹下目前我們的一些工作,對我們提出的細粒度視覺質量評價問題的研究進行些展望。

圖片

首先,我們看一下視覺質量評價的目標。視覺質量評價就是希望我們給出圖像、視頻或者更廣義的視覺信息,如光場圖像、全息圖像等的質量高低的評價。傳統使用比較多的是基於信號的評價方法,對於圖像來說它的信號就是像素,這種基於像素的質量表示例如 PSNR,或者其對應的失真度量就是 MSE(均方誤差)。它和人眼的感知質量之間是有明顯差異的。

這裏我放了一個對比的圖像,大家也可以很清楚的看到,左上是原始圖像,沒有任何失真,所以它的 MSE 是 0。我們可以用各種方式對圖像進行處理,讓它的失真達到相同的均方誤差,也就對應相同的 PSNR。比如說第一個,可以調節一下對比度,第二個做均衡化。第三個(第 2 行第 1 個)進行 JPEG 壓縮,後邊兩幅可以通過模糊和加噪聲,使他們的均方誤差可以都接近 225。但是人眼看起來,它們的主觀質量差異是非常明顯的,這個例子充分證明這種基於像素的 PSNR 的度量是不能準確反映人眼的感知質量的,甚至與人眼的感知差異是非常大的。因此,我們希望在這個領域研究一種比較好的方法,能夠跟人眼感知的主觀質量更一致,這就是圖像視覺質量評價的目標。

圖片

視覺質量評價無論是在流媒體,還是涉及到圖像視頻的各種算法中都非常重要。衆所周知,目前互聯網上大量的圖像視頻要送到用戶端必須經過壓縮的過程,有損壓縮不可避免的要引入失真。我們需要質量評價方法監測圖像或者視頻,用戶端感受的質量是多少,如果質量特別差的話,我們就需要適當提高碼率保證良好的用戶體驗。

圖片

除此之外,我們設計的各種圖像或視頻處理算法,比如增強,圖像復原、去噪,需要有一個質量評價的標準衡量。以圖像去噪爲例,我們每提出一個新的去噪方法都要展示其性能,需要呈現去噪之後圖像的質量,經典的衡量指標就是 PSNR,也會借鑑部分質量評價領域的新指標,比如 SSIM。但實際上,其它很多質量評價方法很少被用到。由於缺少令人信服的質量評價方法,往往就只能貼出圖片來比較。由此可見,無論是在流媒體的傳輸應用還是圖像、視頻的算法設計上,我們都急需比較好的、與人眼感知質量更接近的質量評價算法,所以視覺質量評價具有非常重要的價值。

圖片

視覺質量評價方法可以分成兩類,主觀質量評價和客觀質量評價,我們通常認爲第一類是最準確的一種。國際標準化組織對於主觀質量測試方法也給出了很多詳細的規定,比如測試過程,觀測距離等。這種方式對於評測環境的要求相對苛刻,而且需要很多人給圖像打分,人力成本和時間成本都很高。還有最重要的一點是主觀質量評價方法不能用於算法優化。所以主觀質量評價方法在實際中很難應用。因此,視覺質量評價主要是研究客觀質量評價的方法,希望能用數學的方式來建模人眼視覺對圖像 / 視頻信號的感知質量。

從是否有參考圖像 / 視頻的角度,我們可以將客觀質量評價方法分爲有參考質量評價方法和無參考質量評價方法。有參考質量評價方法是指在評價質量的時候,有無失真的圖像作爲參考;無參考質量評價方法是指沒有任何參考圖像,只有失真的圖像 / 視頻,直接預測它質量的高低。

圖片

視覺質量評價研究的範式基本上可分爲兩步:(1) 建立一個標註了主觀質量的圖像數據集。一般數據集的構建需要首先收集高質量無損圖像,目前已有的數據集大約選擇 20~30 左右的圖像。對每個圖像人工設置不同的失真和失真等級。比如對於壓縮失真而言,通常使用 JPEG 編碼器將每張圖像從最好質量到最差質量壓縮爲 5 個等級。然後邀請測試人員對失真圖像進行主觀打分,通常邀請 20~30 人左右,將這些失真圖像隨機地呈現給每位測試人員,要求其給出對應的質量分數,比如採用 1-5 分的 5 分制打分法。將每張圖像的分數平均得到所謂的主觀分數(MOS),將其認爲是人眼對該圖像的主觀感知質量。

圖片

(2)設計圖像客觀質量評價方法。對於有參考的質量評價方法,我們可以分別提取失真圖像和參考圖像的特徵,建立不同的質量函數模型來計算特徵的失真,局部特徵的失真可以通過聚合或者回歸得到客觀質量分數。質量評價方法的性能需要用得到的客觀質量分數和主觀 MOS 分數計算相關係數,如果相關係數越接近 1,那證明客觀質量模型與人眼感知質量越接近,性能越好。

無參考的質量評價方法也和上述方法類似,唯一的區別就是它沒有參考圖像,需要通過對大量圖像進行統計分析得到高質量圖像的先驗分佈特性,利用失真圖像的特徵與高質量圖像特徵的先驗分佈進行比較,得到客觀質量分數。大家沿用這種範式做了二、三十年,提出了衆多質量評價方法,其性能也越來越好。但是我們在做視頻編碼的時候,這麼多的高效的質量評價方法在實際中依然難以得到滿意的結果,這就是我們今天要討論的一個問題。

圖片

圖片

02 思考:視覺質量評價的問題

但是在實際應用時效果卻不盡如人意,到底問題出在了哪裏呢?

圖片

在視頻編碼中,國際標準從 MPEG-2 到 VVC 依然還是採用 PSNR 作爲質量指標。在圖像 / 視頻處理算法中,實際上用的最多的還是基於像素或特徵的 L2 範數。SSIM、MS-SSIM 等很少被加入到算法中進去優化,即使加入算法中,其帶來主觀質量的提升也很小。這些質量評價方法在實際應用中沒有發揮出它在質量評價問題上那麼顯著的性能提升。

圖片

到底哪裏出了問題?我們把 TID2013 壓縮圖像數據集展開看一下。圖中最右側代表第五個失真等級對應的主觀分數的分佈,其左邊相鄰的是第四個失真等級對應的 25 個主觀分數的分佈,依次類推。我們可以發現兩個問題:

(1)不同失真等級間質量分數差異非常明顯,這樣大的質量差距應該很簡單的質量評價模型就可以判斷正確,甚至通過壓縮圖像中的質量因子,比如 JPEG 中的 QF,可以較爲準確地判斷出壓縮圖像的質量。(2)我們又計算了這相鄰等級之間壓縮圖像的碼率,大約平均增長 30%。在實際中,我們很少需要判斷碼率在相差 30% 時兩個壓縮圖像質量的高低。這種情況,PSNR 應該也可以比較準確地反映質量排序,一般是碼率高的圖像質量好,也就是說上述方式設計的這種質量評價數據集與實際需求並不一致。對於壓縮問題,實際需要的質量評價數據集是:採用不同的壓縮方法,將圖像壓縮到相同的碼率時,判斷哪個壓縮圖像的質量好,這樣可以比較符合相同標準的不同編碼器的性能;另外的應用是,採用同一個編碼器將圖像壓縮到接近的碼率,判斷其是否有人眼能感知的質量差異,從而支持流媒體傳輸應用。實際中,不需要對碼率相差 30% 甚至更大的圖像進行質量比較,它們之間的質量差異通常是非常明顯的。我們可以先把不同等級間的圖像質量的評價看作是粗粒度的質量評價問題,而相同等級內的質量評價問題看作是細粒度的質量評價問題。

圖片

我們發現在已有的質量評價數據集中,粗粒度質量評價的比例是很高的。如果採用現有質量評價的範式,S 和 O 包含了較多的粗粒度質量評價也包含了較少的細粒度的質量評價。如果混合計算會存在第一個問題:粗粒度統計的一致性掩蓋細粒度質量評價的性能。也就是說我們評測的時候統計結果,PSNR 或 SSIM 和主觀質量的相關係數達到 0.91、0.98 這麼高,其實只是把粗粒度質量排序,即不同等級之間的質量排序評價正確了,掩蓋了相同等級內質量評價的錯誤。爲驗證上述論斷,我們採用了一種隨機數產生客觀分數的方法,記作 FG-Random。該方法得到的客觀質量分數在 TID2013 壓縮圖像上跟主觀分數的相關係數一樣可以達到 0.96。當然,這個分數並不是純隨機的,這個隨機函數是這麼寫的:生成 25 個 0 到 1 之間的隨機數加了一個 k,就是質量等級是 1 時,客觀分數就是 1-2 之間;質量等級是 2 時,分數就在 2-3 之間,也就是說不同等級之間分數相差爲 1。這個結果證明只要把粗粒度的質量 level 判斷對了,質量相關係數就會很高,會超過很多方法,從側面說明了傳統方法可能只是判斷出了不同 level 之間粗粒度質量的排序。

圖片

TID2013 數據集裏,同一個等級內有多少個圖像對呢?同一個等級內有 25 個失真圖像,那組合一下,每個等級內有 n*(n-1)/2 個圖像對,有 5 個失真等級,共計 1500 對。不同等級之間有多少圖像對呢?那就很多了, 大家有興趣可以算一下,共計有 6250 對。我們看到,如果用 KRCC 計算時,相同等級內組成的圖像對數要遠遠小於不同等級之間的圖像對數。

圖片

圖片

我寫了個簡單的程序計算不同數量的參考圖像、不同失真等級和相同等級內判斷正確的圖像對的概率爲 p 時,KRCC 的值的分佈。從上表可以看出,當只有 4 個失真等級時,相同等級內只有 10% 的圖像對質量順序判斷正確,相關係數就可以達到 0.77 以上。當然,隨着等級內判斷正確的數量越多,相關係數越高。我們通常用的數據集是 20-30 幅參考圖像,一般用 4-6 個失真等級。可以看到,理論上分析,我們只需要把不同等級之間判斷正確,KRCC 係數就可以達到 0.8 甚至 0.9。然而,那些經典質量評價方法的 KRCC 係數也只有 0.7、0.8 左右,所以進一步驗證了這些方法只是把不同等級之間的質量排序正確了,內部排序正確的概率可能只有 10% 左右。

圖片

更進一步,我設計了一個等級間判斷正確,等級內隨機判斷的程序,其中 O1,…,O5 是隨機數生成的客觀分數,代表不同等級的客觀分數,然後把它組成一個向量,S1,…,S2 也是隨機數生成的主觀分數組成一個向量。分別計算兩個相關係數,(1)相同等級內部,O1 和 S1 計算相關係數,(2)不同等級組合的向量計算相關係數。我們會發現相同等級內相關係數幾乎爲 0,因爲都是隨機數。不同等級組合的向量的相關係數超過 0.96。也就是說,不同等級之間判斷對了,就可以到這麼高的相關係數。

圖片

我們在實際的數據集上進一步驗證,這個驗證是在 VCL 數據集的 JPEG 失真圖像上進行的。上圖橫座標是失真等級的數量,該數據集的 JPEG 失真圖像共有 6 個失真等級,我們依次增加失真等級數量,可以看出,在最低質量等級上 IW-SSIM 或 PWMSE 這些方法得到的相關係數其實都是在 0 附近。也就是說,只有一個失真等級時,這些圖像的質量差異是很接近的,我們把這種質量差異稱爲細粒度的質量差異,已有的質量評價方法幾乎完全失敗。隨着我們增加一個失真等級,兩個失真等級時 KRCC 係數迅速提高。隨着失真等級數量的增加,相關係數不斷提高。該實驗更進一步驗證了已有的質量評價方法只是能夠區分不同粗粒度之間質量的高低,細粒度質量評價上確實沒有效果。

圖片

圖像 / 視頻質量評價的研究已經持續了二、三十年,大量的方法被提出來,難道真的就沒有效果嗎?我們又做了一組實驗,來探究這個問題。像剛纔那樣,我在已有數據集 TID2013 相同等級圖像上,計算 PLCC,KRCC 或 SRCC 相關係數,然後把不同等級計算得到的相關係數取平均,以此作爲細粒度質量評價度量,在上表的 FG-IQA 部分。我們發現在 FG-IQA 的測量中 PSNR 的相關係數反而是最高的,其他方法的相關係數甚至都沒有超過 0.5。我們用傳統的質量評價範式,就是把所有的不同失真等級的客觀分數和主觀分數一起計算相關係數,在上表的 MG-IQA 部分,它就可以到 0.9、0.8 以上。

所以我們想這種細粒度質量評價上性能不高可能的原因有兩個:第一個是大家之前設計的時候沒有考慮到細粒度差異的特性,可能算法上未來需要去探索;另外一個原因可能是傳統的質量評價數據庫的設計可能不是很合理。因爲傳統的質量評價數據庫通常是把很多圖像隨機打亂進行主觀打分,這種方式被試人員難以發現細粒度質量的差異。兩個失真特別接近圖像只有擺在一起,反覆對比才可能看出質量差異,傳統的質量評價數據庫採用隨機呈現的方式,使得數據庫的主觀分數可能不夠準確,所以這些方法去做相關係數計算的時候也不可靠。

圖片

圖片

從這個數據集上可以進一步過去二、三十年大家提出的質量評價方法還是有效果的,只是跟傳統數據集上的表現可能不太一致。我們發現 PSNR 確實跟人眼的感覺差異比較大,MS-SSIM、SSIM 或 IWSSIM 比 PSNR 提升很多,KRCC 達到 0.8 以上,但是這些算法的表現和傳統數據集上的就不一致了,比如有的方法在傳統數據集上可能會比 MS-SSIM 好,但是在細粒度的數據集上,我們發現 MS-SSIM 還是很好的。我們還看到一個現象:在低碼率 b1 下,不同算法的相關係數都很高,碼率增加後相關係數會降低,這說明高碼率圖像的質量評價更難。

我們想知道是爲什麼,所以進一步對數據集進行分析。因爲同一幅圖像在相同碼率下對應 4 幅失真圖像,可以組合成 6 個圖像對,因此該數據庫中,每個碼率點下共計有 600 個圖像對。只要有超過 50% 的人認爲圖像 A 比圖像 B 質量好,就標記爲圖像 A 質量好於圖像 B。那麼我們進一步將被試人員判斷的比例進行分類,記作 preference probability,其中 > 90% 的部分表示,有超過 90% 的被試人員認爲圖像 A 比圖像 B 質量好;80%-90% 表示有 80% 到 90% 的被試人員認爲圖像 A 比圖像 B 質量好;從上述表格中可以看出,在低碼率時,人眼也可以比較容易地判斷出細粒度圖像質量高低,而在高碼率時,圖像質量差異進一步縮小,人眼也難以判斷;所以我們認爲質量評價方法不僅僅要能夠體現圖像細粒度質量高低的準確性,還應該體現圖像質量差異判斷的難易程度。因爲我們不該苛責算法在人眼無法判斷的質量差異的情況下,依然做出精準判斷。

03 展望 :細粒度視覺質量評價

考慮到上述這些問題,我們更多的是思考未來圖像 / 視頻質量評價問題該如何進行?我們認爲未來的圖像 / 視頻質量評價應該更細緻,重點研究細粒度質量評價問題。

圖片

在細粒度質量評價方向上,有一類問題一直在被大家所研究,就是恰可察覺失真(Just-Noticeable Difference, JND),就是人眼有 50% 的機會可以察覺到的失真的最小閾值。一個無損圖像用 QP=8 或者 10 來壓縮,雖然信號上有失真,但是人眼是感知不到這麼小的失真的。甚至對於一些圖像用 QP=30 來壓縮,如圖所示,很多人也看不出質量差異。我們認爲 JND 反應的就是細粒度的質量差異。

圖片

美國南加大多媒體通訊實驗室構建了一個視頻細粒度質量評價數據集,他們是用相同的壓縮方法 H.264, 對不同分辨率的視頻用 QP 從 0 到 51 依次壓縮,然後用二分法查找壓縮視頻的 JND 點。

圖片

因爲不同人眼的感知敏感程度不同,JND 點就形成一個分佈。如果用戶沒有看出質量差異,我們認爲用戶對當前視頻是滿意的,如果用戶恰好看出了質量差異,我們認爲用戶對該視頻質量表現出不滿意。因此,將用戶 JND 點的累計分佈作爲用戶對視頻質量的滿意度的曲線,來表徵視頻質量,不僅包含了質量表示,也反映了用戶的感知分佈。

圖片

我們在數據集中發現,不同的視頻用戶滿意度的分佈差異還是很大的,例如視頻會議的視頻有比較明顯的顯著區域 —— 人或者人臉,這時較小的失真用戶就會感知到,所以這類視頻的 JND 點的位置都比較靠近小 QP 位置。對於運動比較複雜的,比如水波紋或者小孩快速運動等,即使有較多失真,人眼也很難看出來,它們的 JND 點就比較靠後。

圖片

基於此我們做了一個預測模型:引入空域的掩蔽效應和人眼視覺顯著性,以及時域運動的掩蔽效應。同時,我們引入 VMAF 的度量,把它作爲一個參考,因爲它可以和失真、碼率建立起聯繫,然後將上述特徵進行用戶滿意度的迴歸。

圖片

這個是我們算法準確度的一個結果,分別以原始視頻、第一個 JND 點視頻、第二個 JND 點視頻爲參考時,用戶 JND 點碼率的相對誤差。

圖片

因爲算法是基於 H.264 視頻構建的,我們希望把它往 H.265 視頻上遷移,因此,我們利用 VMAF 和碼率之間的關係計算了一個遷移係數。通過實驗發現,算法還是在 264 上得到的碼率節省更多一些,H.265 上會弱一些,但整體還是可以得到比較多的碼率節省。

圖片

前面這些就是我們在細粒度質量評價上的一些初步探索。在這裏,我們簡單展望一下後續的一些研究方向。(1)涉及到不同內容、不同分辨率視頻時,用戶滿意度模型效果還存在明顯不足,不同圖像或者視頻處理任務上的細粒度質量評價研究,比如去噪問題,retargeting 問題等。(2)人眼在細粒度質量差異感知上的特性,目前研究還不充分;(3)細粒度質量評價數據集的構建需要更多的人力和時間,難度要比傳統的數據集構建更大;

此外,還有一個問題就是我們要在實際場景中應用質量評價方法,需要這種方法簡單可導,可導纔可以優化,所以在這個方向上,一些簡單有效的質量評價方法可能是更爲重要的。

最後,計算機視覺這幾年研究進展很快,使得機器也成爲了視頻和圖像重要的接收者,分析視頻圖像失真到什麼程度,機器感知會發生變化,這種細粒度的分析可能也是未來的一個方向。

圖片

前面介紹到的相關工作有一些參考論文,大家有興趣可以參考。

以上就是我本次分享的全部內容,謝謝大家!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章