圖像質量評價概述(評估指標、傳統檢測方法)

原文鏈接:https://blog.csdn.net/qq_23304241/article/details/80953613

一、概述

在圖像信息技術被廣泛應用的情況下,對圖像質量的評估變成一個廣泛而基本的問題。由於圖像信息相對於其它信息有着無可比擬的優點,因此對圖像信息進行合理處理成爲各領域中不可或缺的手段。在圖像的獲取、處理、傳輸和記錄的過程中,由於成像系統、處理方法、傳輸介質和記錄設備等不完善,加之物體運動、噪聲污染等原因,不可避免地帶來某些圖像失真和降質,這給人們認識客觀世界、研究解決問題帶來很大的困難。 

比如,在圖像識別中,所採集到的圖像質量直接影響識別結果的準確性和可靠性;又如,遠程會議和視頻點播等系統受傳輸差錯、網絡延遲等不利因素影響,都需要在線實時的圖像質量監控,以便於服務提供商動態地調整信源定位策略,進而滿足服務質量的要求;在軍事應用方面,戰場監視和打擊評估的效果也取決於無人機等航拍設備所採集到的圖像或視頻的質量。因此,圖像質量的合理評估具有非常重要的應用價值。

從有沒有人蔘與的角度區分,圖像質量評價方法有主觀評價和客觀評價兩個分支。主觀評價以人作爲觀測者,對圖像進行主觀評價,力求能夠真實地反映人的視覺感知;客觀評價方法藉助於某種數學模型,反映人眼的主觀感知,給出基於數字計算的結果。

 

圖像質量的主觀評價

主觀評價只涉及人作出的定性評價,它以人爲觀察者,對圖像的優劣作出主觀的定性評價。對於觀察者的選擇一般考慮未受訓練的“外行”或者訓練有素的“內行”。該方法是建立在統計意義上的,爲保證圖像主觀評價在統計上有意義,參加評價的觀察者應該足夠多。主觀評價方法主要可分爲兩種:絕對評價和相對評價。

絕對評價

所謂絕對評價,是由觀察者根據自己的知識和理解,按照某些特定評價性能對圖像的絕對好壞進行評價。通常,圖像質量的絕對評價都是觀察者參照原始圖像對待定圖像採用雙刺激連續質量分級法(Double Stimulus Continuous Scale,DSCQS),給出一個直接的質量評價值。具體做法是將待評價圖像和原始圖像按一定規則交替播放持續一定時間給觀察者,然後在播放後留出一定的時間間隔供觀察者打分,最後將所有給出的分數取平均作爲該序列的評價值,即該待評圖像的評價值。國際上也對評價尺度做出了規定,對圖像質量進行等級劃分並用數字表示,也稱爲圖像評價的5分制“全優度尺度”。(見表1.1)

圖像質量評價

相對評價


相對評價中沒有原始圖像作爲參考,是由觀察者對一批待評價圖像進行相互比較,從而判斷出每個圖像的優劣順序,並給出相應的評價值。通常,相對評價採用單刺激連續質量評價方法(Single Stimulus Continuous Quality Evaluation,SSCQE)。具體做法是,將一批待評價圖像按照一定的序列播放,此時觀察者在觀看圖像的同時給出待評圖像相應的評價分值。相對於主觀絕對評價,主觀相對評價也規定了相應的評分制度,稱爲“羣優度尺度”(見表1.2)。

圖像質量評價

 

圖像質量客觀評價

圖像質量客觀評價的基本目標是設計能精確和自動感知圖像質量的計算模型。其終極目標是希望用計算機來代替人類視覺系統去觀看和認知圖像。在國際上,圖像質量客觀評價通常是通過測試多個影響影像質量的因素的表現,並通過計算模型獲得圖像質量量化值與人類主觀觀測值一致性的好壞來評估的。美國的Imatest和法國的DxO analyzer就是其中比較出名的圖像質量客觀評價系統。

影響影像質量的因素

Imatest和DxO analyzer有異曲同工之處,都是將影像質量評測拆分成多個測試項目,分別對每個項目進行測試、打分。兩者相比,DxO analyzer的測試項目會稍微全面一些。

無論是Imatest還是DxO analyzer,兩個測試系統都是通過“測試卡+光源環境+測試軟件=測試結果”的模式。通過各種各樣的測試卡和光源,在實驗室中模擬各種環境,再把成像結果輸入軟件系統,由系統自動分析,最後得出結果。

我們都知道,我們之所以能看到東西,那是因爲物品發出光或者是反射光線,所以,影像質量評測實驗室往往會有兩種光源:透射性和反射型。京立LLV-9300就是最爲被廣泛運用的光源之一,它能模仿非常多的環境亮度。

標準光源箱

除了光源,測試卡也是非常重要的測試用具。針對不同的測試項目,測試卡也是各有不同,有的可以測試分辨率,有的可以測試MTF,有的可以測試色差……ISO 12233測試卡是測試鏡頭分辨率最權威測定方法,也是國際MTF成像曲線圖和鏡頭評估的主要依據。

ISO12233測試卡

有人非常好奇,爲什麼影像質量評測需要準備這麼多的測試用具,準備少一些測試卡、光源不行嗎?

我們要知道,我們準備各種測試卡和光源是爲了模擬各種光照環境,以及測試產品在這些光照環境下的表現。我們永遠也無法猜到用戶會在什麼環境下使用我們的產品,就如之前特斯拉沒有考慮到用戶會在陽光燦爛的時候遇到一輛白色卡車,攝像頭在這種情況下失靈而發生了第一起無人駕駛車禍。所以,我們能做到的是儘可能測試產品在各種環境下的表現,爭取讓產品在各種環境下都表現正常。

 

二、IQA評估指標

現在還不知道除了肉眼之外的好辦法,只能先來列舉一下傳統IQA的一些評估指標(主要參考論文:《無參考圖像質量評價綜述》): 
.

1、MOS、DMOS

圖像質量評價可以分爲主觀評價方法和客觀評價方法, 

主觀評價由觀察者對圖像質量進行主觀評分, 一般採用平均主觀得分(Mean opin-ion score, MOS) 或平均主觀得分差異(Di®erential mean opinion score, DMOS) (即人眼對無失真圖像和有失真圖像評價得分的差異) 

Subjective quality assessment can be applied by visual perception or mean opinion score (MOS), which has been used in ITU-T p.910, a standard in multimedia services. Visual perception is predicated on the observers’ perception without a numerical quantification. MOS is defined as the average of the quality values ranging from1 to 5that are obtained from observers.

.

 

缺點:

         耗費人力,不是自動的,不利於調整參數。

優點:

        根據人眼的感知,直觀並能較精確地評價圖片的質量

 

2、均方根誤差(Root mean squared error, RMSE)

均方根誤差比較算法評價值與人眼主觀打分之間的絕對誤差, 衡量算法預測的準確性 
.

3、線性相關係數(Linear correlation coe±- cient, LCC), 也稱爲皮爾遜(Pearson) 線性相關 係數

線性相關係數描述算法評價值與人眼主觀打分之間的相關性, 也衡量了算法預測的準確性. 
.

4、Spearman 秩相關係數(Spearman0s rank ordered correlation coe±cient, SROCC)

Spearman 秩線性相關係數衡量算法預測的單調性(Monotonicity). 
.

5、Kendall 秩相關係數(Kendall rank order correlation coe±cient, KROCC)

Kendall 秩線性相關係數也衡量了算法預測的單調性. 
.

6、離出率(Outlier ratio, OR)

離出率表示超出主觀得分§2 倍標準差(存在多個觀察者的主觀得分時) 的樣本數百分比 
.

客觀評價方法:對重建圖像與原始圖像的差別進行定量的計算。

方法主要分爲兩類:相對整個圖像  、 與主觀視覺感知相關。

相對整個圖像

相對整個圖像的方法有:

  • 1:峯值信噪比PSNR(Peak Signal to Noise Ratio),
  • 2:結構相似性SSIM(structural similarity) ,
  • 3:均方誤差MSE(mean square error),
  • 4: RMSE(root mean square error),
  • 5: corss-correlation ;

------------------------------------------------------------

PSNR:

優點:算法簡單,檢查的速度快。

缺點:呈現的差異值與人的主觀感受不成比例。

-------------------------------------------------------------

SSIM:

優點:改進了PSNR的缺點。

缺點:結構相似性指標有其限制,對於影像出現位移縮放旋轉(皆屬於非結構性的失真)的情況無法有效的運作。爲解決此問題,另已發展出在小波域進行運算的結構相似性指標,稱作復小波結構相似性指標[8](英文:complex wavelet SSIMCW-SSIM)。

計算公式與原理:參考維基百科 詞條 結構相似性

源碼:opencv源碼可參考 opencv教程 : opencv的視頻輸入和相似度測量

--------------------------------------------------------------------------------------------------

 

--------------------------------------------------------------

MSE | PSNR | SNR | MAE 的 計算方法:

---------------------------------------------------

                    

缺點:

求得的結果常常與人們的主觀視覺效果不一致,這是因爲均方誤差、峯值信噪比和信號噪聲比等都是從整體上反映原始圖像和重建圖像的差別,並不能反映一幅圖像中少數像素點有較大灰度差別和較多像素點有較小差別等各種情況。顯然,客觀質量評價採用以上各式是對圖像中所有的像素點同樣對待的,不能全面反映人眼的視覺特性。

與主觀視覺感知相關

與主觀視覺感知相關的方法有: universal image quality index(UIQI),SSIM,VIF,FSI。(上述方法可在reference2中論文中找到)

 

============================================================================================================

方法的對比

針對於 image super-resolution 8種方法衡量圖片super-resolution之後的質量的對比

 

IFC > NQM > WPSNR > MSSSIM > SSIM > UIQI > PSNR >VIF 

最好的方法爲IFC

原因:

1:the IFC metric is designed to evaluate the loss of image information so that it extracts wavelet features with fo cus on high- frequency details rather than low-frequency comp onents. This me tric matches human p erception well as visual p erception is more sensitive to high-frequency details of SR images rather than low-frequency components. 

2:Second, the IFC metric is develop ed based on natural scene statistics using the Gaussian scale mixtures [37] and the BSD200 dataset contains numerous such images.


三、圖像質量檢測方式

本章只是簡單來說說傳統的,現在並不知道如何對圖像內容質量進行檢測的無監督辦法。 
.

1、全、半參考方法

圖像的某些特徵與原始圖像的相同特徵進行比較, 比如小波變換系數的概率分佈、綜合多尺度幾何分析、對比度敏感函數和可覺察灰度差異特徵 等. 其相應的應用領域包括視頻傳輸中的數字水印驗證、利用副通道進行視頻質量監控與碼流率控制等. 
.

2、盲圖像質量(Blind image quality, BIQ)

評價方法, 則完全無需參考圖像, 根據失真圖像的自身特徵來估計圖像的質量. 有些方法是面向特定失真類型的, 如針對模糊、噪聲、塊狀效應的嚴重程度進行評價; 有些方法先進行失真原因分類, 再進行定量評價; 而有些方法則試圖同時評價不同失真類型的圖像. 無參考方法最具實用價值, 有着非常廣泛的應用範圍. 
.

3、機器學習的圖像質量評價

(1)SVM + SVR 
算法則採用兩步方案, 先用SVM 進行失真類型識別, 進而對特定失真類型建立SVR 迴歸分析模型,我們稱之爲SVM + SVR 模型. 
(2)GGD 
Moorthy 和Bovik的盲圖像質量指數(Blind image quality index, BIQI) 分兩步對圖像進行評價, 先採用小波分解係數經廣義高斯分佈(Generalized Gaussian distribution, GGD) 模型擬合得到的參數作爲特徵, 由SVM 分類得到當前圖像屬於每個類的概率, 再採用SVR 對各個退化類型計算圖像質量指標值, 最後根據概率加權得到總的質量評價指標; 在後續的基於失真辨識的圖像真 
實性和完整性評價。 
.

4、基於概率模型的方法

這類方法首先建立圖像特徵與圖像質量之間的統計概率模型, 大多采用多變量高斯分佈描述概率分佈. 對待評價圖像, 提取特徵後根據概率模型計算最大後驗概率的圖像質量, 或根據與概率模型的匹配程度(如特徵間的距離) 估計圖像質量.

在德克薩斯大學奧斯汀分校的Mittal 等 提出的自然圖像質量評價(Natural image quality evaluator, NIQE) 算法中, 無需利用人眼評分的失真圖像進行訓練, 在計算其局部MSCN 歸一化圖像後, 根據局部活性選擇部分圖像塊作爲訓練數據, 以廣義高斯模型擬合得到模型參數作爲特徵, 採用多變量高斯模型描述這些特徵, 評價過程中利用待評價圖像特徵模型參數與預先建立的模型參數之間的距離來確定圖像質量

Abdalmajeed 和Jiao在對圖像進行局部MSCN 歸一化後, 基於韋伯分佈提取自然圖像統計特徵, 並以多變量高斯分佈描述它的概率分佈, 評時計算待評價圖像特徵與無失真圖像統計模型的距離作爲圖像質量評價度量. 根據概率建模是一種基於大量樣本的統計方法, 概率數學模型的選擇和樣本量的大小是影響性能的關鍵, 現有方法大都基於多變量高斯模型進行概率建模, 主要是爲了方便建模. 考慮到表徵圖像質量的特徵維度很高, 複雜的模型將需要更多的數據量, 這類方法只有當數據量較大時纔可能取得較好的效果。 
.

5、神經網絡的方法

這類方法先提取一定的圖像變換域或空間特徵, 再基於已知質量數據訓練一個神經網絡迴歸分析模型, 由圖像特徵預測圖像質量. 
Kang 等採用卷積神經網絡(Convolutionalneural networks, CNN) 將特徵提取和迴歸分析融入同一個網絡中, 網絡包括5 層, 圖像經局部MSCN歸一化後以32 £ 32 子塊輸入網絡, 第一層卷積層由50 個濾波器提取特徵, 第二層進行最大最小選擇, 後面兩層爲800 節點的全連接網絡, 最後一層爲單個節點輸出圖像質量。

Hou 等也採用具有5 層網絡結構的深度學習算法進行圖像質量評價,綜合特徵提取、分類、後驗概率計算等功能爲一體,由3 級小波變換細節特徵爲輸入, 訓練過程先採用受限波爾茲曼機(Restricted Boltzmann machine,RBM) 進行層間學習, 再採用反向傳遞算法進行精細調整. 這兩種算法的實驗結果均明顯優於其他無參考算法, 甚至在某些情況下優於全參考算法中較好的VIF

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章