醫學圖像質量評價方法SSIM

醫學圖像質量評價中的梯度加權SSIM探說

來源:http://pklunwen.com/
 

  摘要:Zhou Wang等人提出了著名的圖像客觀質量評價方法:結構相似度(SSIM),其理論基礎是人眼視覺系統能高度自適應地提取場景中的結構信息,大量實驗證明SSIM的評價性能多優於PSNR(或MSE)。然而,由於視覺掩蓋效應的影響,且SSIM規避了HVS底層視覺特性,直接導致SSIM的評價常與主觀評價不符。在深入研究SSIM算法的基礎上,根據人眼視覺的掩蓋效應之特性,提出圖像中不同區域的失真程度引導的權值設計方案:基於梯度加權的SSIM圖像質量評價方法(GWSSIM)。實驗結果表明,GWSSIM的圖像質量評價準確性高於PSNR和SSIM,尤其適用於醫學圖像。
  
  關鍵詞:結構相似(ssIM);梯度加權;視覺掩蓋效應
  
  1 引言
  數字圖像處理技術的迅速發展爲人類帶來了巨大的社會經濟效益,對自然科學甚至人類社會的發展具有深遠的意義” 。數字圖像處理技術已經滲透到各個領域。隨着現代大型醫療成像技術的飛速發展,新的成像方法不斷涌現。CT、磁共振成像(MRI)、放射性核素成像、超聲成像、數字減影血管造影(DSA)、正電子發射斷層成像(PET)、單光子發射計算機斷層成像(SPECT)和數字x線成像等多種先進的影像技術逐步成熟併成功地用於臨牀,使得能以圖像的形式得到有關人體健康的信息。醫學圖像以其直觀準確的特點已成爲醫學診斷和治療中的關鍵環節之一,而且也在治療計劃的設計、外科手術的評價、放射治療的評價和康復器械的研製等方面發揮巨大作用。作爲醫學診斷的依據,醫學圖像的質量是至關重要的,高質量的醫學圖像將減少診斷的假陽性與假陰性。
  
  圖像質量是指人們對圖像視覺感受的評價,也是指圖像提供給觀察者的信息度。因而醫學圖像質量的評價變成一個廣泛而基本的問題。對於醫學圖像處理系統而言,其信息的主體是圖像,衡量這個系統的主要指標就是圖像質量。新的醫學圖像處理方法層出不窮,比如在醫學圖像壓縮技術中,評價壓縮算法的優劣以及算法的選取,需要在壓縮率、圖像質量、執行效率等多種性能指標間權衡;在醫學圖像的僞影校正消除、去噪、優質重建等醫學圖像增強系統中,主要考慮使圖像的視覺顯示質量有所改善;在圖像處理過程前後,總會引起圖像質量的一些變化,如何評價一幅經過處理的醫學圖像質量,如何評價某個醫學圖像處理算法的優劣等是人們關心的問題。客觀圖像質量評價就是對圖像處理技術前後圖像質量變化的一種度量,醫學圖像質量客觀評價現在還沒有統一的完善的方法。因此醫學圖像質量評介的研究是醫學圖像信息工程的重要技術之一。
  
  醫學影像成像過程中包括患者、成像設備、系統操作者、成像算法以及傳輸存儲等,每個步驟都會影響數字醫學圖像的質量。對於醫學圖像質量的評價,很多研究者已經在醫療成像儀器和操作層面進行了研究,而對於經過醫學圖像處理技術處理後的圖像質量如何進行客觀評價較少論述,目前主要採用峯值信噪比(PSNR)或主觀感受來進行醫學圖像質量的客觀評價 。本文主要研究經過醫學圖像處理技術處理後的醫學圖像質量評價,爲醫學圖像處理技術提供參考。從基本方法上說,醫學圖像質量評價和普通圖像評價是相同的,可以分爲主觀評價方法和客觀評價方法兩大類。
  
  醫學圖像的普通主觀評價沒有專門的標準,通常是參考普通圖像的主觀評價標準,就是讓觀察者(醫生)根據一些事先規定的評價尺度或自己的經驗,對待測醫學圖像按視覺效果進行質量判斷,並給出質量分數。主觀評價方法充分考慮了觀察者(醫生)對圖像的理解效果,符合應用的實際情況。醫學圖像是爲臨牀診斷服務的,所以主觀評價方法是較合理的醫學圖像質量評價方法。但是這種方法需要組織觀察者(醫生)多次重複實驗,耗時長、成本高。同時,主觀評價方法易受到觀察者知識背景、觀測目的和環境等影響,穩定性和可移植性差,且難以用數學模型表達,因此無法廣泛推廣應用。
  
  醫學圖像的客觀質量評價方法依據數學模型給出的量化指標衡量醫學圖像質量,彌補了主觀評價方法的不足,具有成本低、易於實現等特點,已經成爲醫學圖像質量評價研究的重點,並被廣泛應用到醫學圖像信息工程領域。目前最常用的客觀質量評價方法是均方誤差(Mean Square Error,MSE)和峯值信噪比<氏ak Sighted Noise Ratio,PSNR),它們都是基於統計特性的客觀圖像質量評價方法,具有計算簡單、物理意義清晰等優點。但是它們僅僅是對像素點之間絕對誤差的純數學統計,把圖像中所有像素點同樣對待,沒有考慮到像素點間的相關性和人眼視覺系統的感知特性,評價結果不能真實反映圖像的視覺感知質量 。隨着人們對人類視覺系統的進一步認識,許多研究者通過模擬HVS的生理特徵提出改進的客觀評價模型,這些模型集中在如何提高模型輸出與主觀評價結果的相關性。
  
  但是,HVS是一個極爲複雜的系統,還無法建立精確、統一的模型,並且對HVS組成結構的模擬通常會導致算法複雜、運算量大。這些算法的評價性能與被廣泛採用的PSNR和MSE等簡單誤差標準相比並沒有顯著的優勢 。醫學圖像的成像原理和組織本身的特性差異,使圖像的形成常受到諸如噪音、場偏移效應、局部體效應和組織運動等的影響,最終使得醫學圖像與普通圖像相比起來不可避免地具有模糊和不均勻性等特點。並且醫學圖像質量是以符合醫學診斷這個高要求爲根本準則,醫學圖像本身所具有的複雜性以及多樣性,使得醫學圖像質量評價至今仍沒有獲得圓滿解決。因此,發展更加符合人眼視覺系統(Human Visual System,HVS)特性的醫學圖像質量評價方法,對於監控和調整醫學圖像質量、檢驗和優化醫學圖像處理算法意義重大。
  
  目前,最受關注的圖像質量評價方法是Zhou Wang等人提出的結構相似度(Structural Simil~ity,ssIM) ,認爲人類視覺系統高度適應自然視覺系統,而人眼視覺系統能高度自適應地提取場景中的結構信息。相關實驗結果表明,該算法比PSNR指標更符合人類的視覺特性,而且算法簡單,已經應用到醫學圖像處理中。
  
  2 基於圖像結構相似度(ssIM)的質量評價
  Zhou Wang等人利用圖像像素間的相關特性,提出了圖像結構信息相似度的概念,認爲HVS的主要功能是從視野中提取圖像結構信息,並提出了一種新的圖像質量客觀評價方法:圖像結構相似度(ssIM)。通過感知圖像結構信息的改變來考慮圖像的失真,它比較兩幅圖像的相似度,而不是差值,獲得圖像的相似結構映像,從而得到客觀預測質量分,因此用對結構信息的度量作爲圖像感知質量的近似,如果結構相似則可認爲前後圖像質量變化不大。
  
  3 結構相似度的缺陷
  自然圖像信號是高度結構化的,相鄰像素之間往往存在很強的相關性,這些相關性提供了關於物體結構描述的重要信息。一種理想的圖像評價算法應該度量圖像結梅信息的失真程度,因爲這些結構特徵所包含的信息量最大,並且人類視覺系統最爲關注。根據文獻的論述,結構相似度與過去基於誤差的質量評價方法相比,是一種全新的質量評價思想。
  
  SSIM從高層視覺出發理解圖像質量,避免了底層視覺建模的複雜性,也避免了底層HVS模型計算複雜性等,SSIM以一種簡潔的方式較好地評價了圖像質量。但是,SSIM並沒有完全解決客觀評價與主觀評價不完全相符的問題,首先,SSIM的簡單線性建模很難描述高層視覺對圖像結構信息的複雜處理;其次,對於HVS底層視覺特性的忽視,導致ssnvHg4f~多時候與主觀評價不同。經過實驗分析,發現SSIM對於交叉失真類型、失真程度嚴重的圖像時準確率仍然較低,對模糊圖像的客觀評價問題也一直沒有得到較好的解決。分析SSIM算法,由於結構比較因子x(x,y)的值範圍是卜1,1],因此SSIM會造成結果爲負值的不合理情況。
  
  從式(1)的協方差公式可以看出:白噪聲失真圖像在噪點處其(x。一 )(y 一 多爲負值,也就導致了SSIM對此類圖像評分整體過低,而對於高斯模糊類圖像剛好相反,由於高斯模糊失真圖像協方差值較高,導致了SSIM對此類圖像評分整體過高,造成SSIM評價方法與圖像失真類型有較高的相關性。
  
  圖像不同區域、不同內容的失真對人眼主觀感受的影響是不一樣的。人眼對於圖像邊緣紋理區域的關注度要大於平坦區域,同時圖像邊緣紋理區域反饋了圖像的大部分信息,因此模糊相對於噪聲對於圖像的影響更大。SSIM沒有考慮這些基本的HVS特性,在評價高斯模糊、白噪聲等失真圖像時結果不符合主觀感受。
  
  通過對人眼視覺現象的觀察,結合視覺生理、心理學的研究成果,人們發現了各種視覺掩蓋效應。當一個原本可感知的激勵,由於另一個可感知的激勵的存在變得不容易被感知,這種激勵之間的相互作用的現象就是掩蓋效應。兩個信號具有相似或者相同的空間頻率、方向和位置的時候產生對比度掩蓋效應,不容易發現失真,或者是熵掩蓋效應,即一個失真信號容易在圖像平滑區域被察覺,而在高頻成分豐富的區域可以被覆蓋。由於視覺掩蓋效應的存在,在圖像中有些失真對圖像總體質量不會造成影響,而另一部分會被強化而使圖像質量嚴重退化。比如,噪聲對圖像平坦區域的影響要大於圖像邊緣紋理區域,而模糊對於邊緣紋理區域的影響明顯大於平坦區域。所以,在圖像質量評價研究工作中,應對視覺掩蓋效應進行重點關注。在圖像質量評價中應當利用人眼的視覺掩蓋效應,對不同情況進行不同處理,從而得到更趨近於主觀感覺的評價結果。針對SSIM的缺點,許多研究者提出不同的改進方法。
  
  文獻利用圖像梯度信息來替換SSIM中的評價因子,一定程度上規避了圖像失真類型對評價結果的影響。文獻提出加權結構相似度的策略,對圖像不同區域賦予不同權重,獲得了一定效果。本文通過對SSIM三個評價因子分解實驗,認爲亮度比較因子l(x, )能夠反映韋伯(Weber)定律,同時能夠在亮度變化值超過可見性閾值時定量地反映其變化。SS1M中採用的對比度比較因子爲均方根對比度,相較於其他對比度,能更好地預測複合光柵圖像與隨機噪聲模板圖像的主觀對比度n 。SSIM 中最重要的因子是結構比較因子,是整個SSIM的核心思想,但是結構比較因子難以完整準確地建模人眼的視覺特性,尤其是對於各種視覺掩蓋效應不能體現。基於此,提出了基於梯度加權結構相似的醫學圖像質量評價方法(GWSSIM)。
  
  4 基於梯度加權結構相似的醫學圖像質量評價方法
  4.1 權值的確定
  Ran提出了符合人的視覺特性的圖像三構件模型u 1,即圖像由邊緣、紋理和平坦區域三部分構成,其中,邊緣起決定性的作用,紋理次之,平坦區域只起陪襯作用。梯度信息能較好地反應圖像的邊緣紋理信息,圖像邊緣處梯度較大,平坦區域的梯度較小。因此本文將梯度大小作爲權值判斷條件之一,梯度大則權值大。
  
  對於圖像的每一像素點M,梯度方向是在M點處變化率最大的方向,其模也正好是這個最大變化率的數值。設g ,Y)表示梯度的大小。顯然,g x, 是一個標量函數,且總爲正值。g ,j,)不爲零時,對應像素點與其鄰域有灰度變化,存在邊緣紋理;g ( , 越大,該像素點的邊緣紋理越清晰,圖像對比度越好。參考圖像梯度小於 的圖像區域可以認爲是平坦區域,噪聲的影響大於模糊,而梯度大於 的圖像區域可以認爲是邊緣紋理區域,噪聲的影響小於模糊,根據參考圖像和待測圖像的梯度差判斷定義權值函數。
  
  雖然人的視野非常寬,但是注意力集中的範圍卻很小,只有被中心凹所感知的小區域爲人的注意力集中地帶。因此,爲了準確觀察周圍的環境,眼睛需要不停地運動。在評價圖像質量時,將一個大的圖像分成1 1×1 1像素大小的重疊或不重疊的小圖像,然後分別進行結構相似度的計算。基於此,爲方便計算,對圖像權值的計算也直接利用這種圖像的分割。利用每個小圖像的梯度大小均值計算小圖像的權值,最後計算出整個待測圖像的質量值。
  
  4.2 結構相似圖像質量評價方法的改進
  爲符合人類對圖像質量的感官評價,認爲圖像質量客觀評價模型應和主觀評價一樣滿足邊界性,即:0 SSIM(x,Y) 1,當且僅當X=y時,SSIM(x,y)=1。
  
  4.3 基於梯度加權結構相似的評價模型
  由於SSIM受失真類型較大,爲了去相關性,採用文獻的思想,利用梯度信息替代SSIM中的結構比較因子。在本文中,採用Sobel算子對圖像進行梯度的計算,求出參考圖像 和待測圖像y的每一像素的梯度大小,利用得到的圖像梯度大,j、信息,計算出權值矩陣。
  
  5 實驗結果及分析
  文獻認爲客觀評測值與主觀測量值之間存在着非線性關係,爲了能更準確反映算法的性能,需要對客觀評測的數據進行非線性迴歸擬合。本文采用文獻中的五參數Logis—tic函數進行迴歸擬合。按照VQEG對模型的檢驗標準 “,本文選用四個常用客觀參量作爲評估這些方法的客觀指標:非線性補償後的模型預測質量值和DMOS間的線性相關係數(Correlation Coeficient,CC)、均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)和離散率(Outlier Ratio,OR)。相關係數(cc)表示的是客觀評分在非線性迴歸條件下對主觀評分的估計值和主觀評分(DM0s)的線性相關性,它衡量了客觀評價方法的估計精度,CC值越高,說明客觀評價方法與DMOS的相關性越好。MAE和RMSE表示客觀評分在非線性迴歸條件下對主觀評分的估計值和主觀評分DMOS之間的誤差,值越小說明該客觀評價方法越好。離散率(0R)是表示客觀評分對主觀評分的估計值和主觀評分的一致性的參量,值越小表示客觀評價方法越好。爲驗證本文算法,進行了大量實驗,比較了本文算法對PSNR、MSSIM的性能,同時也對文獻和文獻做了實現比較。MSSIM的評價結果是使用Zhou Wang提供的Matlab程序 得到的。
  
  5.1 LIVE圖像質量評價數據庫的實驗結果比較
  由於沒有較權威的醫學圖像庫用於測試圖像質量客觀評價方法,不失一般性,本文仿真實驗採用了美國TEXAS大學圖像視頻工程實驗室提供的LIVE圖像質量評價數據庫第二艘 。該庫給出了所有失真圖像的“主觀差異評分”DM0s(Dif_ference Mean Opinion Scores),描述的是主觀評分MOS(MeanOpinion Scores)和滿分100分的差值,因此DMOS越大表示圖像質量越差,DMOS越小表示圖像質量越好,且DM0S的取值範圍爲f0,lOO]。
  
  去掉未失真的圖像,對失真的圖像庫779幅圖像的實驗結果,給出了評價這五種方法優劣的客觀指標,列出了五種客觀評價方法(PsNR、MSSIM、文獻、文獻和本文算法)相對於主觀評分的散點圖。可以看出,PSNR的預測質量值與DMOS相關性最差,本文提出的算法是最爲突出的,除了OR外,各項指標都明顯優於其他算法。
  
  5.2 TID2008圖像質量評價數據庫的實驗結果比較
  爲進一步驗證本文算法的性能,評估算法的普適性,在新的圖庫上進行了圖像的仿真質量評價實驗。TID2008c 是歐洲科研機構最近推出的—個用於全參考圖像質量評價的圖庫。文獻認爲LIVE2圖庫失真類型單一,無法滿足充分評估圖像質量評價方法的性能。特別是LIVE2過高評價了VIF的性能,忽視了CSF和對比度掩蔽的效果 針對上述問題,TD2008提供了多達17種失真類型的圖像,這些失真圖像能有效反映HVS的各方面特性,並充分模擬圖像處理中出現的各種失真情況,更接近醫學圖像的情況。
  
  TID2008的失真圖像由25幅原始參考圖像經歷17種失真產生,每種失真的強度又有4個等級,共形成1 700幅失真圖像。通過主觀測試,TID2008提供了所有失真圖像的主觀分MOS,作爲衡量客觀評價方法的標準。對TID2008失真的1 700幅圖像的實驗結果,給出了評價這五種方法優劣的客觀指標,圖3列出了五種客觀評價方法(PSNR、MSSIM、文獻、文獻和本文算法)相對於主觀評分的散點圖。可以看出,PSNR的預測質量值與DMOS相關性最差,文獻的預測質量值與DMOS的相關性不如LIVE圖像庫,本文提出的算法是最爲突出的,除了OR#b,各項指標都明顯優於其他算法。
  
  6 在醫學圖像上的應用
  爲更好地檢驗MSSIM和本文的改進算法在醫學圖像上的應用,使用醫學圖像做了進一步的仿真實驗。來自於哈佛大學的The Whole Brain Atlas圖像庫 ,圖幅大小爲256像素~256像素。經過仿真模糊(高斯模糊和運動模糊)和加噪(高斯噪聲和乘性噪聲)等失真處理。分別對失真圖像利用峯值信噪比(PSNR)、結構相似度(MssIM)和本文算法進行客觀評價。從評價結果可以看出MSSIM和本文算法比PSNR更符合人眼視黨感受。MSSIM的評價結果是使用Zhou Wang提供的Matlab程序 得到的。
  
  7 結論
  本文深入研究了SSIM算法,並對其在醫學圖像上的應用做了初步探討。由於視覺掩蓋效應的存在,圖像不同區域、不同內容的失真對人眼主觀感受的影響是不一樣的,有些失真對圖像總體質量不會造成影響,而另一部分會被強化而使圖像質量嚴重退化。SSIM的簡單線性建模很難描述高層視覺對圖像結構信息的複雜處理,對於HVS底層視覺特性的忽視,導致SSIM評價很多時候與主觀評價不同。因此SSIM算法在{乎價模糊失真圖像或交叉失真類圖像時準確性較差,由於醫學圖像的特點,SSIM應用到醫學圖像上的質量評價效果也不夠好。本文提出的基於梯度加權結構相似的圖像質量評價方法(GwssnvU,充分考慮了邊緣和紋理的決定性作用,並考慮視覺掩蓋效應的影響。利用圖像梯度信息建模圖像結構,充分利用梯度信息,減低了評價模型與失真類型的相關性。實驗結果表明,本文算法GWSSIM 準確性明顯高於PSNR和SSIM,對於交叉失真的評價基本符合人眼主觀感受。目前,人眼視覺特性仍沒有被充分理解,特別是人眼視覺心理特性還難以用簡單的解析式進行定量描述,因此,圖像質量評價還有待深入研究。會繼續利用最新的數學工具研究更好的符合HVS特性的圖像質量評價方法,並且對圖像質量評價方法在醫學圖像上的應用做進一步的研究。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章