PAD-Net: A Perception-Aided Single Image Dehazing Network

摘要: 在這項工作中,我們研究了在訓練端到端去霧神經網絡時用感知導出的損失函數(SSIM,MS-SSIM等)替換L2損失的可能性。客觀實驗結果表明,與現有技術的端到端去霧神經網絡(AOD-Net)使用L2損失相比,通過僅改變損失函數,我們可以在RESIDE數據集中設置的SOTS上獲得顯着更高的PSNR和SSIM分數。我們獲得的最佳PSNR爲23.50(相對改善率爲4.2%),我們獲得的最佳SSIM爲0.8747(相對改善率爲2.3%)。

簡介

由於存在空氣污染——灰塵,霧和煙霧,在室外環境中拍攝的圖像通常會包含複雜的,非線性的和數據相關的噪聲,稱爲霧,這會對許多高級計算機視覺任務提出挑戰,例如目標檢測和識別。以自動駕駛爲例,有霧或模糊的天氣會掩蓋車載攝像機的視野,並通過霧顆粒的光散射造成對象的對比度損失,爲自駕車任務增加了極大的困難。因此,去霧是一種非常理想的圖像恢復技術,以增強計算攝影和計算機視覺任務的更好結果。
早期的去霧方法通常需要額外的信息,例如通過比較同一場景的多個不同圖像來給出或捕獲場景深度[1,2,3]。雖然這些方法可以有效地增強有霧圖像的可見性,但是它們的易處理性受到限制,因爲在實踐中並不總是可獲得所需的附加信息或多個圖像。
爲了解決這個問題,旨在從觀察到的有霧圖像恢復基礎清晰圖像的單圖像去霧系統對於實際應用更加可行,並且近年來研究人員越來越關注這一方面。 傳統的單幅圖像去霧方法利用自然圖像的同步和靜態分析[4,5,6,7]。最近,基於神經網絡[8,9,10]的去霧算法已經顯示出最先進的性能,其中AOD-Net [10]具有訓練端到端系統的能力,同時在多個評估指標上優於其他系統。AOD-Net最大限度地降低了有霧圖像和清晰圖像之間差異的L2範數。然而,L2範數受到一些已知的侷限性的影響,這些侷限性可能使AOD-Net的去霧圖像輸出遠離最佳質量,特別是考慮到它與人類對圖像質量的感知的相關性[11]。另一方面,L2範數隱含地假設白高斯噪聲,這是一種過於簡單的情況,在一般的除霧情況下無效。另一方面,L2獨立地處理噪聲對圖像的局部特徵(例如結構信息,亮度和對比度)的影響。然而,根據[12],人類視覺系統(HVS)對噪聲的敏感性取決於視覺的局部特性和結構。
結構相似性指數(SSIM)被廣泛用作從更感知的角度評估圖像處理算法的度量。此外,它還具有差異性,可用作功能。因此,在這項工作中,受益於[13],我們建議使用與人類感知相匹配的損失函數(例如,SSIM [12],MS-SSIM [14])基於AOD-Net開發的去霧神經網絡的主要目標[10]]。我們稱之爲感知輔助單幅圖像去霧網絡:PAD-Net。我們假設即使不改變神經網絡架構,PAD-Net也會比基線AOD-Net帶來更好的去霧性能。

相關工作

在本節中,我們簡要總結了之前工作中提出的單幅圖像去霧方法,並比較了它們的優點和缺點。然後,我們提出了感知引導的端到端去霧網絡,與基線AOD-Net相比,提高了學習性能。
大氣散射模型已廣泛應用於以前的去霧工作[15,16,17]:
I(x)=J(x)t(x)+A(1-t(x)),    (1)
其中x是有霧圖像中的像素,I(x)是有霧圖像,並且J(x)是要恢復的清晰圖像。參數A表示全局大氣光,t(x)是介質傳輸圖,表示爲:
t(x)=exp⁡(-βd(x)),    (2)
其中β是大氣的散射係數,d(x)表示物體和相機之間的距離。
去霧算法的成功的關鍵是恢復傳輸圖t(x),大多數去霧方法通過物理接地的先驗或數據驅動的方法對其進行了聚焦。
傳統的單幅圖像去霧方法通常利用自然圖像先驗並進行靜態分析。例如,[4,5]證明暗通道先驗(DCP)對於計算傳輸圖是有用的。[6]提出了一種顏色衰減先驗,併爲有霧圖像的場景深度創建了一個線性模型,以允許一種有效的監督參數學習方法。[7]提出了一種基於觀察的非局部先驗,即給定聚類中的像素 通常是非局部的,清晰圖像中的每個顏色簇都成爲RGB空間中的霧濃度線。
最近,在許多其他計算機視覺任務中證明成功之後,CNN已經應用於去霧。[9]利用多尺度CNN(MSCNN)預測整個圖像的粗尺度整體傳輸圖並在本地重新細化。[8]提出了DehazeNet,一種可訓練的傳輸圖估計器,並結合估計的全球大氣光恢復清晰的圖像。這兩種方法都首先從CNN學習傳輸圖,並用單獨計算的大氣光恢復無霧圖像。此外,[18]提出了一個完整的端到端去霧網絡名稱AOD-Net,它將有霧圖像作爲輸入並直接生成清晰的圖像輸出。
在這個項目中,我們採用了[10]中提出的變換大氣散射模型和卷積網絡結構,旨在通過利用感知驅動的損失函數來改善其性能。

提出的工作

在本節中,解釋了提議的PAD-Net。我們首先介紹了基於它的變換大氣散射模型和去霧網絡結構設計,我們採用[10]中的工作來促進端到端單圖像去霧。然後,我們討論將在我們的項目中探索的感知驅動的損失函數。

端對端去霧網絡設計

基於大氣散射模型(1),我們網絡生成的清晰圖像可以表示爲:
J(x)=K(x)I(x)-K(x)+b, 其中K(x)=(1/t(x)  (I(x)-A)+(A-b))/(I(x)-1).            (3)
其中b是恆定偏差,其默認值設置爲1。這裏,核心思想是將(1)中t(x)和A中的兩個參數統一爲一個公式,即K(x),並直接最小化重建圖像像素域中的誤差。由於K(x)取決於輸入I(x),因此我們構建了一個輸入自適應深度模型,並通過最小化其輸出J(x)和地面實況清晰圖像之間的重建誤差來訓練模型。
因此,所提出的深度神經網絡由兩個主要部分組成:用於評估(3)中具有超卷積層的K(x)的K估計模塊,以及隨後通過逐元素計算產生恢復清晰圖像的圖像生成模塊。PAD-Net的整個網絡圖如圖1所示。
在這裏插入圖片描述
如圖1所示,五個卷積層採用不同的濾波器尺寸實現,以捕獲輸入有霧圖像的多尺度特徵,並與中間層連接,以補償卷積過程中的信息丟失,這受到[8,9]的啓發。然後將來自網絡的輸出圖像(即,(3)中的J(x))與損耗層處的地面實況清晰圖像進行比較,以計算用於反向傳播的誤差函數。這種端到端的去霧網絡可以很容易地與其他深度模型嵌入,作爲高級計算機視覺任務的一個階段,例如目標檢測和目標分類。
值得一提的是,繼承自AOD-Net [10]的PAD-Net是一種輕量級網絡,只有三個卷積核。事實上,如果我們分析大氣散射模型((1)和(2)),我們可以發現模型中只有三個未知參數,β,A和d(x)。 在我們採用的基準RESIDE數據集[18]中,β和A是成對選擇的常數,深度圖d(x)可以從深度數據集(如NYU2 [19])計算或用卷積神經網絡估計[20]。因此,去霧模型的複雜性相對較低。鑑於這一觀察結果,在我們的工作中,我們在AOD-Net中保持過濾器數量的設置,以便在獲得良好學習成果的同時促進快速訓練。

感知損失函數

在損耗層,將研究不同的誤差函數以優化圖像去霧結果,並且將比較結果。在以下部分中,我們將介紹將在項目中檢查的誤差度量標準。我們展示了它們的關鍵特性以及如何計算它們的反向傳播步驟的導數。這些損失函數將單獨或聯合在損耗層實施,詳見第4節。

L2損失

由於其簡單性和凸性,通常選擇誤差的L2範數作爲圖像去霧的損失函數[10]。L2規範懲罰大錯誤,但不管圖像中的底層結構如何,它都更容忍小錯誤。結果,它有時會在恢復的圖像上產生可見的斑點僞影。另一方面,HVS對無紋理區域中的亮度和顏色變化更敏感[21]。P區域的損失功能可以寫成:
L^l2 (P)=1/N ∑_pϵP▒(x(p)-y(p))^2 ,     (4)
其中N是P區域像素的數量,p是像素的索引,x(p)和y(p)分別是生成圖像和地面實況圖像的像素值。由於∂L^l2 (P)/∂q= 0,∀q≠ p,對於區域中的像素p,導數可以表示爲:
(∂L^l2 (P))/∂x(p) =x(p)-y(p).    (5)
注意,即使L^l2 §是整個區域的函數,導數也會針對區域中的每個像素進行反向傳播。

L1誤差

研究L1誤差是爲了減少L2引入的僞像並帶來不同的收斂特性。與L2範數不同,L1範數不會過度懲罰大錯誤。L1的誤差函數爲:
L^l1 (P)=1/N ∑_pϵP▒|x(p)-y(p)| ,     (6)
L1的導數也很簡單。與L2範數類似,區域中某個像素的導數僅取決於其自身值與同一位置的地面實況值之間的差異,並且不依賴於同一區域中的其他像素。
(∂L^l1 (P))/∂x(p) =sign(x(p)-y(p)).    (7)
L^l1 §的導數不定義爲0。但是,如果誤差爲0,我們不需要更新權重。 所以這裏我們使用sign(0)= 0的約定。

SSIM

考慮到圖像去霧是一種真實世界的應用程序,可以再現視覺上的清晰圖像,因此像SSIM這樣的感知動機度量值得研究。SSIM是基於感知的模型,其將圖像降級視爲結構信息中的感知變化,同時還結合重要的感知現象,包括亮度掩蔽和對比度掩蔽術語。繼承(4)中x(p)和y(p)的定義,讓μ_x,σ_x^2
和σ_xy爲x的均值,x的方差,x和y的協方差。近似地,μ_x和σ_x^2可以被視爲x的亮度和對比度的估計,並且μ_xy根據它們一起變化的趨勢來測量x和y的結構相似性。然後,像素p的SSIM定義爲:
SSIM(P)=(2μ_x μ_x+C_1)/(μ_X2+μ_Y2+C_1 )∙(2σ_xy+C_2)/(δ_X2+δ_Y2+C_2 )=l(p)∙cs(p).    (8)
其中平均值和標準偏差用帶有標準偏差σ_G的高斯濾波器G_σG計算,l(p)和cs(p)分別測量亮度的比較,以及與像素p處的x和y之間的結構相似性的組合對比度。然後可以將SSIM的損失函數定義爲:
L^SSIM (P)=1/N ∑_pϵP▒〖1-SSIM(p).〗    (9)
注意,(8)表示SSIM(p)的計算需要查看像素p的鄰近,因爲它涉及像素上的高斯濾波器G_σG的平均和標準偏差。這意味着無法在P的某些邊界區域計算LSSIM(p)及其導數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章