論文筆記(七):DFS--Learning of Image Dehazing Models for Segmentation Tasks

Abstract

爲了評估它們的性能,現有的除霧方法通常依賴於所產生的距離測量形象及其相應的基本事實。儘管能夠產生視覺上良好的圖像,但是使用基於像素或甚至感知的度量通常不能保證所產生的圖像適合用作諸如分割的低級計算機視覺任務的輸入。爲了克服這個弱點,我們提出了一種新穎的端到端圖像去霧方法,適合用作圖像分割程序的輸入,同時保持生成圖像的視覺質量。受Generative Adversarial Networks(GAN)成功的啓發,我們建議通過引入鑑別器網絡和評估去噪圖像的分割質量的損失函數來優化發生器。此外,我們利用補充損失函數來驗證所生成圖像的視覺和感知質量是否在朦朧條件下得以保留。使用所提出的技術獲得的結果是吸引人的,當考慮在模糊圖像上的分割算法的性能時,與現有技術方法的有利比較。

Introduce

用於分割的圖像經常遭受惡劣天氣條件,包括霧,雪和雨。如今,深度學習(DL)技術廣泛用於執行分段任務。它們需要大量的訓練數據來覆蓋不同的情況,包括噪聲圖像,以便正確地推廣分割任務。然而,目前可用的數據集不能保證其訓練數據中具有足夠的代表性或甚至存在某些氣象條件(例如,hazy)。因此,使用模糊圖像測試模型可能會妨礙低級計算機視覺算法(如分割[1])的性能,即使已知該算法在各種情況下都很強大。因此,在haze條件下從退化觀察中恢復圖像是一種有用的預處理步驟,可以提高分割效果。在文獻中已經廣泛研究了幾種去霧技術,其中大多數是基於圖像退化的物理模型,該問題被簡化爲估計透射圖[2]。通過使用模型(例如,暗信道先驗[3])或通過一些學習方法(例如,dehazenet [4])來進行這種估計。其他方法不假設物理模型並且嘗試基於生成模型(即,GAN)構建用於霧霾去除的端到端系統,並且直接從模糊的模式恢復原始圖像(例如,[5,6])。

通常,僅根據一些經驗測量來評估除霧的性能。例如,我們注意到結構相似性指數(SSIM)峯值信噪比(PSNR)[7]是文獻中用於評估去噪方法有效性的最廣泛使用的測量方法。 SSIM測量兩個圖像之間的相似性,同時考慮邊緣的相似性。 PSNR是信息傳輸質量的指標。然而,儘管DL算法在SSIM和PSNR方面的去霧方面表現不錯,但無法保證它們能夠產生適合用作分割方法輸入的圖像[8]。該問題僅在文獻中發現的少數論文中得到解決,這些論文旨在降低霧度以提高分割質量。在Li等人 [9],進行單朦朧圖像的去霧算法,然後使用Fast-RCNN進行微調以進行檢測,並對生成的圖像上的檢測精度進行了改進。Sakaridis等人[10]提出了一種用於分割模糊場景的端到端系統,僅對霧模型數據集進行訓練,結果表明該模型能夠很好地對朦朧圖像進行分割。所提出的模型與Li等人不同。 [9]通過在訓練過程中增加分段損失,而不僅僅是對分段進行微調,而且與Sakaridis等人不同。 [10]作爲清晰圖像分割的預處理步驟,而不是模糊圖像的端到端分割技術。最近,劉等人 [11]提出了一種深度神經網絡解決方案,它將圖像去噪與計算機視覺任務相匹配,並使用聯合損耗通過反向傳播僅更新去噪網絡。然而,它假設在訓練期間僅將具有零均值的獨立且相同分佈的高斯噪聲添加到原始圖像作爲噪聲輸入圖像,這不反映我們在現實世界問題中發現的通常噪聲。在本文中,我們的目標是學習如何處理與自然僞影(即霧霾)相關的圖像形式。

本文的主要貢獻是一種新的基於DL的去霧系統,旨在考慮訓練期間的分割性能,提高性能。在報告實驗和結果(第3節)之前,我們繼續詳細說明所提出的方法(第2節),驗證所提出的技術對圖像有效去霧的能力,可用於圖像分割。

網絡架構

We are proposing a model derived from the Pix2Pix architecture [13] for dehazing images, with the generator part of the CGAN composed of a downsampling, a residual, and an upsampling block structure inspired from Johnson et al. [14]. The loss function of the generator for single image dehazing is:

L generator = L_{GAN} + λ 1 L_{pixel} + λ 2 L_{precept}

其中L_{GAN}L_{pixel}L_{precept}本身是任務特定元素的損失函數,\lambda _{i}在線性組合中加權相對影響。L_{GAN}是Isola等人的損失函數。 [13]用於生成虛假圖像。 L像素是基於其各個像素值的去霧(例如真實圖像)和僞去霧圖像的地面實況之間的重建損失,允許網絡產生更清晰的圖像。 L_{precept}是用於在發生器的輸出中保留圖像的重要語義元素的感知損失。 實際上,[5,6,14]顯示,感知損失的使用依賴於神經網絡的高級表示特徵(這裏使用了凍結的VGG-16 [15])來提高輸出質量。在真實圖像和假的去除之間進行比較。值得一提的是,保留了Pix2Pix原始公式中提出的相同GAN鑑別器損失函數

分割的質量取決於輸入質量,輸入質量不僅取決於採集設備,還取決於霧霾或其他天氣條件等環境條件。 因此,從輸入圖像中去除這些僞像(例如,通過去霧)可以對分割質量產生影響。 通過使用以下損失函數來訓練CGAN生成器來執行用於分割目的的去霧方法(在本文中稱爲DFS):

L generator = L_{GAN} + λ 1 L_{pixel} + λ 2 L_{precept} + λ 3 L seg

與Eq1相比。 在圖1中,它增加了一個新的損耗分量Lseg,它評估了除霧對分割性能的影響。所用DFS模型的結構如圖1所示。發生器網絡接收帶有霧度作爲輸入的圖像並給出 作爲輸出的去霧圖像的候選者。與單圖像去霧模型類似,通過LGAN,L像素和L感知計算發生器損耗(等式2)。通過將生成器的輸出(即,去霧圖像)放入分割網絡來計算分割損失Lseg。然後使用L2損失將所獲得的分割圖與地面實況分割圖進行比較。基本上,該模型同時嘗試在保留甚至提高分割性能的同時儘可能地去除霧霾。

與文獻相比,紐約大學深度霧化數據集上的去霧模型的結果。 DCP代表暗通道先前[3],彩色衰減前置CAP [18],非局部彩色先前[19],多尺度CNN的MSCN [20],DehazeNet的DN [4],CycleGan的CG [21],DDN for Disentangled Dehazing Network [6],而Hazy是原始的模糊圖像。 在我們的實驗中已經產生了用星號(*)標記的結果,而楊等人報道了其他未標記的結果。[6]。

3 Experiments and Results

3.1 Single Image Dehazing

3.1.1 Dehazing Dataset

D-Hazy數據集用於我們的實驗[16]。D-Hazy包含1449對合成模糊圖像,基於NYU深度數據集[17],由室內圖像及其相應的深度圖組成。 使用物理模型從深度圖計算霧度,提供真實的霧度。 數據集在訓練和測試分區之間拆分80%/ 20%

3.1.2 Results for single image dehazing

batch size optimization epoch img_size λ1 λ2
16 Adam 200 256x256 10 10

擬議的除霧模型使用batch size爲16和Adam作爲optimization進行了200個epoch的訓練。每個圖像的大小resize爲256x256。對於發電機損耗函數(公式1),將λ1和λ2設置爲10,遵循通過驗證集上的網格搜索獲得的結果,該結果是通過測試λ在1和50之間的10個值而得到的。所提出的技術實現了17.89 dB的PSNR,相比現有技術[15]爲15.55 dB,SSIM爲0.744,相對於0.77,光衰減爲3.4%。表1顯示了所提出的模型與多個除霧模型的結果,包括實際的最先進的解纏結的去霧網絡[6]。因爲我們論文中使用的測試集與Yang等人使用的測試集不同。 [6],我們需要用我們的測試集測試出現在[6]結果中的算法。根據表1中的結果,用我們的測試集(用*標記)獲得的結果表明它與Yang等人使用的結果具有相似的難度,甚至可能更難。 [6],DCP和CycleGan在我們的測試裝置上表現不佳。我們的結果還憑經驗證明了所提出的模型從單個圖像中去除霧度的能力。

3.2.1 Training methodology and parameters

除了其去霧能力之外,所提出的DFS模型包含使用分割模型(稱爲SEG-NET)計算的分割損失。除了分割損失之外,該模型基於與單個圖像去霧模型相同的體系結構。爲了訓練SEG-NET,我們使用不用於訓練去霧算法的Cityscape數據集的子集。培訓時間爲40個epoch,batch size爲16,Adam爲優化器。使用batch size爲8和Adam作爲優化器訓練DFS模型100個epoch。此處所有圖像(大小爲2048x1024)都被裁剪爲兩個正方形(1024x1024)並調整爲256x256,需要進行裁剪以保持圖像的最大信息量和結構,然後再將其調整爲適合此網絡的大小和形狀。通過使用與單圖像去霧相同的邏輯應用網格搜索,將方程2的參數λ1,λ2和λ3分別設置爲10,10和5,這次僅在λ3上λ1和λ2都與單圖像去霧相同。在DFS模型的訓練期間,SEG-NET被凍結(即,不通過梯度下降更新)

3.2.3 Testing methodology

在測試期間,分割結果報告在用於訓練DFS模型的相同SEG-NET上,以及在Cityscape,DeepLabv3 [23]上訓練的另一個最先進的分割模型上。 DeepLabv3模型不用於培訓或驗證,僅用於此處報告的最終測試。在使用模擬有和沒有分割損失的模型進行去霧後,使用模糊圖像並與基礎事實非模糊圖像進行比較之後,在分割性能之間進行了比較。使用完全相同的訓練參數訓練DFS模型和單個圖像去霧模型。
表2顯示了PSNR,SSIM和MSE(均方誤差)與朦朧圖像,去霧圖像,具有分割損失的去霧圖像和地面真實圖像,沒有霧度的結果,全部使用SEG-NET分割。表3顯示了DeepLabv3的結果,IoU是交集聯合度量,ca用於類別,cl用於類,iIoU是指實例級交叉聯合度量。根據Cordts等人的說法。 [22],IoU度量偏向於覆蓋大圖像區域的對象實例。在街景中,可能存在強烈的規模變化,這可能會有問題,特別是對於交通參與者。爲了解決這個問題,已經建議使用iIoU度量,其中每個像素的貢獻通過類平均實例大小與相應地面實例的大小的比率加權,僅包括具有實例註釋的類。措施(類:人,騎手,汽車,卡車,公共汽車,火車,摩托車和自行車,類別:人和車輛)。

3.2.4 Discussion of results

根據SEG-NET和DeepLabv3分割網絡獲得的結果,似乎在去霧網絡中增加分割損失顯着提高了後續分割的準確性。
使用SEG-NET和DeepLabv3,與使用沒有分段丟失訓練的去霧模型相比,使用DFS輸出時結果總是更好。平均而言,SEG-NET(PSNR / SSIM)從朦朧到去霧的分割增加約爲20%,而從去霧到DFS,實現了3.5%的增長。使用DeepLabv3時,IoU度量差異對於即使有和沒有霧度的類別也不重要(0.556對0.570),但IoU有一個很好的改進,從朦朧到除霧(增加3.9%),而有點增益(0.13)從dehaze到DFS觀察到%)。然而,使用具有iIoU度量的分段丟失的DeepLabv3觀察到顯着改善,使用從朦朧到去霧的iIoU的類的分段增強爲5.1%,而從去霧到DFS的增益爲2.3%。使用iIoU從朦朧到去霧的類別細分的提升爲7%,對於去除到DFS的類別,它達到2.7%。

參見圖2,圖10,11,14,15,26,27,30和31,對於遠離場景的感興趣目標,可以感知到顯着的改進,特別是對於汽車和行人的分割,最大的 差異被圈出來。 模糊性(例如,圖2.9)和兩種去霧技術(例如,圖2.10-11)之間的分割性能的差異很大,增加了分割損失,使得結果更加類似於基本事實(例如, ,圖2.12)。 正常除霧和DFS之間的比較(例如,圖2.22-23)顯示出更相似的結果,DFS對於遠離場景的目標看起來更好一些。 分段網絡似乎對我們在查看圖像時通常不會注意到的元素敏感。

4 .Conclusion

簡而言之,本文證明了在深度學習模型的端到端訓練中將分段丟失包括在去霧中的有用性。 基於學習的去霧模型不僅用於去噪指標,還用於實現對特定任務有用的事物的優化標準,並且與使用非制導方法獲得的結果相比具有顯着的性能改進。 此外,我們可以考慮直接使用IoU / iIoU梯度下降度量的近似來提高DFS的性能[24],這是比均方誤差和類似的更好的優化度量。

conference

[1] Robby T Tan. Visibility in bad weather from a single image. In IEEE conference on Computer Vision and Pattern
Recognition (CVPR), pages 1–8. IEEE, 2008.
[2] Raanan Fattal. Single image dehazing. ACM transactions on graphics (TOG), 27(3):72, 2008.
[3] Kaiming He, Jian Sun, and Xiaoou Tang. Single image haze removal using dark channel prior. IEEE transactions on
pattern analysis and machine intelligence, 33(12):2341–2353, 2011.
[4] Bolun Cai, Xiangmin Xu, Kui Jia, Chunmei Qing, and Dacheng Tao. Dehazenet: An end-to-end system for single
image haze removal. IEEE Transactions on Image Processing, 25(11):5187–5198, 2016.
[5] Runde Li, Jinshan Pan, Zechao Li, and Jinhui Tang. Single image dehazing via conditional generative adversarial
network. methods, 3:24, 2018.
[6] Xitong Yang, Zheng Xu, and Jiebo Luo. Towards perceptual image dehazing by physics-based disentanglement and
adversarial training. In Association for the Advancement of Artificial Intelligence (AAAI), 2018.
[7] Cosmin Ancuti, Codruta Orniana Ancuti, Radu Timofte, Luc Van Gool, Lei Zhang, Ming-Hsuan Yang, Vishal M Patel,
He Zhang, Vishwanath A Sindagi, Ruhao Zhao, et al. Ntire 2018 challenge on image dehazing: Methods and results.
2018.
[8] Boyi Li, Wenqi Ren, Dengpan Fu, Dacheng Tao, Dan Feng, Wenjun Zeng, and Zhangyang Wang. Benchmarking
single-image dehazing and beyond. IEEE Transactions on Image Processing, 28(1):492–505, 2019.
[9] Boyi Li, Xiulian Peng, Zhangyang Wang, Jizheng Xu, and Dan Feng. Aod-net: All-in-one dehazing network. In IEEE
International Conference on Computer Vision (ICCV), pages 4770–4778, 2017.
[10] Christos Sakaridis, Dengxin Dai, and Luc Van Gool. Semantic foggy scene understanding with synthetic data. Inter-
national Journal of Computer Vision, pages 1–20, 2018.
[11] Ding Liu, Bihan Wen, Xianming Liu, Zhangyang Wang, and Thomas Huang. When image denoising meets high-level
vision tasks: A deep learning approach. In International Joint Conference on Artificial Intelligence, IJCAI, pages
842–848. International Joint Conferences on Artificial Intelligence Organization, 2018.

12] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and
Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems, pages 2672–2680,
2014.
[13] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial
networks. In IEEE conference on Computer Vision and Pattern Recognition (CVPR), pages 1125–1134, 2017.
[14] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In
European Conference on Computer Vision, pages 694–711. Springer, 2016.
[15] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv
preprint arXiv:1409.1556, 2014.
[16] Cosmin Ancuti, Codruta O Ancuti, and Christophe De Vleeschouwer. D-hazy: a dataset to evaluate quantitatively
dehazing algorithms. In IEEE International Conference on Image Processing (ICIP), pages 2226–2230. IEEE, 2016.
[17] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus. Indoor segmentation and support inference from
rgbd images. In European Conference on Computer Vision (ECCV), pages 746–760. Springer, 2012.
[18] Qingsong Zhu, Jiaming Mai, Ling Shao, et al. A fast single image haze removal algorithm using color attenuation prior.
IEEE Trans. Image Processing, 24(11):3522–3533, 2015.
[19] Dana Berman, Shai Avidan, et al. Non-local image dehazing. In IEEE conference on Computer Vision and Pattern
Recognition (CVPR), pages 1674–1682, 2016.
[20] Wenqi Ren, Si Liu, Hua Zhang, Jinshan Pan, Xiaochun Cao, and Ming-Hsuan Yang. Single image dehazing via multi-
scale convolutional neural networks. In European conference on computer vision, pages 154–169. Springer, 2016.
[21] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycle-
consistent adversarial networks. In IEEE International Conference on Computer Vision (ICCV), pages 2223–2232,
2017.
[22] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe
Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In IEEE
conference on Computer Vision and Pattern Recognition (CVPR), pages 3213–3223, 2016.
[23] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for se-
mantic image segmentation. arXiv preprint arXiv:1706.05587, 2017.
[24] Maxim Berman, Amal Rannen Triki, and Matthew B Blaschko. The lovász-softmax loss: a tractable surrogate for the
optimization of the intersection-over-union measure in neural networks. In IEEE conference on Computer Vision and
Pattern Recognition (CVPR), pages 4413–4421, 2018.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章