An All-in-One Network for Dehazing and Beyond

原文pdf

摘要

本文提出了一種基於卷積神經網絡(CNN)的圖像去霧模型,稱爲AOD-Net。它是基於重新變形的大氣散射模型設計的。AOD-Net不是像大多數先前模型那樣分別估算傳輸圖和大氣光值,而是通過輕量級CNN直接生成去霧後的圖像。這種新穎的端到端設計使得將AOD-Net更容易嵌入其他深度模型(例如,faster R-CNN)中,改善對有霧圖像的高級任務性能。在合成和自然有霧圖像數據集上的實驗結果證明了在PSNR,SSIM和主觀視覺質量方面優於現有技術的優越性能。此外,當將AOD-Net與更快的R-CNN聯合訓練時,我們目睹了對有霧圖像的對象檢測性能的大幅提升。
關鍵詞: 去霧,圖像恢復,深度學習,聯合訓練,目標檢測

前言

由於存在諸如灰塵,霧和煙的氣溶膠,霧的存在給相機捕獲的圖像增加了複雜的噪聲。它會大大降低室外圖像的可見度,對比度降低,表面顏色變暗。此外,有霧的圖像將使許多後續高級計算機視覺任務的有效性受到威脅,例如物體檢測和識別。因此,廣泛考慮了去霧算法,作爲(不適定的)圖像恢復和增強的具有挑戰性的實例,類似於圖像去噪和超分辨率[37],[15]等其他問題,早期的去霧工作[23],[30],[38],[12]假設來自同一場景的多個圖像的可用性。 然而,從單個圖像中去霧現在已經佔據了主導地位,因爲它對於實際設置更爲實用[7]。 本文重點研究了單幅圖像去霧問題。

以前的工作

作爲用於去霧的先驗知識,有霧圖像生成遵循廣爲接受的物理模型(詳見第II-A節)。 除了估計全球大氣光值之外,已經認識到實現去霧的關鍵是傳輸矩陣的恢復。 [7]通過估計場景的反照率提出了一種物理接地方法。 [9],[34]發現有效暗通道先驗(DCP)更可靠地計算傳輸矩陣,然後是一系列工作[13],[24],[36]。 [20]強制執行邊界約束和上下文正則化以獲得更清晰的恢復圖像。在[33]中提出了一種自動恢復大氣光的加速方法。 [45]先前開發了顏色衰減,併爲有霧圖像創建了場景深度的線性模型,然後以監督的方式學習了模型參數。 [16]說明了聯合估計場景深度並從有霧視頻序列中恢復清晰潛像的方法。 [1]提出了一種基於非局部先驗(hazeline)的算法,基於清晰圖像中的每個顏色簇成爲RGB空間中的霧度線的假設。所有上述方法都取決於物理模型和各種複雜的圖像統計假設。 然而,由於從單個圖像估計物理參數通常是不準確的,因此上述方法的去霧性能似乎並不總是令人滿意。 最近,隨着卷積神經網絡(CNN)在計算機視覺任務中取得了普遍的成功,它們也被引入到圖像去霧中。 DehazeNet [3]提出了一種可訓練的模型來估計一個有霧圖像的傳輸矩陣。 [27]進一步利用了多尺度CNN(MSCNN),首先生成了一個粗尺度的傳輸矩陣,然後對其進行細化。

主要挑戰和瓶頸

沒有端到端的去霧: 大多數用於圖像恢復和增強的深度學習方法都完全採用端到端建模:訓練模型直接從損壞的圖到清晰的圖像。 包括圖像去噪[42],去模糊[31]和超分辨率[41]。 相比之下,迄今爲止還沒有用於去霧的端到端深度模型,它直接從有霧的模型中迴歸無霧的圖像。 然在第一眼看上去可能看起來很奇怪,但人們需要認識到霧本質上會帶來不均勻的,依賴於信號的噪聲:由霧引起的表面場景衰減與相機表面之間的物理距離相關(即像素深度)。這與大多數圖像降級的假設即與信號無關的噪聲模型不同,在這種情況下,所有信號都經歷相同的參數化降級過程。 因此,可以使用一個靜態映射功能輕鬆建模其恢復模型。 同樣不能直接應用於除霧:降解過程因信號而異,並且恢復模型的輸入也必須是自適應的。
現有方法具有相同的概念,即爲了從有霧圖像中恢復清晰圖像,關鍵要估計精確的介質傳輸圖[1],[3],[27]。通過經驗規則分別計算大氣光值,並且基於物理模型恢復清晰圖像。儘管是直觀的,但是這樣的過程不直接測量或最小化重建失真。用於估計介質傳輸圖和大氣光值的兩個單獨步驟中的誤差將累積並且可能相互放大。結果,傳統的單獨過程產生了次優的圖像恢復質量。
缺少與高級視覺任務的鏈接: 目前,去霧模型依賴於兩組評估標準:(1) 對於合成的有霧圖像,其地面實況清晰圖像是已知的,通常計算PSNR和SSIM來測量恢復精度;(2) 對於具有未知地面真實的真實自然有霧圖像,唯一可用的評估標準是主觀視覺質量。然而,與圖像去噪和超分辨率結果不同,其視覺僞像的抑制效果是可見的(例如,在紋理和邊緣上),現有技術的去霧模型[1],[3],[27]之間的視覺差異通常表現在全球的照明和基調中,往往太微妙而無法分辨。
一般的圖像恢復和增強,被稱爲低級視覺任務的一部分,通常被認爲是中級和高級視覺任務的預處理步驟。衆所周知,諸如目標檢測和識別之類的高級計算機視覺任務的性能將在存在各種劣化的情況下惡化,然後在很大程度上受到圖像恢復和增強的質量的影響。然而,根據我們的最佳知識,沒有探索將去霧算法和結果與高級視覺任務性能相關聯。
主要貢獻: 本文提出了一體化去霧網絡(AOD-Net),這是一種基於CNN的除、去霧模型,具有兩個關鍵創新,以應對上述兩個挑戰:

  1. 我們是第一個提出可訓練的端到端的去霧模型,它直接從有霧圖像中產生清晰圖像,而不是依賴於任何單獨的和中間的參數估計步驟1。 AOD-Net是基於重新變形的大氣散射模型設計的,因此保留了與現有工程相同的物理基礎[3],[27]。 然而,它建立在我們不同的概念之上,即物理模型可以以“更多端到端”的方式制定,其所有參數都在一個統一的模型中進行估算。
  2. 我們是第一個定量研究去霧質量對後續高級視覺任務的影響,這是比較去霧效果的新客觀標準。此外,AOD-Net可以與其他深層模型無縫嵌成一G個管道,在有霧圖像上執行高級任務,具有隱式的去霧過程。由於我們獨特的一體化設計,這種管道可以從頭到尾聯合調整,以進一步提高性能,如果用其他深層去霧網絡替代AOD-Net是不可行的[3],[27]。

AOD-Net在合成有霧圖像上進行訓練,並在合成和真實自然圖像上進行測試。實驗證明了AOD-Net優於幾種最先進的方法,不僅包括PSNR和SSIM(見圖1),還包括視覺質量(見圖2)。作爲一款輕量級且高效的型號,AOD-Net的成本僅爲0.026秒,可通過單個GPU處理一個480×640圖像。當與更快的R-CNN [26]連接時,AOD-Net在改善有霧圖像上的物體檢測性能方面明顯優於其他去霧模型,當我們端對端的調整AOD-Net和更快R-CNN的流水線時,性能餘量得到進一步提升。
本文從以前的會議版本[14]擴展而來。 本文最引人注目的改進在於第四部分,我們對評估和增強目標檢測的去霧進行了深入的討論,並介紹和分析了聯合訓練部分的細節。還對AOD-Net的架構進行了更詳細和全面的分析(例如第III-D節)。此外,我們還包括更廣泛的比較結果。

AOD-NET

在本節中,解釋了AOD-Net。我們首先介紹了轉換後的大氣散射模型,在此基礎上設計了AOD-Net。然後詳細描述AOD-Net的體系結構。

物理模型及變形公式

大氣散射模型一直是有霧圖像生成的經典描述[19],[21],[22]:
I(x)=J(x)t(x)+A(1-t(x)),    (1)
其中I(x)被觀察到有霧圖像,J(x)是要恢復的場景即,理想的“清晰圖像”)。 兩個關鍵參數:A表示全球大氣光,t(x)是介質傳輸圖,定義如下:
t(x)=exp⁡(-βd(x)),    (2)
其中β是大氣的散射係數,d(x)是物體和相機之間的距離(景深)。我們可以將清晰圖像的模型(1)重新編寫爲輸出:
J(x)=1/t(x)  I(x)-A 1/t(x) +A.       (3)
現有工作諸如[27],[3]之類遵循三個相同的程序:1)使用複雜的深度模型從有霧圖像I(x)估計介質傳輸圖t(x); 2)使用一些經驗方法估計A; 3)通過公式(3)估計清晰圖像J(x)。這樣的過程導致次優解決方案,其不直接最小化圖像重建誤差。當將它們組合在一起計算(3)時,對t(x)和A的單獨估計將導致誤差累積或甚至放大。
我們的核心思想是將兩個參數t(x)和A統一爲一個公式,即(4)中的K(x),並直接最小化像素域重建誤差。爲此,將(3)中的公式重新表示爲下面的轉換公式:
在這裏插入圖片描述
以這種方式,t(x)和A都被集成到新變量K(x)中。b是默認值爲1的恆定偏差。由於K(x)依賴於I(x)。因此我們的目標是構建輸入自適應深度模型,其參數將隨輸入有霧圖像而變化,從而最小化輸出J(x)和地面實況清晰圖像之間的重建誤差。

網絡設計

AOD-Net由兩個模塊組成,如圖4(a)所示:一個K估計模塊,用於從輸入I(x)中估計K(x),然後是一個利用K(x)的清晰圖像生成模塊,K(x)作爲其輸入自適應參數來估計J(x)

在這裏插入圖片描述
K估算模塊是AOD-Net的關鍵組成部分,負責估算深度和相對霧濃度水平。 如圖4(b)所示,我們使用五個卷積層,並通過融合不同大小的卷積核形成多尺度特徵。在[3]中,在第二層中使用具有不同卷積核尺寸的並行卷積。 [27]將粗尺度網絡特徵與細尺度網絡的中間層連接起來。受它們的啓發,AOD-Net的“concat1”層連接層“conv1”和“conv2”的特徵。 類似地,“concat2”連接來自“conv2”和“conv3”的特徵; “concat3”連接來自“conv1”,“conv2”,“conv3”和“conv4”的特徵。這種多尺度設計捕獲不同尺度的特徵,並且中間連接還補償卷積期間的信息損失。 值得注意的是,AOD-Net的每個卷積層僅使用三個卷積核。因此,與現有的深層方法相比,AOD-Net重量輕,例如[3],[27]。在K估計模塊之後,清晰圖像生成模塊由逐元素乘法層和若干元素加法層組成,以便通過計算(4)生成恢復的圖像。
爲了證明將t(x)和A聯合在一個公式中的重要的,我們比較一個初始基線,即首先使用傳統方法[9]估計A,然後端到端從(3)學習t(x) ,通過最小化重建誤差來深入網絡(參見第III節的合成設置)。如圖3所示,發現基線過高估計A並導致過度暴露的視覺效果。AOD-Net明顯產生更真實的照明條件和結構細節,因爲t(x)和A的聯合估計使它們能夠相互重新關聯。其他超參數的不準確估計(例如,伽馬校正)也可以在一體化公式中折中和補償。

去霧效果的評價

數據集和實驗

我們通過公式(1)創建合成的有霧圖像,使用來自室內NYU2深度數據庫的深度元數據的地面實況圖像[32]。我們設置不同的大氣光A,通過在[0.6,1.0]之間均勻地選擇每個通道,並選擇β∈{0.4,0.6,0.8,1.0,1.2,1.4,1.6}。對於NYU2數據庫,我們將27,256個圖像作爲訓練集,將3,170個圖像作爲非重疊的測試集A.我們還將來自Middlebury立體數據庫的800個全尺寸合成圖像作爲測試集B。此外,我們用自然有霧的圖像來評估我們的模型。
在訓練過程中,使用高斯隨機變量初始化權重。我們利用ReLU神經元,因爲我們發現它比我們在特定環境中[3]提出的BReLU神經元更有效。 動量和衰減參數分別設置爲0.9和0.0001。 我們使用8個圖像(480×640)的批量大小,學習率爲0.001。我們採用簡單的均方誤差(MSE)損失函數,發現它不僅提升了PSNR,還提升了SSIM以及視覺質量。
AOD-Net模型需要大約10個訓練時期才能收斂,並且通常在10個時期之後表現良好。在本文中,我們已經訓練了40個時期的模型。還發現剪切漸變以約束[-0.1,0.1]範圍內的範數也很有幫助。該技術在穩定復現網絡訓練方面很受歡迎[25]。

合成數據集上的質量評估

我們將所提出的模型與幾種最先進的去霧方法進行了比較:快速可見性恢復(FVR)[35],暗通道先驗(DCP)[9],邊界約束上下文正則化(BCCR)[20],自動大氣光恢復(ATM)[33],彩色衰減先前(CAP)[45],非局部圖像去霧(NLD)[1],[2],DehazeNet [3]和MSCNN [27]。在之前的實驗中,由於在真實有霧圖像上進行測試時沒有無霧霾的真實性,因此報告了很少有關於修復質量的定量結果。 我們合成的有霧圖像伴隨着地面真實圖像,使我們能夠在PSNR和SSIM方面比較那些去霧結果。

在這裏插入圖片描述
表I和III-B分別顯示了測試集A和B上的平均PSNR和SSIM結果。由於AOD-Net在MSE損失下從端到端進行了優化,因此看到其PSNR性能高於其他產品並不令人驚訝。更有吸引力的是觀察到AOD-Net比所有競爭對手獲得更大的SSIM優勢,儘管SSIM沒有被直接推薦爲優化標準。由於SSIM測量超出像素誤差並且衆所周知更忠實地反映人類感知,我們變得好奇通過哪一部分 AOD-Net實現了這種持續改進。
我們進行以下調查:測試集B中的每個圖像被分解爲平均圖像和殘差圖像的總和。前者由具有相同平均值的所有像素位置構成(圖像上三通道的平均矢量)。 很容易證明兩個圖像之間的MSE等於它們在兩個殘留圖像之間添加的平均圖像之間的MSE。平均圖像大致對應於全局照明並且與A相關,而殘差更多地涉及局部結構變化和對比等。我們觀察到AOD-Net產生類似的殘餘MSE(在測試集 B上平均)到一些競爭對手 DehazeNet和CAP等方法。 但是,AOD-Net結果的平均部分的MSE明顯低於DehazeNet和CAP,如表III所示。由此暗示,由於我們在端到端重建損失下的聯合參數估計方案,AOD-Net可能更能夠正確地恢復A(全局照明)。 由於人眼對全局照明的大變化肯定比對任何局部失真更敏感,因此AOD-Net的視覺效果也明顯更好,而其他一些結果通常看起來不切實際。
上述優點也體現在計算SSIM [39]的照明(1)項中,並部分解釋了我們強大的SSIM結果。SSIM收益的另一個主要來源似乎來自對比(c)項。 例如,我們隨機選擇五個圖像進行測試,測試集B上AOD-Net結果的對比值平均值爲0.9989,顯着高於ATM(0.7281),BCCR(0.9574),FVR(0.9630),NLD(0.9250),DCP (0.9457),MSCNN(0.9697),DehazeNet(0.9076)和CAP(0.9760)。

定性視覺結果

合成圖像:圖5顯示了來自測試集A的合成圖像的去霧效果。我們認爲,AOD-Net結果通常具有更清晰的輪廓和更豐富的色彩,並且在視覺上更忠實於地面真相。
在這裏插入圖片描述
具有挑戰性的自然圖像:雖然通過室內圖像進行合成訓練,但ADO-Net可以很好地概括爲室外圖像。我們根據一些自然圖像示例的現有技術方法對其進行評估,這些示例比[9],[8],[3]的作者發現的一般室外圖像顯着更具挑戰性。挑戰在於高度雜亂的物體,細微紋理或照明變化的主導地位。如圖6所示,FVR遭受過度增強的視覺僞影。DCP,BCCR,ATM,NLD和MSCNN在一個或多個圖像上產生不切實際的色調,例如第二行上的DCP,BCCR和ATM結果(注意天空顏色),或第四行上的BCCR,NLD和MSCNN結果 (注意石頭顏色)。CAP,DehazeNet和AOD-Net擁有最具競爭力的視覺效果,具有合理的細節。然而,仔細觀察,我們仍然觀察到CAP有時會有霧圖像紋理,而DehazeNet會使某些區域變暗。AOD-Net恢復更豐富和更飽和的顏色(比較第三和第四行結果),同時抑制大多數僞像。
在這裏插入圖片描述
白色風景自然圖像:白色場景或物體一直是去霧的主要障礙。許多有效的先驗如[9]在白色物體上失效,因爲對於與大氣光相似顏色的物體,透射值接近於零。 DehazeNet [3]和MSCNN [27]都依賴於精心挑選的濾波操作進行後處理,從而提高了它們對白色物體的穩健性,但不可避免地犧牲了更多的視覺細節。
雖然AOD-Net沒有明確考慮處理白色場景,但我們的端到端優化方案似乎在這裏提供了更強的魯棒性。圖7顯示了白色場景的兩個有霧圖像以及通過各種方法的去霧結果。很容易注意到DCP結果的無法忍受的瑕疵,特別是在第一行的天空區域。這個問題得到緩解,但仍然存在CAP,DehazeNet和MSCNN結果,而AOD-Net幾乎無人工作。此外,CAP似乎有霧了白色物體的紋理細節,而MSCNN創建了過度增強的相反僞影。 AOD-Net設法去霧,而不會引入假色調或扭曲的物體輪廓。
在這裏插入圖片描述
無霧圖像上的小傷害:儘管AOD-Net受到霧影響,但它具有非常理想的特性,如果它沒有霧,它對輸入圖像幾乎沒有負面影響。這贊同我們的K估計模塊的穩健性和有效性。圖8顯示了來自Colorlines的兩個具有挑戰性的清晰圖像的結果[8]。
在這裏插入圖片描述
圖像防光暈:我們嘗試在AOD-Net上進行另一項圖像增強任務,稱爲圖像防光暈,無需重新訓練。光暈是光線超出適當邊界的擴散,在照片的明亮區域形成不希望的霧化效果。與去霧相關但遵循不同的物理模型,AOD-Net的反光暈結果也是不錯的:參見圖9的一些例子。

在這裏插入圖片描述

多尺度特徵的有效性

在本節中,我們特別分析了K估計模塊的層間級聯的有用性,它結合了來自不同大小濾波器的多尺度特徵。我們推測,儘管經驗發現,當前的連接方式通過將幾個連續的較低層連續地饋送到緊接的下一層,促進了從低級到高級的平滑特徵轉換。爲了進行比較,我們設計了一個基線:“conv1→conv2→conv3→conv4→conv5(K)”,它不涉及層間連接。 對於測試集A,平均PSNR爲17.0517 dB,SSIM爲0.7688。對於測試集B,平均PSNR爲22.3359 dB,SSIM爲0.9032。這些結果通常不如AOD-Net(除了測試集 B上的PSNR略高),特別是兩個SSIM值都受到顯着下降的影響。

運行時間比較

AOD-Net的輕質結構導致更快的去霧。我們在同一臺機器(Intel(R)Core(TM)i7-6700 [email protected]和16GB內存)上選擇50個來自測試集 A的圖像供所有型號運行,無需GPU加速。 所有型號的每圖像平均運行時間如表IV所示。儘管其他較慢的Matlab實現,比較DehazeNet(Pycaffe版本)和我們的[11]是公平的。結果表明AOD-Net具有很高的效率,每張圖像僅佔DehazeNet的1/10。
在這裏插入圖片描述

超越恢復:評估和改善目標檢測的弊端

高級計算機視覺任務,如目標檢測和識別,涉及視覺語義,並受到了極大的關注[26],[43]。 然而,這些算法的性能可能在很大程度上受到實際應用中各種降級的危害。傳統方法在進入目標任務之前採用單獨的圖像恢復步驟。最近,[40],[17]驗證了恢復和識別步驟的聯合優化將顯着提高傳統兩種方法的性能。然而,之前的作品[44],[5],[4]主要僅針對圖像分類任務,研究了噪聲,模糊和低分辨率等常見降級的影響和補救措施。據我們所知,沒有類似的工作來定量研究霧的存在如何影響高級視覺任務,以及如何使用聯合優化方法來減輕其影響。
我們研究了存在霧時的物體檢測問題,作爲高級視覺任務如何與除霧相互作用的一個例子。我們選擇更快的R-CNN模型[26]作爲強基線4,並測試合成和自然有霧圖像。然後,我們將AOD-Net模型與更快的R-CNN模型連接起來,作爲一個統一的管道進行聯合優化。從我們的實驗得出的一般結論是:隨着霧度變重,物體檢測變得不太可靠。在所有霧霾條件下(輕度,中度或重度),我們的聯合調諧模型不斷改進檢測,超越天真更快的R-CNN和非關節方法。

Pascal-VOC 2007與合成霧度的定量結果

我們從Pascal VOC 2007數據集(稱爲地面實況)創建了三個合成集[6]:重霧(A = 1,β= 0.1),中霧(A = 1,β= 0.06)和輕霧(A) = 1,β= 0.04)。通過[18]中描述的方法預測深度圖。每組都分爲非重疊訓練集和測試集。首先,我們在沒有任何網絡調整的情況下比較五種方案:(1)無經驗的FasterRCNN:使用在清晰的Pascal-VOC 2007上預訓練的模型直接輸入有霧圖像; (2)DehazeNet +更快的R-CNN:首先使用DehazeNet進行除霧,然後使用更快的RCNN; (3)MSCNN +更快的R-CNN:使用MSCNN進行第一次除霧,然後使用更快的R-CNN; (4)DCP +更快的R-CNN:使用DCP進行第一次除霧,然後使用更快的R-CNN; (5)AODNet +更快的R-CNN:AOD-Net與更快的RCNN連接,沒有任何聯合調整。
我們計算三個測試集的平均精度(mAP),如表V中的前三行所示。清晰的Pascal-VOC 2007測試集上的mAP爲0.6954。我們可以看到,重度霧使mAP降低了近0.18。通過在檢測之前使用各種去霧方法進行第一次去霧,mAP得到了很大改善。其中,DCP +更快的R-CNN表現最佳,重霧度提高21.57%。沒有任何聯合調整,AOD-Net + Faster RCNN的性能與MSCNN +更快的R-CNN相當,並且看起來比DCP +更快的R-CNN更差。
由於我們的一體化設計,AODNet + Faster R-CNN的管道可以從頭到尾聯合優化,以提高對有霧圖像的物體檢測性能。 我們分別爲三個有霧圖像的訓練集調整AOD-Net + Faster R-CNN,並調用這個調整版JAOD-Faster RCNN。我們在第一次35,000次迭代中使用0.0001的學習率,在接下來的65,000次迭代中使用0.00001,兩者的動量均爲0.9,重量衰減爲0.0005。 由於這種聯合調整,重霧度情況下mAP從0.5794增加到0.6819,這顯示了這種端到端優化的主要優勢和我們獨特設計的價值。爲了比較,我們還在有霧圖像數據集上重新訓練更快的R-CNN作爲比較。我們使用0.0001的學習率來調整預先訓練的更快的R-CNN(在清晰的自然圖像上訓練)。在重新訓練以適應有霧圖像數據集之後,在重度霧下,再訓練的快速R-CNN的mAP從0.5155增加到0.6756,同時仍然比JAOD-更快的R-CNN更差。
在這裏插入圖片描述
此外,由於實際上希望獲得一個適用於任意霧度水平的單一模型,我們生成一個訓練集,其中包括從[0,0.1]隨機抽樣的各種霧度水平。我們在這個訓練集上重新調整和評估JAOD-Faster R-CNN和Retrained Faster R-CNN,其結果在表V的最後一行進行比較。儘管兩者的表現都略遜於他們訓練和申請的“專用”對應物。 特定的霧度水平,它們在所有三個霧度水平中表現始終如一,並且JAOD-Faster R-CNN再次優於Retrained Faster RCNN。圖11描繪了在各種霧度條件下,在JAOD-Faster R-CNN和再訓練更快的R-CNN方案之間每5,000次迭代的mAP比較。

自然有霧的圖片結果的可視化

圖10顯示了對網源自然有霧圖像的對象檢測結果的視覺比較。比較了六種方法:(1)快速RCNN; (2)DehazeNet +更快的RCNN; (3)MSCNN +更快的R-CNN; (4)AOD-Net +更快的RCNN; (5)微調更快的R-CNN;(6)JAOD-Faster R-CNN。我們觀察到霧度可能導致缺失檢測,不準確的本地化以及對於更快的R-CNN的無條件類別識別。 雖然AOD-Net + Faster R-CNN已經顯示出優於原始Faster-RCNN的明顯優勢,但JAOD-Faster R-CNN結果的性能進一步顯着提升,顯着超越所有其他替代方案。
請注意,AOD-Net +更快的聯合優化帶來的R-CNN優勢有兩方面:AOD-Net本身共同估算所有參數,整個流水線共同調整低水平(去霧)和高水平(檢測和識別)端到端的任務。端到端的管道調整是由AOD-Net獨特實現的,AOD-Net是迄今爲止唯一的一體化除霧模型。
在這裏插入圖片描述

誰在提供幫助
任務特定的去網絡或只是添加更多參數? 雖然JAOD-Faster R-CNN可以說是上面所示的最佳表現者,但自然會出現一個問題:它是否是AOD-Faster R-CNN使用的參數比(Retrained)更快的R-CNN更多的結果? 在本節中,我們展示了添加額外的圖層和參數,而沒有用於去霧的任務特定設計,並不一定能提高霧度中對象檢測的性能。
我們設計了一個名爲Auto-Faster R-CNN的新基線,用簡單的卷積自動編碼器取代了JAOD-Faster R-CNN中的AOD-Net部分。自動編碼器與AOD-Net具有完全相同的參數量,由五個卷積層組成,其結構類似於K估計模塊。我們使用與AOD-Net相同的訓練協議和數據集預先訓練用於除霧任務的自動編碼器,並將其與更快的R-CNN連接以進行端到端調整。如表VI所示,自動更快的R-CNN的性能與AOD-Faster RCNN不相上下,並且表現得比微調更快的R-CNN更差。 回想一下,[26]驗證了直接向更快的R-CNN添加額外的層並不一定能提高一般乾淨圖像中物體檢測的性能。我們的結論是它在有霧圖像案件中的一貫對應。
此外,應該注意的是,雖然JAOD-Faster RCNN在更快的R-CNN之前附加了AOD-Net,但由於AOD-Net的輕量化設計,複雜性並沒有增加太多。 使用NVIDIA GeForce GTX TITAN X GPU,(重新訓練的)快速R-CNN的每圖像平均運行時間爲0.166秒,JAOD-Faster RCNN爲0.192秒。
討論和結論

討論和結論

本文提出了AOD-Net,這是一種一體化的算法,可以通過端到端的CNN直接重建無霧圖像。 我們使用客觀(PSNR,SSIM)和主觀標準,在合成和自然霧度圖像上比較AOD-Net與各種最先進的方法。廣泛的實驗結果證實了AOD-Net的優越性,穩健性和有效性。 此外,我們還提出了關於AOD-Net如何通過聯合管道優化提高自然模糊圖像上的對象檢測和識別性能的第一類研究。 可以觀察到,我們的聯合調諧模型在霧度存在的情況下不斷改進檢測,超過了更好的更快的R-CNN和非連接方式。 然而,如上所述,去霧技術與來自圖像的深度估計高度相關,並且通過結合深度先驗知識或精細的深度估計模塊,存在改善AOD-Net的性能的空間。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章