【論文學習】Spatially Variant Linear Representation Models for Joint Filtering

前言

  這篇文章是CVPR 2019的一篇文章,只是突然翻到了,就讀了一下。文章的思路其實很簡單,就是將卷積神經網絡(CNN)與傳統方法相結合(這是我一直提倡的);但是我首先要說明,文章中的一些說法我覺得是值得商榷的。本篇博客會先介紹文章的思路,然後進行簡單的分析。

文章思路

  文章的核心工作是提出了一種空間變換線性表徵模型(spatially variant linear representation model,簡稱SVLRM)用於聯合濾波。並與現有的一些方法進行了對比。下面介紹一下文章中的思路。

分析引導濾波

  爲了引出自己的觀點,作者首先介紹了Guided filter(點這裏)。在GF中,除了輸入圖像 II 之外,還需要輸入一張引導圖像 GG ,根據這兩張圖可以求出每個像素點的線性變換系數 aabb ,最終輸出圖像的結構與引導圖相似,像素的變換過程被表示爲;
在這裏插入圖片描述
  輸出圖中像素的梯度與引導圖中對應像素的梯度滿足如下關係;
在這裏插入圖片描述
  “根據這個關係,引導圖中的結構細節被直接轉換到輸出圖,這導致目標圖中會有引導圖中的額外信息。”這個說法有一定道理,因爲這正是引導濾波中使用引導圖像的意義的意義;但是之前關於GF的博客中有提到,輸入圖像與引導圖像之間並不是簡單的線性變換,因爲線性係數的值有輸入圖像和引導圖像共同決定,因此這個說法也不是絕對的。

  此外,作者還認爲:“由於單個像素的線性係數最終是由不同窗口的線性係數求均值得到的,因此,會導致結果圖中重要的結構信息被平滑。” 這個觀點也是正確的,在之前的博客中,我們也通過實驗驗證了和解釋了原因。

  然後作者表示:“線性係數很重要,決定了引導圖像中的結構是否被傳遞到結果圖中。” 爲了解決上述問題,作者提出了SVLRM,並且使用CNN計算線性係數。

提出模型

  由於局部線性模型僅僅參考了局部的信息,這決定了這類方法會引入額外的結構。所以提出了下面的轉換關係;
F=α(G,I)G+β(G,I)F=\alpha (G,I)G+\beta (G,I)
  與引導濾波中不同,係數 α(G,I)\alpha(G,I)β(G,I)\beta (G,I) 是由引導圖像 GG 和輸入圖像 II 共同決定的。(使用全圖的信息就能夠解決上述問題了嗎?或許也無法解決,所以這個根據或許無法成立。

  但是求解係數的過程非常困難,然後作者根據梯度下降算法和鏈式法則說明求解 α(G,I)\alpha(G,I)β(G,I)\beta (G,I) 的過程是可導的,因此可以使用CNN網絡進行預測。

CNN計算係數

  文中使用的網絡結構共12個卷積層,每一層的卷積核的size是3,卷積步長爲1,前11個卷積層的通道數爲64,並且除了最後一層之外,其他的每一層使用 relurelu 激活函數。使用 L1L1 範數作爲網絡的損失函數。

  對於模型訓練的其他信息,如輸入圖與引導圖如何傳遞進網絡?輸出爲幾通道?,並未有太多的介紹,但是從文中的其他描述來看,我認爲:作者應該是將輸入圖與引導圖在通道維度進行了連接,然後傳遞進入網絡,輸出也應該是維度一致的,即同時輸出 α(G,I)\alpha(G,I)β(G,I)\beta (G,I) 兩張圖像。

  通過輸出的兩張係數圖,與引導圖進行線性計算,然後得到輸出圖,與GT做 L1L1 範數計算優化。

結果對比

  對於結果的對比,其實沒什麼好說的,因爲文章的作者總是說自己的結果好,王婆賣瓜嘛。
在這裏插入圖片描述

  文章主要與一種直接實現端到端計算得到輸出圖的深度學習方法以及GF進行了對比,證明自己的方法更好。然後同引導濾波中一樣,手工求解了兩個係數解,並與文中的方法對比係數圖和結果。總的來說,作者認爲自己方法取得了 state-of-the-art 的結果。

  但是,我好奇的是這張計算效率的比較。聯合雙邊濾波作爲一個傳統的方法,計算的效率居然比文中的深度學習的方法慢這麼多,慢了60倍。。。。並且,從文中的描述來看,文中的網絡結構的計算量不算小。可能與算法具體實現過程有關吧。

在這裏插入圖片描述

文章分析

  回過頭再看這篇文章,作者首先描述了GF這種局部線性模型的缺點,然後提出SVLRM,再用CNN計算線性係數。其實算法的思路可以簡單理解爲使用CNN提取輸入圖與引導圖的有效信息得到引導濾波的線性係數。至於卷積網絡是否學到了全局的空間信息,這一點是不可知的。

  爲什麼不直接用端到端的模型獲取結果圖,而是獲取線性係數呢,從文中的結果來說:獲取線性係數的方法獲得的結果能夠保存更多的細節和結構信息 至於爲何如此,文中並未細說。我個人認爲有三種可能:

  1. 深度學習的過程與網絡結構,學習率、優化方式、損失函數等諸多因素有關。有一定的偶然性!
  2. 在傳統圖像處理中,認爲在縮放係數比縮放結果圖更能保留細節。比如,低分辨上得到的計算係數通過插值得到高分辨圖像對應的係數,再將該係數作用到高分辨圖像得到結果 AA ,將低分辨係數作用於低分辨輸入圖,再將結果圖插值到高分辨得到結果 BB ,前者比後者的細節保留會更好。
  3. 線性變換也相當於多次卷積運算。

已完。。。。。有錯誤請指出

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章