【論文閱讀】SuperCNN: A Superpixelwise Convolutional Neural Network for Salient Object Detection(論文閱讀筆記)

SuperCNN: A Superpixelwise Convolutional Neural Network for Salient Object Detection

超像素卷積神經網絡:一種用於檢測顯著性物體的超像素卷積神經網絡

文獻提出了一種新穎的SuperCNN網絡,使用該網絡進行深度學習訓練,能學習到圖像的分層對比特徵,檢測出顯著性物體, 最終再將圖像二值化,突出場景圖像中的重要物體。本博文爲個人原創 , 闡述個人對該文獻的理解,如有不足,請多多包涵, 轉載需註明出處 , 謝謝

我希望能通過閱讀有關computer vision 及 deep learning領域的相關文獻,能讓我更好更全面地去了解該領域的理論熱點和學術前沿,培養我的學術思維,同時也能提高自身閱讀英文文獻的能力和技巧,所以這無疑是一件大有裨益的事情,好好加油!!
附上作者的原文獻地址:文獻地址

閱讀文獻的五個要點

我在閱讀文獻過程中,培養自己養成良好的閱讀習慣,抓住文獻的五個要點:

  • 論文的背景和意義,目標是什麼?
  • 研究內容是什麼?
  • 是研究了一個算法還是一個理論?
  • 研究方法是什麼?
  • 最後得出來的結論是什麼?

按照這五個要點,對這篇文章進行閱讀 ,下面闡述個人對該文獻的理解,如有不恰當之處,歡迎指出,我虛心學習~~

該文獻的五個要點

第一要點:研究背景

在摘要部分,作者簡明扼要地闡述研究的背景,文章的研究背景是在目前對於顯著物體檢測的方法還是依賴人工標記的特徵圖計算,這隻能捕獲圖像低水平的對比信息,其研究目標是通過提出一種新的卷積神經網絡,來解決現狀的問題,最終達到能檢測到顯著物體,獲取到圖像的分層對比特徵。

第二要點:研究內容

文章指出了傳統的CNN算法不適用顯著物體檢測,其原因有

  • 顯著性物體是由上下文內容決定的
  • 使用傳統CNN進行超像素預測存在噪聲,而且在較大規模的網絡結構中預測超像素圖像是非常耗時的
  • 對於傳統的CNN算法,直接用原始輸入圖像訓練網絡,是很難檢測顯著性的

文章的研究內容主要是提出了一種獲取圖像顯著特徵的新深度學習方法–SuperCNN網絡,SuperCNN有四個屬性:

  1. 通過饋送兩個超像素序列,能學習到分層對比特徵;
  2. SuperCNN能恢復超像素之間的上下文信息
  3. 大大減少對於密集標記的map所需的預測數量
  4. 利用多尺度網絡結構,獨立的區域大小可檢測出顯著性

第三要點:算法研究

文章研究的是一個深度學習的算法,基於傳統CNN依賴的是低水平的圖像特徵,且不能檢測到顯著物體,因此提出了一種名叫SuperCNN的網絡(超像素卷積神經網絡),通過該神經網絡能學習到圖像的分層對比特徵(hierarchical contrast feature) ,最後將檢測到的顯著性對象,得到一個正歸一化值,該值被視爲顯著性分數,再將圖像二值化,突出圖像中的顯著物體。

超像素卷積神經網絡的結構圖:
supercnn網絡結構
超像素卷積神經網絡結構,有7層,可以說七個重要的結構,首先是將輸入圖像劃分爲多維度超像素網格區域(multiscale superpixels), 再提取出兩個重要序列( Color Uniqueness Sequence 和 color distribution sequence), 分佈描述顏色唯一性和顏色分佈性 , 將兩個序列送入卷積網絡(convolutional network)中 , 得到圖像的分層特徵(hierarchical features) , 再採用argmax對每列進行二類分佈預測 , 預測其顯著性 , 最後得到輸出圖像。

下面對算法的具體流程進行梳理

顏色唯一性序列
顏色唯一性序列(Color Uniqueness Sequence )是用於描述某區域的顏色對比度。其數學公式爲:
顏色唯一性序列
其中:
參數說明
顏色分佈序列
顏色分佈序列(color distribution sequence)是對顏色唯一性的補充。它能夠從背景上區分出前景物體,相對於前景的顏色更緊湊,而背景上的顏色通常在整個圖像上廣泛分佈。其數學公式爲:
顏色分佈序列
其參數跟顏色唯一性序列相同 . 其中
權重
卷積網絡結構
SuperCNN具有多列可訓練架構,每列提供1D序列。它是一個特徵提取器,由序列層組成。其結構層次爲:
卷積層
在卷積層中,有兩個關鍵的運算屬性:

  • conv卷積運算:利用局部區域之間的空間相關性;
  • maxpooling最大池運算:減少了計算複雜性併爲微型轉化(slight
    translations)提供了不變性;

在convolutional network中 , fu層網絡定義爲:
卷積
其中權重Wu,l是連接l層和l-1層 , bu,l是偏置項。
最後 , 對於每一個特徵圖計算其顯著性 , 適用softmax激活函數 , 將每層網絡的得分轉爲區域顯著性的標誌值a , a的值在{0,1}之間,表明顯著性的二值化值。
輸出層
區域rx的類分佈du,a由Fu通過兩層神經網絡預測得到的。
其損失函數爲:
損失函數
提取分層對比特徵:
將分割的圖像視爲一維數組,並通過將空間內核( spatial kernel )引入顏色唯一性來恢復上下文信息, 除了空間信息之外,還通過顏色分佈來區分顯着對象。而區域內核( range kernel )被進一步應用於描述分佈屬性的屬性對象。因此,產生了兩個輸入序列,並且將它們饋送到雙列CNN中訓練。

Saliency Inference
在Saliency Inference這一步中 , 爲了確定區域的顯着性,爲了獲取顯著特徵信息,採用argmax對網絡中的每列進行二類分佈預測 , 預測其顯著性 。而表示區域rx中顯著性的值被定義爲:
顯著性值
那麼在整個特徵圖中,顯著性的總值爲:
總的顯著性值

文章3.3和3.4部分描述了網絡的多方位結構以及減少過度配置的方案, 此處略研究

第四要點:研究方法

研究使用的數據集是MSRA-1000,該數據集爲用於視覺顯著性檢測的MSRA-1000數據集(MSRA顯著對象數據庫)
對於SuperCNN算法的定性評估,文章採用了兩個應用來說明,分別是圖像大小調整(image resizing)和圖像樣式化(image stylization)

  • image resizing : 是指經過檢測出圖像顯著性物體之後,將顯著物體放大,換句話說切割保留出顯著物體的部分;
  • image stylization : 是指經過檢測出顯著物體之後,將圖像加強,從而起到強調場景中重要物體的作用;

第五要點:結論

文章最後得到結論:superCNN網絡是一個通用顯著性檢測器,能適用各種場景的圖像,克服了傳統CNN不能用於對比信息提取和只能獲取明顯的特定類別的信息的問題。
文章提出的superCNN方法還是第一個使用CNN探索對比度信息的方法!
以上爲個人對SuperCNN文獻的理解,理解不到位,不足之處歡迎指出,本人虛心學習~~第一次寫對英文文獻的閱讀筆記 , 終於完成了, 有點雞凍, 上述內容純粹個人理解 , 請多多包涵 ~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章