FCN

後記:

傳統方法使用patchwise training,爲了對像素進行分類,對該像素周圍的一個圖像塊作爲CNN的輸入,這樣做有幾個問題:

(1)存儲開銷大;(2)計算效率低下,因爲相鄰像素塊的內容基本重複;(3)像素塊的大小限制了感知區域的大小。

還有個問題,loss怎麼計算?

損失函數是在最後一層的spatial map上的每一個pixel的loss和,在每一個pixel使用softmax los。

 

FCN的優點和不足

與傳統用CNN進行圖像分割的方法相比,FCN有兩大明顯的優點:一是可以接受任意大小的輸入圖像,而不用要求所有的訓練圖像和測試圖像具有同樣的尺寸。二是更加高效,因爲避免了由於使用像素塊而帶來的重複存儲和計算卷積的問題。

同時FCN的缺點也比較明顯:一是得到的結果還是不夠精細。進行8倍上採樣雖然比32倍的效果好了很多,但是上採樣的結果還是比較模糊和平滑,對圖像中的細節不敏感。二是對各個像素進行分類,沒有充分考慮像素與像素之間的關係,忽略了在通常的基於像素分類的分割方法中使用的空間規整(spatial regularization)步驟,缺乏空間一致性。
---------------------

一、需要豐富的上下文信息,代表人的全局位置,並指示關鍵點之間的上下文關係(主要指感受野)

由此處理不可見關鍵點、遮擋關鍵點和其他複雜情況的預測。

  • 越深感受野可能會越大。
  • Atrous Spatial Pyramid Pooling和Pyramid Pooling Module 被廣泛用於在場景分析中提取豐富的上下文信息。

ASPP模塊採用具有不同擴展速率的Atrous卷積和全局池模塊;PPM模塊融合不同Pyramid Pooling規模下的特性,以獲得全局上下文先驗信息。

二:空間信息,可以提供細節信息,對於提煉關鍵點的位置有用(主要指特徵圖不斷變小,會損失位置信息)

     Consecutive下采樣或pooling可能會丟失空間信息,目前彌補方法有三種:

  • 空洞/膨脹卷積:Deeplab、Pyramid scene parsing network等。
  • 縮短低層與高層特徵之間的信息路徑:FPN, U-shape、Hourglass network
  • 跳躍連接:skip-connected network structure

三、生成高分辨率特徵圖,也就是二的空間信息

 it seems that obtaining high resolution feature maps is crucial, but no matter how

  • 使用上採樣來提高FM分辨率,並在其他塊中放置卷積參數放置:hourglass、cpn
  • 將上採樣和卷積參數以一種簡單得多的方式合併到反捲積層中,而不用跳過層連接:SimpleBaseline
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章