【閱讀筆記】Fully Convolutional Networks for Semantic Segmentation

論文翻譯:https://www.cnblogs.com/xuanxufeng/p/6249834.html

比較不錯的論文解讀:https://blog.csdn.net/a8039974/article/details/78432832

論文幹了啥?

簡單來說,過去的神經網絡最後把整張圖給算成了一個特徵向量。像AlexNet就是算成了一個1000*1的向量,對應這張圖是某個類別的概率,所以可以通過np.argmax()得到最有可能的分類;而全卷積則是把圖片轉換爲一個矩陣,或者說一張“概率圖”,所以我們可以找到其上概率最大的像素,它對應目標(貓,狗)的位置。

 

如何做到的?

將傳統網絡,例如AlexNet最後的全連接層變成卷積層,這個卷積層的任務應該就是把原本已經是“長方體”的矩陣變成一個單層的矩陣。

下采樣原理:對於一幅圖像I尺寸爲M*N,對其進行s倍下采樣,即得到(M/s)*(N/s)尺寸的得分辨率圖像,當然s應該是M和N的公約數才行,如果考慮的是矩陣形式的圖像,就是把原始圖像s*s窗口內的圖像變成一個像素,這個像素點的值就是窗口內所有像素的均值:

上採樣原理:圖像放大幾乎都是採用內插值方法,即在原有圖像像素的基礎上在像素點之間採用合適的插值算法插入新的元素。

 

Shift-and-stitch是什麼?

推薦文章:https://www.jianshu.com/p/e534e2be5d7d

是從coarse outputs(粗糙輸出)到dense predictions(稠密預測)的一種trick。

他的實現有三步:

1.將圖像向右下方移動(x,y)個單位,x=0,1,...,f-1; y=0,1,...,f-1. 獲得f^2個圖片;

2.將f^2個輸入進行處理,獲得f^2個輸出;

3.進行stitch,這一步可參考推薦文章最後的圖片。

 

上採樣的方式?

推薦文章:https://blog.csdn.net/nijiayan123/article/details/79416764

簡單來說就是上採樣就是通過補位來把圖片變大;這裏作者爲了防止細節丟失,將除了第五層之外的三四層都參與上採樣。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章