兩篇關於用DL做Semantic Image Segmentation的文章

一、Weakly- and Semi-Supervised Learning of a Deep Convolutional Networkfor Semantic Image Segmentation

這篇文章的主要貢獻點在於:

1、 實驗證明僅僅利用圖像整體的弱標籤很難訓練出很好的分割模型。

2、 可以利用bounding box 來進行訓練,並且得到了較好的結果,這樣可以代替用pixel-label訓練中的Grund truth

3、 當我們用小量的pixel-level anotatations和大量的圖像整體的弱標籤來進行半監督學習,其訓練結果可以和全部用pixel-level anotatations差不多

4、 利用額外的強弱標籤可以進一步提高效果(這一點不是太懂)。

這是用image-level labels來做的,其中通過對圖像的標籤對於每個像素進行處理,如果該像素的用CNN得到的score map中有該圖像標籤,則對m位置處的CNN輸出做調整並選取其中最大值作爲最新標籤,然後用M步中的批量梯度下降法得到新的CNN參數(這個步驟和之前用pixel-level做是一樣的),不再需要人工來做大量的工作進行像素級的標定。但是這種方法不太準確,所以用像素級的一部分標籤加上圖像的標籤來進行訓練。

 

二、Fully Convolutional Networks for Semantic Segmentation

這篇文章感覺很難懂,想了好久最後感覺這個題目的意思是這個網絡裏面沒有全連接層了,而是全部是卷積層。其中基本的思想就是以前的文章都是以一個區域的圖像通過CNN得到一個標籤,即該區域的分類,現在是要做像素級的分類,這樣那種做法就不合適了,最後的輸出應該是每個點輸入每類的一個概率圖,根據概率圖和其他信息(semantic image segmentation with deepconvolutional nets and fully connected CRFs)就可以得到分割結果了

大致的核心框架用上面的圖來表示,即通過多次pooling後feature圖會比較小,後面不再是全連接層,而是通過不同層的上採樣來得到最終的prediction maps,從而得到像素級的分類,即完成了分割,當然當3中方式中8x upsampled prediction (FCN-8s)的效果更好,原因是利用了更多的信息,另一方面,semantic image segmentation withdeep convolutional nets and fully connected CRFs利用新的方式(hole算法)來計算dense features,並加入CRF進行多次迭代獲得最優分割結果。在結果上是達到了71.6% IOU accuracy。


結果上是比微軟的還有上面提出的方法要好。上面都是幾篇關於用DL做圖像分割的文章,最近也是調研的比較多,新文章看起來也是一知半解,最近確實也有些忙,準備考試啥的,希望下個月能好點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章