Efficient piecewise training of deep structured models for semantic segmentation閱讀筆記

題目:Efficient piecewise training of deep structured models for semantic segmentation

 

期刊級別(會議的也這麼標):CVPR A類 2016

 

針對的問題:改進語義分割,提高語義分割精度。

 

採用的方法:作者通過使用上下文信息來改進語義分割。作者研究了圖像區域之間的“碎片-碎片”上下文(patch-patch context)和“碎片-背景”上下文(patchbackground context)。爲了從碎片環境中學習,作者制定了基於cnn的成對勢函數條件隨機模型(CRFs)來捕獲相鄰塊之間的語義相關性的字段。在此基礎上,對所提出的深度結構模型進行了有效的分段訓練作者所提出的分段是將提取特徵圖分爲一段,利用圖像區域之間的“碎片-碎片”上下文爲第二段,利用多尺度圖像輸入和滑動金字塔的網絡設計是第三段。其中只有第二段是作者設計的,剩下的都是以前的方法,避免了反向傳播中重複的代價高昂的CRF推理。在捕獲補丁背景上下文方面,作者證明了使用傳統的多尺度圖像輸入和滑動金字塔池的網絡設計可以有效地提高性能。

 

存在的問題:該方法在後處理階段使用上採用和細化來輸出最終的預測,但是經過上採樣會造成局部信息丟失,這不利於提高語義分割性能。因爲作者採用了三段來進行語義分割,這導致該模型嚴重消耗內存,訓練時間長,分割速度慢。

 

受到的啓發:上下文信息是最重要的線索,特別是當單個對象出現明顯的視覺模糊時。上下文信息對於像素標籤的預測和判斷很有用。利用上下文信息的方法一般是條件隨機域(crfs)。

很多論文都有一些缺陷,比如這篇文章中出現了上採樣,有點文章就說上採樣不好會丟失部分信息,是不是可以這樣改進?

現有的論文會解決舊論文中的一些缺陷,但是並沒有全部解決。什麼意思呢?就是把一篇論文中的方法來解決另一片論文中的問題。

 

總結:作者提出了一種將CNNs與CRFs相結合的方法,利用複雜的上下文信息進行語義圖像分割。作者提出了基於CNN的成對勢來建模圖像區域間的語義關係。作者的方法在包括PASCAL VOC 2012數據集在內的幾個流行數據集上顯示出最佳性能。該方法具有廣泛的應用前景

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章