NAS-FPN以及相關優化PANet/ThunderNet/HRnet/Libra-rcnn

1.NAS-FPN使用強化學習的方式對FPN網絡自動搜索,在coco數據集上得到了最好的FPN結果。可以理解爲連連看,然後連出一個最好的。如下圖:a圖爲原始的FPN, 好看整齊。然後在一步一步搜索的reward下,結構組件變化。由b--->f變爲最終的結果。雖然不好看。

最終NAS-FPN結構爲:可以看到和retinanet一樣有5個輸入p3,p4,p5,p6,p7然後對應5個輸出p3,p4,p5,p6,p7作者也是在retinanet上應用的NAS-FPN與別的方法進行比較。結果詳見論文,可以漲不少點

參考:https://cloud.tencent.com/developer/article/1505713

2.PAnet:Path aggregation network for instance segmentation

思路:原始FPN低級特徵需要經過很多層卷積(甚至100+)纔可以得到高級特徵.如下圖的紅線所示. 對應像素級別的任務, 低級特徵作用很大, 所以作者想在low level和high level建立一個快速通道,類似resnet中的shortcut思想.具體做法, 如下圖中的(b)再加一層自下而上的部分.因爲p2-p5只有幾層, 所以N2-N5這部分小於10層(如綠線所示).(一種連連看版本)

3.ThunderNet

思路:用於移動端的模型。在C5基礎上再來一波全局pooling增加感受野,然後和C4,C5融合.針對特定任務的設計。

4.HRnet

思路爲保持高分辨率。最多隻有4倍降採樣。所以結果好,但是速度慢!!!

5.Libra-rcnn:Towards Balanced Learning for Object Detection

思路:解決特徵尺度與分辨率的不平衡。在原始FPN輸出的基礎上右側加入integrate,refine,以及short-cut.

1)Integrate(獲取平衡的語義特徵): 通過把C2,C3,C5(原始FPN輸出)都rescale到C4分辨率,然後求average.

2)refine(進一步refine特徵)。作者參考別人的工作,對1)結果使用Gaussian non-local attention增加感受野精煉

3) Identity 對refine的結果rescale到C2-C5尺度(maxpooling以及interploate)同時包括和C2-C5殘差連接,類似FPN.

結構類似PAnet:區別.PAnet在FPN基礎上增加一個自下而上的層,然後殘差連接;libra-rcnn先集成再精煉,然後再rescale自上而下殘差連接;1)兩者連接方向不同.2)libra-rcnn增加了兩個過程. NAS-FPN則是一個花裏胡哨的連連看版本.

https://www.zhihu.com/question/319458937/answer/647082241

https://zhuanlan.zhihu.com/p/33345791

6.Efficient Attention: Attention with Linear Complexities

 

總結:

PAnet,LiBRA-RCNN引入的計算量較少,可以嘗試效果。NAS-FPN最牛逼,手動設計的連連看,不如搜一把。可以嘗試NAS-FPN

參考:https://zhuanlan.zhihu.com/p/63047557

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章