VALSE2019小記

原創

2019-04-16 04:19

趁着有空去看了一波valse，和很多論文的作者當面討論了一些問題，在此主要記錄對一些paper的見解。

1. FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction

根據歐陽萬里老師介紹，這篇文章起初的motivation是希望將hourglass結構引入到分類網絡中，看有沒有效果，實驗表明沒什麼效果，考慮去掉最後的上採樣階段，使用1.5個hourglass式結構，也即本文提出的fishnet。文章中寫的motivation是爲cls,det,seg設計一個統一的backbone。

Abstract中有句話說的很好there is seldom backbone structure designed under the consideration of unifying the advantages of networks designed for pixellevel or region-level predicting tasks, which may require very deep features with high resolution，可以看出對於region-level, pix-level的task，需要高分辨率且高語義的feature，同樣的思想應用在王井東老師的一篇姿態估計的文章HRNet中（下面也會有介紹）。

拋卻最後一個上採樣過程不看，其實fishnet和fpn總體還是很相似的，不一樣的地方主要在橫向連接。FPN對兩個level的feature進行conv後再concat，然後傳給下一個level, fishnet則直接將兩個level的feature直接concat，然後對concat後的feature進行圖示操作，M表示一個殘差網絡，r是一個channel維度的pooling，其實就是用k個channel當前位置的響應值和代替當前值。因爲是直接concat，所以不存在高level和低level之間information的交錯（分辨率的提升註定channel降，因爲計算量）。fishnet中還有一個細節就是，不管在fish的哪個部位，傳遞特徵的都是concat層的feature，所以整個網絡的gradient傳播效果很好。

conclusion:1. 歐陽萬里老師其實並沒有解釋爲什麼hg的最後一個上採樣結構對cls不友好，這是可以挖掘的一個點；

2. hg結構已經在多個task上展露風采，有取代resnet的趨勢；

3. 高分辨率高語義的feature怎麼更有效的獲得？

2. Deep High-Resolution Representation Learning for Human Pose Estimation

這篇的HRNet各種霸榜刷屏啊，王井東老師也是在workshop中力推了這篇文章，而且一做Ke Sun在poster環節也展示了這篇論文。

論文的motivation還是很easy的，我們就是想要獲得高分辨率高語義的feature。現有的大部分方法，基於hourglass都是從low-resolution的feature中恢復到high-resolution，在恢復過程中難免會有一些問題，這也是必然的，那很顯然的就是說能不能一直保留high resolution的feature，貫穿整個cnn model。

盜用王井東老師的一張PPT，網絡的結構大致如上圖所示，在每個stage結束後，每個分辨率的feature都是由現有的所有的分辨率的feature共同獲得的，上採樣用最近鄰和1*1conv, 下采樣用3*3s=2，ke sun說上下采樣他們自己試過很多方法，包括pooling，billnear等，發現這樣設置是最好用的。當用於pose時，合併最後一個stage的所有feature得到高分辨的feature，用於最後的檢測。做detection時，用合併到的最後的high-resolution的feature下采樣產生一組不同scale的feature，構成feature pyramid.網絡整個flops不會太大，因爲高分辨率的feature channel很少，合併不同分辨率的feature用的sum，不是concat，不改變channel數目。其實個人估計網絡的速度也不會太快，因爲高分辨率的feature太多了，會導致mac很高，從而降低速度（參考shufflenet v2），而且網絡中的連接太多。

conclusion： 1.其實HRNet的motivation真的不要太簡單，但是在性能上也不要太work，很棒的工作~ 從結構上看HRNet更像是Unet的極限連接版。這麼來說的話，是不是去反思一下以前的經典結構，來個rethink，可以發一篇頂會？哈哈哈；

2. 在應用到detection的時候，其實構造的fp各層的knowledge是不一樣的，雖然現在的大尺度的feature也是high-level的，但是這沒有觸及到detection中的scale問題的本質，這是一個接下來想考慮的方向；

3. 類似於densenet的後續改進，hrnet中的這麼多連接真的有必要嗎？如何有效的去除冗餘性。

3.再更

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

VALSE2019小記

1. FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction

2. Deep High-Resolution Representation Learning for Human Pose Estimation

SSD代碼解讀（一）——Prior Box Layer

SSD代碼解讀（二）——Data Augmentation

VALSE2019小記

記錄C++刷Leetcode

SSD代碼解讀（三）——MultiboxLoss

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結