VALSE2019小記

趁着有空去看了一波valse,和很多論文的作者當面討論了一些問題,在此主要記錄對一些paper的見解。

 

1. FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction

根據歐陽萬里老師介紹,這篇文章起初的motivation是希望將hourglass結構引入到分類網絡中,看有沒有效果,實驗表明沒什麼效果,考慮去掉最後的上採樣階段,使用1.5個hourglass式結構,也即本文提出的fishnet。文章中寫的motivation是爲cls,det,seg設計一個統一的backbone。

Abstract中有句話說的很好there is seldom backbone structure designed under the consideration of unifying the advantages of networks designed for pixellevel or region-level predicting tasks, which may require very deep features with high resolution,可以看出對於region-level, pix-level的task,需要高分辨率且高語義的feature,同樣的思想應用在王井東老師的一篇姿態估計的文章HRNet中(下面也會有介紹)。

拋卻最後一個上採樣過程不看,其實fishnet和fpn總體還是很相似的,不一樣的地方主要在橫向連接。FPN對兩個level的feature進行conv後再concat,然後傳給下一個level, fishnet則直接將兩個level的feature直接concat,然後對concat後的feature進行圖示操作,M表示一個殘差網絡,r是一個channel維度的pooling,其實就是用k個channel當前位置的響應值和代替當前值。因爲是直接concat,所以不存在高level和低level之間information的交錯(分辨率的提升註定channel降,因爲計算量)。fishnet中還有一個細節就是,不管在fish的哪個部位,傳遞特徵的都是concat層的feature,所以整個網絡的gradient傳播效果很好。

conclusion:1. 歐陽萬里老師其實並沒有解釋爲什麼hg的最後一個上採樣結構對cls不友好,這是可以挖掘的一個點;

2. hg結構已經在多個task上展露風采,有取代resnet的趨勢;

3. 高分辨率高語義的feature怎麼更有效的獲得?

 

2. Deep High-Resolution Representation Learning for Human Pose Estimation

這篇的HRNet各種霸榜刷屏啊,王井東老師也是在workshop中力推了這篇文章,而且一做Ke Sun在poster環節也展示了這篇論文。

論文的motivation還是很easy的,我們就是想要獲得高分辨率高語義的feature。現有的大部分方法,基於hourglass都是從low-resolution的feature中恢復到high-resolution,在恢復過程中難免會有一些問題,這也是必然的,那很顯然的就是說能不能一直保留high resolution的feature,貫穿整個cnn model。

盜用王井東老師的一張PPT,網絡的結構大致如上圖所示,在每個stage結束後,每個分辨率的feature都是由現有的所有的分辨率的feature共同獲得的,上採樣用最近鄰和1*1conv, 下采樣用3*3s=2,ke sun說上下采樣他們自己試過很多方法,包括pooling,billnear等,發現這樣設置是最好用的。當用於pose時,合併最後一個stage的所有feature得到高分辨的feature,用於最後的檢測。做detection時,用合併到的最後的high-resolution的feature下采樣產生一組不同scale的feature,構成feature pyramid.網絡整個flops不會太大,因爲高分辨率的feature channel很少,合併不同分辨率的feature用的sum,不是concat, 不改變channel數目。其實個人估計網絡的速度也不會太快,因爲高分辨率的feature太多了,會導致mac很高,從而降低速度(參考shufflenet v2),而且網絡中的連接太多。

conclusion: 1.其實HRNet的motivation真的不要太簡單,但是在性能上也不要太work,很棒的工作~ 從結構上看HRNet更像是Unet的極限連接版。這麼來說的話,是不是去反思一下以前的經典結構,來個rethink,可以發一篇頂會?哈哈哈;

2. 在應用到detection的時候,其實構造的fp各層的knowledge是不一樣的,雖然現在的大尺度的feature也是high-level的,但是這沒有觸及到detection中的scale問題的本質,這是一個接下來想考慮的方向;

3. 類似於densenet的後續改進,hrnet中的這麼多連接真的有必要嗎?如何有效的去除冗餘性。

 

3.再更

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章