論文閱讀訓練(13)

《Pixel-Adaptive Convolutional Neural Networks》(2019)

作者:UMass Amherst  NVIDIA

摘要

卷積是CNN的基礎組成block,被廣泛使用的主要原因是它們的權重是空間共享的,也是最主要的限制,是使得卷積是內容無關的。此篇文章提出一個像素自適應的卷積操作,簡稱(PAC),對標準卷積的簡單有效修改,其中濾波器權重乘以空間變化的內核,變化內核取決於可學習的、局部像素特徵。PAC是幾個有名的濾波技術的泛化,因此可以廣範使用。具體的,證明當PAC用於deep joint image upsampling(深聯合圖像上採樣)性能最好。PAC也可以對全連接CRF提供迭代,稱爲PAC-CRF,比Full-CRF更快。除此之外,PAC可用作預訓練網絡中卷積層的直接替代,從而實現一致的性能改進。

問題:處理卷積由於空間共享使得內容無關的限制。

方法:提出像素自適應卷積操作(PCA),對標準卷積的簡單有效修改,其中濾波器權重乘以空間變化的內核,變化內核取決於可學習的、局部像素特徵。

自適應核K用預訓練或學習的特徵構建,輸入V,操作:逐像素相乘求和。

效果:PAC是濾波器的泛化,可將預訓練網絡中的卷積層直接替換。

《Learning Region Features for Object Detection》(ECCV2018)

作者:Han Hu胡瀚(MSRA)【研究變形卷積、關係網絡等】

摘要

當前目標檢測方法中的大多數步驟都是可學習的,但區域特徵提取步驟仍然主要是手工製作,具有RoI池化方法的特徵。此篇工作提出一個泛化觀點,整合現存區域特徵提取方法和新的方法實現端到端學習。此文章提出的方法消除了大多數啓發式選擇,並且優於RoI pooling。它進一步向完全可學習的物體檢測方向發展。

問題:現存目標檢測方法的區域特徵提取不是可學習的,是手工製作的

方法:整合現存區域特徵提取方法和新的方法實現端到端學習。完全學習的區域特徵提取。

兩個貢獻:

1、提出區域特徵提取的泛化觀點。每個區域的bin或part的特徵可以被公式化爲在整個image上的不同位置的image features的加權求和。大多數以前的區域特徵提取方法通過以不同方式指定權重(大多數是手工製作)顯示爲該公式的具體化。

2、基於上述觀點,用一個可學習模塊從ROI和image features角度表示權重。權重由兩個因子影響:ROI和image positions的幾何相關性和image features本身。

幾何相關性建模用attention model(受啓發於《Attention is all you need》NIPS2017,《Relation networks for object detection》cvpr2018,胡瀚)

image features用DCN變形卷積提取

效果:優於RoI pooling

相關工作:可變形RoI poolin引入了從圖像內容自適應地學習的逐位偏移(DCN,ICCV2017)

文章細節:

part feature——泛化公式

\Omega _{b}——ROI或包含更多context part或整個image

p-空間位置

w_{k}\left ( b,p,x \right )——image feature x(p)在位置p求和的權重。(權重和爲1)

\bigodot——逐元乘積

1、規則的ROI pooling:

\Omega _{b}=ROI,劃分爲7*7 bins,y(b)計算用max、average等,Rbk——第k個bin裏的所有位置集合。

缺點:由於空間下采樣,不能區分非常近的ROI,若兩個ROIs距離小於16個像素,它們的ROIs是相同的並且特徵也是相同的。

2、Spatial Pyramid Pooling(空間金字塔pooling)(ECCV2014)

Spatial Pyramid Pooling是在不同級別的網格劃分上應用常規RoI Pooling

3、Aligned RoI Pooling(Mask RCNN)(ICCV2017)

規則ROI pooling通過下采樣和pooling兩次向下取整產生很大偏移,區域特徵對ROI位置細微變化很敏感,故Aligned RoI Pooling用雙線型插值解決規則ROI pooling的量化問題。

4、Deformable RoI pooling(DCN,變形卷積,控制採樣點位置,ICCV2017)

通過學習每個bin的偏移量offsets,並將其添加到bin中心來推廣Aligned RoI Pooling。

5、earn the weight w k (b, p, x) in Eq. (2) withminimum hand crafting

捕捉幾何相關性:公式(8)本質是注意力模型(需要再理解)

第一步,box和image位置嵌入到高維空間中,通過將不同波長的正弦和餘弦函數應用於標量z來執行嵌入:

第二步,嵌入向量\varepsilon ^{im}\left ( p \right )\varepsilon ^{box}\left ( b \right )權重矩陣W^{im} and W_{k}^{box}線性變換,是可學習的。

第三步,兩個變換向量的內積作爲幾何相關權重。

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章