《Pixel-Adaptive Convolutional Neural Networks》(2019)
作者:UMass Amherst NVIDIA
摘要
卷積是CNN的基礎組成block,被廣泛使用的主要原因是它們的權重是空間共享的,也是最主要的限制,是使得卷積是內容無關的。此篇文章提出一個像素自適應的卷積操作,簡稱(PAC),對標準卷積的簡單有效修改,其中濾波器權重乘以空間變化的內核,變化內核取決於可學習的、局部像素特徵。PAC是幾個有名的濾波技術的泛化,因此可以廣範使用。具體的,證明當PAC用於deep joint image upsampling(深聯合圖像上採樣)性能最好。PAC也可以對全連接CRF提供迭代,稱爲PAC-CRF,比Full-CRF更快。除此之外,PAC可用作預訓練網絡中卷積層的直接替代,從而實現一致的性能改進。
問題:處理卷積由於空間共享使得內容無關的限制。
方法:提出像素自適應卷積操作(PCA),對標準卷積的簡單有效修改,其中濾波器權重乘以空間變化的內核,變化內核取決於可學習的、局部像素特徵。
自適應核K用預訓練或學習的特徵構建,輸入V,操作:逐像素相乘求和。
效果:PAC是濾波器的泛化,可將預訓練網絡中的卷積層直接替換。
《Learning Region Features for Object Detection》(ECCV2018)
作者:Han Hu胡瀚(MSRA)【研究變形卷積、關係網絡等】
摘要
當前目標檢測方法中的大多數步驟都是可學習的,但區域特徵提取步驟仍然主要是手工製作,具有RoI池化方法的特徵。此篇工作提出一個泛化觀點,整合現存區域特徵提取方法和新的方法實現端到端學習。此文章提出的方法消除了大多數啓發式選擇,並且優於RoI pooling。它進一步向完全可學習的物體檢測方向發展。
問題:現存目標檢測方法的區域特徵提取不是可學習的,是手工製作的
方法:整合現存區域特徵提取方法和新的方法實現端到端學習。完全學習的區域特徵提取。
兩個貢獻:
1、提出區域特徵提取的泛化觀點。每個區域的bin或part的特徵可以被公式化爲在整個image上的不同位置的image features的加權求和。大多數以前的區域特徵提取方法通過以不同方式指定權重(大多數是手工製作)顯示爲該公式的具體化。
2、基於上述觀點,用一個可學習模塊從ROI和image features角度表示權重。權重由兩個因子影響:ROI和image positions的幾何相關性和image features本身。
幾何相關性建模用attention model(受啓發於《Attention is all you need》NIPS2017,《Relation networks for object detection》cvpr2018,胡瀚)
image features用DCN變形卷積提取
效果:優於RoI pooling
相關工作:可變形RoI poolin引入了從圖像內容自適應地學習的逐位偏移(DCN,ICCV2017)
文章細節:
part feature——泛化公式
——ROI或包含更多context part或整個image
p-空間位置
——image feature x(p)在位置p求和的權重。(權重和爲1)
——逐元乘積
1、規則的ROI pooling:
=ROI,劃分爲7*7 bins,y(b)計算用max、average等,Rbk——第k個bin裏的所有位置集合。
缺點:由於空間下采樣,不能區分非常近的ROI,若兩個ROIs距離小於16個像素,它們的ROIs是相同的並且特徵也是相同的。
2、Spatial Pyramid Pooling(空間金字塔pooling)(ECCV2014)
Spatial Pyramid Pooling是在不同級別的網格劃分上應用常規RoI Pooling
3、Aligned RoI Pooling(Mask RCNN)(ICCV2017)
規則ROI pooling通過下采樣和pooling兩次向下取整產生很大偏移,區域特徵對ROI位置細微變化很敏感,故Aligned RoI Pooling用雙線型插值解決規則ROI pooling的量化問題。
4、Deformable RoI pooling(DCN,變形卷積,控制採樣點位置,ICCV2017)
通過學習每個bin的偏移量offsets,並將其添加到bin中心來推廣Aligned RoI Pooling。
5、earn the weight w k (b, p, x) in Eq. (2) withminimum hand crafting
捕捉幾何相關性:公式(8)本質是注意力模型(需要再理解)
第一步,box和image位置嵌入到高維空間中,通過將不同波長的正弦和餘弦函數應用於標量z來執行嵌入:
第二步,嵌入向量和權重矩陣線性變換,是可學習的。
第三步,兩個變換向量的內積作爲幾何相關權重。