論文閱讀訓練(14)

《Local Relation Networks for Image Recognition》(CVPR2019)

圖像識別的局部關係網絡

作者:胡瀚等

摘要

卷積層是CV中主要的特徵提取工具,然而卷積上的空間聚合是利用固定卷積的基礎模板匹配過程,對於建模不同空間分佈的視覺元素是非常低效的。這篇文章提出一個新的圖像特徵提取工具,稱爲局部關聯層(local relation layer),它基於局部像素對的組成關係自適應確定聚合權重。這個關係方法,可以組合視覺元素爲更高high-level特徵,以一種更有效的方式受益於語義推斷。建立在局部關係層上的網絡稱爲LR-Net,可以證明提高了建模性能比規則卷積。

問題:規則卷積在建模不同空間分佈的視覺元素有限制。

方法:提出規則卷積替代層——局部關係層,基於局部像素對的組成關係自適應確定聚合權重。特徵提取新工具,可以理解爲新的特徵提取,新的特徵設計。

 

效果:大尺度識別任務,在ImageNet上比規則卷積提高了建模性能。

相關工作:

1、卷積的擴展

(1)限制聚合input channels的範圍實現accuracy-efficiency的平衡

           例:分組卷積、depthwise卷積

(2)修改聚合的spatial範圍

           例:atrous/dilated卷積

(3)加強幾何信息建模

           例:active和變形卷積

卷積是一種top-down方式,在感受野範圍內基於image appearanc或空間位置來確定卷積行爲。

 局部關係層是一種bottom-up方式,基於像素對的組合性,對空間位置有更有效的編碼。

2、膠囊網絡

基於像素對的組合性的bottom-up方式,通過一個迭代過程計算組合性。

細節

局部關係層受關係建模影響,組合性由兩個像素的特徵映射到一個學習到的嵌入空間的相似度決定,這個嵌入可以理解爲幾何先驗。

自己的思考:

卷積學習每個特徵的相對空間位置,關係層把這種相對空間位置泛化成一個表示,或者說學習的是空間相對位置的一種表示關係,而不是具體的相對位置。

《Non-local Neural Networks》(cvpr2018)

作者:王小龍(CMU)等

摘要

卷積和循環操作建立的blocks處理局部鄰域信息。這篇文章中,提出非局部操作作爲捕捉long-range dependencies(長範圍依賴)的通用系列構建塊。受啓發於non-local means方法,局部操作計算一個位置的響應作爲所有位置上特徵的權重和。這個block可以插入到許多CV結構中。視頻分類任務中,even without any bells and whistles,non-local model可以完成或表現更好比當前方法在Kinetics and Charades datasets。靜態圖像識別中,在COCO上提高了檢測、分割、姿態估計精確度。代碼沒開源。

問題:卷積和循環處理局部信息

方法:提出處理non-local block捕捉long-range dependencies,局部操作計算一個位置的響應作爲所有位置上特徵的權重和。

效果:視頻分類任務中,even without any bells and whistles,non-local model可以完成或表現更好比當前方法在Kinetics and Charades datasets。靜態圖像識別中,在COCO上提高了檢測、分割、姿態估計精確度。

 

對於圖像數據,長距離依賴用卷積堆疊增大感受野來建模。卷積和循環在空間和時間上處理的是局部領域信息,因此長距離依賴只能通過重複操作捕捉,通過數據逐步傳播信號。

重複操作缺點:計算效率低;優化困難;遠程傳遞信息困難。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章