【論文筆記】Active Convolution: Learning the Shape of Convolution for Image Classification

Active Convolution: Learning the Shape of Convolution for Image Classification

主要思想

這篇論文的主要思想是在卷積神經網絡中的卷積核的改進。論文提出近年來涌現出的網絡,例如ResNet, Inception,都是對卷積神經網絡結構的調整,提高網絡的性能。卷積作爲卷積神經網絡的核心部分,改進的方法卻不多。論文提出了一種可以自動學習卷積核(突觸)在圖像中的位置的算法。

算法描述

這篇論文的思想很簡單。首先,傳統的卷積操作都是與圖像上的對應位置的像素的乘積求和,這些像素的位置是固定的,也就是說,卷積的形狀是固定的。論文提出的方法是,這些像素的位置可以不是固定的,可以是在兩個像素之間的。把離散的輸入空間變成一個連續的,連續的空間位置對應確定的值,這些值是通過線性插值得到的。先給出論文最後學習到的卷積的形狀,以便於理解。
這裏寫圖片描述
從圖中,可以看出,較低層的卷積的形狀與傳統標準的並沒有太大的區別。但是高層次的卷積的形狀則與標準的大不相同。卷積對應的位置與標準的相差較大。這樣我們就可以理解論文的主要目的了,就是要通過學習過程,自動的找到卷積的位置。而且可以看出傳統的方法是論文方法的特例(只需要將卷積的位置設置在像素中心就好)。

這裏寫圖片描述
那麼如何表示位置信息呢,論文提出了兩個變量alpha,beta。表示水平移動和垂直移動。每個突觸有兩個變量,假設有K個突觸,則會多出2XK個變量,但是與網絡成千上萬個參數來比,數目增加的不是很多。

前向傳播

卷積的公式可以表示爲如下形式:
這裏寫圖片描述
對應位置的像素值通過插值得到
這裏寫圖片描述這裏寫圖片描述

反向傳播

W和b個傳播過程與其他的方法基本相同,不同的是對alpha和beta的求導過程。
這裏寫圖片描述
另外在進行alpha和beta更新的時候,對梯度進行歸一化。另外學習率設置爲0.001。那麼1000的迭代,最多移動一個像素。這都是爲了保證網絡的穩定性的措施。另外,論文認爲訓練開始的時候,網絡是極度的不穩定,那麼會導致卷積位置的不斷震盪,而且有可能陷入局部最小值。因此在訓練的初期,卷積的形狀固定,學習一個穩定的w和b,然後再進行形狀的學習。

實驗部分

論文在不同的網絡結構上採用了ACU單元進行學習。可以發現分類精度都有一定的提高。這裏寫圖片描述
這裏寫圖片描述
論文還將ACU單元應用到了AlexNet,ResNet 中,都得到了一定程度的提高。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章