【總結】不規則卷積神經網絡:可動態提升內核效率

 

  近日,自動化所馬佳彬、王威、王亮等研究人員在arxiv上預發表了一項研究,提出了一種新形式的卷積神經網絡——不規則卷積神經網絡,這種新的方法能夠解決常規卷積效率低下的問題。  

   

 

       在深度卷積神經網絡(CNN)中,卷積核是最基本和最重要的組件。研究人員給卷積核配置了形狀屬性以生成不規則卷積神經網絡(ICNN)。與傳統CNN使用規則卷積核(如3x3)不同,該方法訓練了不規則的內核形狀,以更好地適應輸入特徵的幾何變化。換言之,除權重以外,形狀也是可以學習的參數。在端對端的訓練中,使用標準的反向傳播算法,卷積核的形狀和權重就能同時學習出來。研究人員使用ICNN進行了圖像語義分割的實驗,以驗證模型的有效性。  

    

  問題提出 

  近年來,卷積神經網絡(CNN)在學界和業界廣受歡迎,已被成功地應用到各種特徵提取的任務當中。CNN的效果相較於前有很大提升,對各種任務的實用性都非常的強,但儘管如此,經典CNN仍存在一些問題值得探討和深究。 

   

 

  圖1 規則與不規則卷積核的對比。(a)不規則輸入特徵,其範圍超越了3x3的區域 (b)兩個3x3的卷積核,它們聯合建模了輸入特徵(c)從3x3卷積核到不規則卷積核的變形過程示例。 

    

  首先,卷積核的規則形狀和不規則的特徵模式並不匹配。在視覺任務中有一個重要的事實:雖然輸入圖像擁有矩形的形狀且尺寸固定,但圖像中的物體大多是形狀不規則的——而這些物體纔是研究中真正感興趣的部分。以圖像分類爲例,常常需要的是給圖像中的目標分類,而非圖像本身。而這種情況在物體檢測和分割中更加明顯,因爲這些任務的基本思想就是將不規則的目標從圖像中分離出來。由於卷積運算本質上是兩個向量的點積操作,即特徵模式和卷積核,那麼這兩個向量在理想狀態下應該具有相同的屬性,這樣才能獲得更加準確的響應。也就是說,卷積核應該跟輸入特徵模式一樣,也擁有不規則的形狀,這樣模型才能更好地提取最有價值的信息。而傳統卷積神經網絡的內核形狀通常是固定的,不能通過訓練來直接學習得到。  

       相應地,形狀的不匹配導致了規則卷積核在對不規則特徵模式進行建模時效率低下。實際上,規則形狀的卷積核也可以模擬不規則的特徵模式,其基本思想是,在規則形狀內不同尺度的權重分佈可以具有與不規則形狀相類似的效果。如圖1 (b)所示,兩個規則卷積核K1和K2都因爲其特殊的分佈,而擁有了建模不規則形狀的能力。但這種方式消耗了18個權重參數去建模9個像素的輸入特徵。而且需要注意的是,如果輸入特徵更加細長或離散、如果卷積核更加離散(Dilated Convolution),這種低效的情況還會加劇。  

   

  解決方案 

  由於基本問題是規則卷積核與不規則輸入特徵的形狀不匹配,那麼最直觀而合理的解決方案就是使卷積核的形狀不規則且可訓練。如圖1 (c)所示,3x3的規則卷積核可以通過變形學習到一個新的不規則的形狀。在變形的過程中,原本規則卷積核內的權重將會移動到新的位置來找到更有價值的特徵信息。而移動的範圍沒有絕對限制,可以超出原先規則卷積核的範圍。變形後,雖然權重數量不變,但不規則卷積核已經能夠建模更加複雜的特徵,而這個特徵本應該被多個規則卷積核共同建模。 

     

   

 

  圖2 (a)規則卷積核各個權重的位置固定在一個矩形上 (b)不規則卷積核各權重的位置會隨着訓練而發生變化,損失函數梯度的反向傳播會直接作用在不規則卷積核的形狀變量上 (c) 位置浮動的雙線性插值。 

    爲了讓卷積核擁有形變的能力,直接爲其賦予可學習的權重位置變量(用以表徵核的形狀信息)。由於可導性的要求,位置變量必須滿足連續性——用浮點小數表示。浮點小數的使用又自然地將插值操作應用進來,進而成功地建立起了用小數表示的形變位置、用整數表示的原始位置、輸入特徵和輸出特徵這四者的函數關係,最終使權重位置變量獲得可學習的能力。 

   

  訓練結果示意 

  爲了更深刻地理解卷積核最後變成了什麼形狀,論文作者可視化了若干層的卷積核訓練結果。實驗使用Resnet101在pascal voc數據集上進行了語義分割訓練。 

   

  

 

  圖3 來自不同層的卷積核形狀示意。(a)是最後一個卷積層fc1_voc12的卷積核,(c)是(a)在高-寬二維平面上的投影。(b)和(d)是另外相應層卷積核的二維投影。在這些圖中,相同顏色的點意味着它們原本屬於3x3矩形中的同一個位置。Px,Py代表高-寬平面,而channel代表輸入數據流的通道數。 

 

和原始規則卷積核比較:不規則卷積核的權重能夠抽取多種不同尺寸和形狀的信息。我們可以發現,原本屬於同一位置的權重,在變形後大致擁有一個高斯分佈的特性(即圖中)。9個分佈中心大致與規則形狀時的原位置相同,但分佈的伸展性保證了不同尺度的信息融合。不同層之間的卷積核比較:從子圖(c)和另兩張子圖的比較中可以發現,越深的層,卷積核更加呈現出帶狀延伸。這種大幅的延伸方式使得較深的處理層能夠更好地綜合全局信息。 

    

  分割結果對應熱度圖展示 

  在語義分割任務中,對於一個特定的像素點來說,綜合合適的圖像信息對於分類結果的準確性非常重要。本實驗中的熱度圖評估了,在對某一特定像素分類時,圖像中各個位置對其分類結果的貢獻值。紅色貢獻大,藍色貢獻小。 

    

     圖4 第一行,原始圖像中使用紅色十字標記的像素爲最終的分類目標。以下兩行熱圖表示的是對首行標記像素分類結果的貢獻熱度圖,其中第二行代表使用規則卷積核的結果,第三行代表使用不規則卷積核的結果。圖中黑色框框出的區域表示本不該被關注的干擾區,黃色框框出的區域表示應該關注的有價值的區域。 

 

    

  圖4首先表明不規則卷積核可以更好地過濾掉分散注意力的干擾區。在第一列中,使用規則卷積核的傳統卷積網絡不可避免地加強了變化劇烈的梯子部分的響應,而ICNN卻很好地過濾了這部分干擾。再者,它也表明不規則卷積核能夠考慮更加全局的信息。如第三列所示,在對馬脖子上標記像素進行分類時,除了附近的區域,不規則卷積網絡還會加強對馬頭部和後腿部位的響應。而且稍微提升注意力觀察,我們就能發現ICNN在對腹部、後腿、尾巴的響應更加精確。

總結 

  ICNN的目標在於建立起輸入特徵和卷積核的形態兼容,從而提升參數利用的效率。通過爲卷積核添加形狀屬性,並使用雙線性插值使其可以進行端到端的訓練。這種改進可以在不添加任何子網絡的情況下,平滑地集成到現有的卷積神經網絡模型當中。 

    

  瞭解更多,請點擊原文地址:https://arxiv.org/pdf/1706.07966.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章