deformable convolutional networks論文閱讀理解

如同視覺是人們獲取信息的主要渠道一樣,計算機視覺也是人工智能研究領域的核心問題之一,已有幾十年的研究歷史。顧名思義,計算機視覺是研究如何讓電腦“看懂”圖像,例如,對圖像中的物體進行識別、分割、跟蹤和三維幾何測量等。


由於同樣的物體在圖像中可能呈現出不同的大小、姿態、視角變化甚至非剛體形變,因此如何適應這些複雜的幾何形變是物體識別的主要難點,同時也是計算機視覺領域多年來關注的核心問題。很多傳統經典方法,如尺度不變的特徵變換(scale invariant feature transform, or SIFT)和可變形部件模型(deformable part models)等,都旨在解決這一問題。然而,由於人工設計特徵的侷限性,傳統視覺方法在物體識別問題上多年來並未取得突破性的進展。


不久前,微軟亞洲研究院視覺計算組的研究員在arXiv上公佈了一篇題爲“Deformable Convolutional Networks”(可變形卷積網絡)的論文,首次在卷積神經網絡(convolutional neutral networks,CNN)中引入了學習空間幾何形變的能力,得到可變形卷積網絡(deformable convolutional networks),從而更好地解決了具有空間形變的圖像識別任務。

 

研究員們通過大量的實驗結果驗證了該方法在複雜的計算機視覺任務(如目標檢測和語義分割)上的有效性,首次表明在深度卷積神經網絡(deep CNN)中學習空間上密集的幾何形變是可行的。該論文的源代碼也於近期在GitHub上公佈。

卷積神經網絡的成功和侷限


近年來,隨着深度卷積神經網絡的普遍使用,很多困難的視覺問題都獲得了重大突破。圖像識別於兩年多前首次超越了人類的識別能力。物體檢測、圖像分割等也都達到了幾年前傳統方法難以企及的高度。


由於強大的建模能力和自動的端到端的學習方式,深度卷積神經網絡可以從大量數據中學習到有效特徵,避免了傳統方法人工設計特徵的弊端。然而,現有的網絡模型對於物體幾何形變的適應能力幾乎完全來自於數據本身所具有的多樣性,其模型內部並不具有適應幾何形變的機制。究其根本,是因爲卷積操作本身具有固定的幾何結構,而由其層疊搭建而成的卷積網絡的幾何結構也是固定的,所以不具有對於幾何形變建模的能力。


舉個例子,想要識別出同一圖像中不同大小的物體(比如遠近不同的兩個人),理想的結果是,在對應於每個物體的位置網絡需要具有相應大小的感受野(receptive field)。直觀的說,爲了識別更大的物體網絡需要看到更大的圖像區域。然而,在現有的卷積網絡架構中,圖像中任何位置的感受野大小都是相同的,其取決於事先設定的網絡參數(卷積核的大小、步長和網絡深度等),無法根據圖像內容自適應調整,從而限制了識別精度。

消除網絡難以適應幾何變形的“罪魁禍首”


追根溯源,上述侷限來自於卷積網絡的基本構成單元,即卷積操作。該操作在輸入圖像的每個位置時會進行基於規則格點位置的採樣,然後對於採樣到的圖像值做卷積並作爲該位置的輸出。通過端到端的梯度反向傳播學習,系統將會得到一個用矩陣表示的卷積核的權重。這就是自卷積網絡誕生之初,已使用二十多年的基本單元結構。


微軟亞洲研究院的研究員們發現,標準卷積中的規則格點採樣是導致網絡難以適應幾何形變的“罪魁禍首”。爲了削弱這個限制,研究員們對卷積核中每個採樣點的位置都增加了一個偏移的變量。通過這些變量,卷積核就可以在當前位置附近隨意的採樣,而不再侷限於之前的規則格點。這樣擴展後的卷積操作被稱爲可變形卷積(deformable convolution)。標準卷積和可變形卷積在圖1中有簡要的展示。


圖1:展示了卷積核大小爲 3x3 的正常卷積和可變形卷積的採樣方式,(a) 所示的正常卷積規律的採樣 9 個點(綠點),(b)(c)(d) 爲可變形卷積,在正常的採樣座標上加上一個位移量(藍色箭頭),其中(c)(d) 作爲 (b) 的特殊情況,展示了可變形卷積可以作爲尺度變換,比例變換和旋轉變換的特殊情況


事實上,可變形卷積單元中增加的偏移量是網絡結構的一部分,通過另外一個平行的標準卷積單元計算得到,進而也可以通過梯度反向傳播進行端到端的學習。加上該偏移量的學習之後,可變形卷積核的大小和位置可以根據當前需要識別的圖像內容進行動態調整,其直觀效果就是不同位置的卷積核採樣點位置會根據圖像內容發生自適應的變化,從而適應不同物體的形狀、大小等幾何形變,如圖2、圖3中所展示。

圖2:兩層3*3的標準卷積和可變形卷積的區別。(a) 標準卷積中固定的感受野和卷積核採樣點。(b) 可變性卷積中自適應的感受野和卷積核採樣點。


圖 3:更多可變形卷積的示例。每個圖像三元組顯示了三層3x3可變形卷積核的採樣點位置(共729個點),對應於三個不同的圖像區域(從左至右,背景,小物體,大物體)。


可變形卷積神經網絡:簡明深刻的網絡結構革新


可變形卷積單元具有諸多良好的性質。它不需要任何額外的監督信號,可以直接通過目標任務學習得到。它可以方便地取代任何已有視覺識別任務的卷積神經網絡中的若干個標準卷積單元,並通過標準的反向傳播進行端到端的訓練。由此得到的網絡則稱爲“可變形卷積網絡”。


可變形卷積網絡是對於傳統卷積網絡簡明而又意義深遠的結構革新,具有重要的學術和實踐意義。它適用於所有待識別目標具有一定幾何形變的任務(幾乎所有重要的視覺識別任務都有此特點,人臉、行人、車輛、文字、動物等),可以直接由已有網絡結構擴充而來,無需重新預訓練。它僅增加了很少的模型複雜度和計算量,且顯著提高了識別精度。例如,在用於自動駕駛的圖像語義分割數據集(CityScapes)上,可變形卷積神經網絡將準確率由70%提高到了75%。


此外,通過增加偏移量來學習幾何形變的思想還可方便地擴展到其它計算單元中去。例如,目前業界最好的物體檢測方法都使用了基於規則塊採樣的興趣區域(region of interests, ROI)池化(pooling)。在該操作中,對於每個採樣的規則塊增加類似的偏移量,從而得到可變形興趣區域池化 (deformable ROI pooling)。由此所獲得的新的物體檢測方法也取得了顯著的性能提升。

卷積網絡的新思路


近年來,與神經網絡結構相關的研究工作層出不窮,大多是對於各種基本網絡單元連接關係的研究。不同於大部分已有的工作,可變形卷積網絡首次表明了可以在卷積網絡中顯式地學習幾何形變。它修改了已使用二十餘年的基本卷積單元結構,在重要的物體檢測和語義分割等計算機視覺任務上獲得了重大的性能提升。


可以想象,在不遠的未來,在更多的計算機視覺識別任務中(如文字檢測、視頻物體檢測跟蹤等)都將看到它的成功應用。


相關鏈接:

http://blog.csdn.net/xbinworld/article/details/69049680

http://blog.csdn.net/xbinworld/article/details/69367281

http://www.cnblogs.com/neopenx/p/4851806.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章