SiamRPN++

Paper : SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
Code : official

摘要

作者研究的核心是如何將網絡深度較深的結構應用到SiamRPN網絡中。作者發現現有的SiamRPN以及它的改進大多使用AlexNet等相對來說深度比較低的CNN結構進行feature extraction,而使用例如ResNet之類深度較深的結構對於Object Tracking任務來說並沒有明顯的提升。作者經過理論分析和實驗發現,深度神經網絡對嚴格的平移不變性會產生影響,因此提出了一種簡單並有效的採樣策略來打破空間不變性的限制,還提出了跨層特徵聚合結構來聚合多尺度的feature map,提出了深度分離互相關結構來減少參數個數,穩定訓練過程,鼓勵模型產生不同語義相關的多種similarity map。

平移不變性

在目標追蹤的任務中,由於目標可能出現在搜索區域中的任何位置,因此特徵提取的過程一定要有嚴格的平移不變性/空間不變性。

SiamFC的核心部分可以使用下式表示

f(z,x)=ϕ(z)ϕ(x)+b f(z,x) = \phi(z) \otimes\phi(x)+b

對於這種SiamFC結構的網絡,存在如下兩個限制

  • 空間不變性:f(z,x[Δτj])=f(z,x)[Δτj]f(z,x[\Delta \tau_j]) = f(z,x)[\Delta\tau_j],其中 [Δτj][\Delta\tau_j] 表示平移子窗口的操作,注意SiamRPN將目標物體放到圖片中心進行訓練,這更要求了結構的空間不變性。
  • 結構對稱性:f(z,x)=f(x,z)f(z,x') = f(x',z),這是相似度學習的本質屬性。

對於深度較深的ResNet來說,padding 操作破壞了空間局部性,而且RPN結構其實更適合不對稱的結構,因爲兩個分支完成的是不同類型的任務。

作者分別在不同的隨機平移上界上進行模型訓練,然後將測試集上的heat map進行聚合,得到如下三張圖

在這裏插入圖片描述
這說明了模型學到了很強的中心位置的偏置。因此,一個有效的訓練方法應該是對模板進行隨機的平移變換,不同尺度的平移變換對性能的影響如下

在這裏插入圖片描述

SiamRPN++ 中的ResNet結構

原始的ResNet具有32像素的大步幅,不適用於密集的Siam Network預測。 通過將conv4和conv5修改爲具有單位空間步長,我們將最後兩個塊的有效步幅從16個像素和32個像素減少到8個像素,並通過膨脹卷積來增加其感受野。額外的1×1卷積層附加到每個塊輸出,以將通道減少到256。由於保留了所有層的填充,因此模板特徵的空間大小增加到15,這給相關性帶來了沉重的計算負擔,因此,將中心的7×7區域裁剪爲模板特徵,其中每個特徵單元仍可以捕獲整個目標區域。

不止如此,作者還發現對ResNet進行finetune可以改善模型的表現,只不過需要將ResNet部分的參數學習率調小到RPN部分的1/10纔行。

跨層聚合

對於足夠深的網絡,跨層聚合信息成爲了有效的改進方案。淺層的網絡輸出可以提供更多低維信息,而深層的輸出可以提供更多的語義信息。對於ResNet50,作者從最後三個殘差塊中提取的多層特徵,以進行分層聚合。 我們將這些輸出分別稱爲F3,F4和F5。 如圖所示,conv3,conv4,conv5的輸出分別饋入三個Siam RPN模塊。 由於三個RPN模塊的輸出大小具有相同的空間分辨率,因此直接在RPN輸出上採用加權和。

在這裏插入圖片描述

加權融合層將所有輸出聚合

Sall=l=35αlSlBall=l=35βlBl \\S_\text{all} = \sum_{l=3}^5 \alpha_l S_l \\B_\text{all} = \sum_{l=3}^5 \beta_l B_l

注意到在Siam RPN模塊中,卷積並不是共享的,這有助於 cls 和 reg 兩個任務學到屬於自己的特徵。

深度可分離互相關

在這裏插入圖片描述
其中,XCorr是SiamFC中使用的,UP-XCorr是SiamRPN中爲了根據Archor box的個數輸出多通道結果使用的,DW-XCorr是SiamRPN++提出的。通過將互相關替換爲深度可分離,我們可以大大降低計算成本和內存使用量。 這樣,模板和搜索分支上的參數數量是平衡的,從而使訓練過程更加穩定。 此外,實驗顯示了一個有趣的現象。相同類別的對象在相同的通道上具有較高的響應值,而其餘通道的響應則受到抑制。

在這裏插入圖片描述

總結

本文主要提出了三個方面的貢獻,包括對於爲什麼AlexNet可以而更深的網絡就失效的問題的分析,DW-XCorr的提出,跨層聚合的結構。這三點中後兩點應該是受到之前工作的啓發,而第一點還是非常好的一個創新點,之前在讀SiamRPN的論文時沒有思考到可能出現這個問題,值得學習。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章