Visual Tracking with Fully Convolutional Networks

Visual Tracking with Fully Convolutional Networks

本文作者提出了一種新的全卷積神經網絡的方法來做視覺跟蹤。作者不是簡單的將卷積神經網絡看做是一個黑盒的特徵提取器,而是在線下通過大量的圖像數據,深入研究了CNN特徵的性能。通過研究得到的一些發現激發了作者設計出文中的跟蹤系統。卷積神經網絡的不同層上的特徵在不同層次上描述着目標的不同的特徵。在網絡的頂層編碼着更多的語義特徵,它可以充當一個類別檢測器。然而更底層則攜帶者更多的可區分性的特徵,它能夠更好的將目標從相似的外觀上區分開來。可以同時利用這兩個層次上的特徵來做跟蹤。作者還提出了一種特徵圖譜選擇的方法,它能夠去掉噪聲和不相關的特徵圖譜,從而減少了計算的複雜度,提高了跟蹤的精度。

對於給定的有限的在線訓練數據,以及深度模型的複雜性,直接將CNNs應用到跟蹤的問題上效果是不好的。因爲CNN的性能依靠大規模的訓練。爲了更好的利用CNN,所以作者就從在線跟蹤的視角上深入的研究了CNN特徵的性能。通過深入研究,作者得到了幾點發現,並激發作者設計出自己的跟蹤系統。

第一點,CNN的不同層上的特徵對於跟蹤問題有不同的效果。頂層的特徵捕獲了目標的更加抽象的高層語義特徵。他們能夠從不同的類別上區分目標,並且對於形變和遮擋有很好的魯棒性。但是他們缺乏將目標從一些相同類別區分開來的能力。更底層則提供了更加詳細的局部特徵,它能夠幫助我們將目標從干擾項中區分開來。但是,他們缺少對外觀變化的魯棒性。基於這些發現,作者提出了一種在跟蹤過程中自動的轉換使用這兩層的特徵。

第二點,預先在ImageNet上面訓練的CNN特徵能夠很好的區分通用的目標對象。但是,對於一個特定的目標,並不是所有的特徵對於魯棒的跟蹤都是有用的。一些特徵響應可能會是噪聲。通過適當的特徵選擇,這些對於表達目標沒有用的噪聲特徵會被清理掉,留下的特徵能夠更加精確的表達目標,並且抑制背景的響應。

本文的幾點貢獻:

1)、作者分析了從大規模圖像分類任務上學習到的CNN的特徵,發現了對於跟蹤很重要的性能。促進了進一步的理解CNN特徵,並且設計了有效的基於CNN的跟蹤器。

2)、作者提出了一種新的跟蹤方法,它聯合了兩個不同卷積層,在處理激烈的外觀變化和從相似的干擾項中區分目標上有相得益彰的效果。很好的緩和了漂移的問題。

3)、提出了一種自動的選擇有區分性的特徵圖譜,丟棄噪聲和不相關的特徵圖譜,進一步的提高了跟蹤的精度。


3、Deep Feature Analysis for Visual Tracking(深度特徵分析for視覺跟蹤)

分析深度表達對於理解深度學習的機制是很有用的。作者的特徵分析是基於一個16層的VGG網絡,它是在ImageNet圖像分類任務上預訓練的,他有13個卷積層和3個全連接層。我們主要集中在conv4-3層(第10個卷積層)和conv5-3(第13個卷積層),這兩層都會產生512個特徵圖譜。

發現一:儘管CNN特徵圖譜的感受也很大,但是激活的特徵圖譜非常稀疏並且是局部的。激活的區域和語義目標區域是非常相關的。

由於pooling層和卷積層,conv4-3和conv5-3層的感受野是非常大的(分別是92*92和196*196)。特徵圖譜上只有一些部分區域的值是非零的,這些非零值是局部化的,並且和圖像的前景目標的位置是非常符合的。作者也用了參考文獻【26】中的方法來提取CNN特徵的顯著圖。這些顯著圖表明,輸入的變化會導致在目標區域總的選擇的特徵圖譜大幅度的增加。因此,特徵圖譜能夠捕獲和目標相關的視覺表達特徵。這些證據表明,從圖像分類任務中學習到的DNN特徵是局部的,並且是和目標的視覺線索相關的。因此這些CNN特徵能夠被用來做目標定位的。

發現二:很多CNN特徵圖譜是噪聲或者是跟我們要從背景中區分特定目標任務無關的。

CNN特徵描述了各種各樣的一般性的目標,他們能夠檢測豐富的視覺形態。但是,當我們跟蹤一個特定的目標的時候,它應該集中在一個更小的視覺形態的子集上面,這樣能夠更好的將目標從背景中分離出來。大多數的特徵圖譜有一個很小的或者爲零的值。因此,有很多特徵圖譜是和目標沒有關係的或者關係不大的。這樣,我們就可以通過選擇的少量的特徵圖譜來做跟蹤,並且性能不會退化。

發現三:不同層編碼了不同類型的特徵。高層捕獲語義方面的目標類別特徵,底層編碼類內更有區分性的特徵。

由於特徵圖譜的冗餘,我們採用一種稀疏表達的機制來促進更好的視覺化。我們將通過網絡得到的特徵圖譜,改造成一個d維的向量,n表示特徵圖譜的數量。表示前景掩碼。然後我們用特徵圖譜的一個子集來重建前景掩碼,通過解如下方程式:

是稀疏係數向量,平衡重建誤差和稀疏的一個參數(正則項)。

通過大量的實驗分析,作者的到,conv4-3的特徵圖譜保存了更多中間層次的信息,能夠更加精確的將屬於同一類別的不同圖像區分開來。但是,conv5-3能夠將人臉和非人臉區分開來。這些結果激勵我們要將這兩種特徵結合的用到更加魯棒的視覺跟蹤中。

4、提出的算法


1、對於一個給定的目標,特徵圖譜選擇的過程是選擇最相關的特徵圖譜,能避免過擬合。

2、一般的網絡(GNet)是用選擇的最相關的特徵圖譜來捕獲目標的類別信息。

3、特殊的網絡(SNet)是用來從具有相似外觀的背景中區分目標,他用的也是選擇出來的最相關的特徵圖譜。

4、一般的網絡和特殊的網絡都是在第一幀來初始化的,完成目標對象的前景熱圖的迴歸,採取不同的在線更新策略。

5、對於新輸入的一幀圖像,感興趣的區域包含目標和背景,他們會被送入網絡。

6、根據一般網絡和特殊的網絡,會分別生成兩個前景的熱圖。然後會根據兩個熱圖分別對目標進行定位。

7、然後最終的目標是通過一個干擾項檢測機制來決定步驟6中的哪一個熱圖會被利用。

4.1. 特徵圖譜的選擇

文中提出的特徵圖譜選擇的方法是基於目標的熱圖迴歸模型的,叫做sel-CNN。sel-CNN模型在卷積層的後面包含一個dropout層,沒有任何的非線性變換。將選擇的特徵圖譜作爲輸入用來預測目標的熱圖M,他是一個二維高斯分佈,以目標的真實值爲中心。這個模型通過最小化預測值和真實值M的均方誤差來訓練。

通過反向傳播收斂參數學習以後,我們就固定模型的參數,然後根據他們對損失函數的影響來選擇特徵圖譜。對於輸入的特徵圖譜,首先給他向量化。然後特徵圖譜對損失函數的影響可以通過計算如下一個二階泰勒展開式:

分別是目標函數相對於輸入特徵圖譜的一階和二階的導數。特徵圖譜中的元素的數量特別的大(>270000)。計算所有二階導數的複雜度大概是O(270000*270000),他是非常耗時的。我們用一個對角矩陣來近似海森矩陣,這樣的話公式【5】中右邊的第三項就可以忽略了。這樣一來,一階導數和二階導數就可以通過反向傳播來計算了。

所有的特徵圖譜根據他們的重要性用降序的方式來排序,然後選擇前K個特徵圖譜。這些選擇的特徵圖譜對目標函數有着很大的影響,因此他們和跟蹤任務最相關。我們的特徵圖譜的選擇方法可以在線進行。在我們的試驗中,我們僅僅在第一幀上進行特徵選擇就得到了很好的效果。這要歸功於魯棒的CNN特徵。

二次逼近的想法可以追溯到1989.它主要是減少參數的數量和提高速度,然而我們的目標是去除掉噪聲特徵圖譜來提高跟蹤的精度。

4.2. 目標定位

在第一幀圖像上進行了特徵圖譜的選擇之後,我們分別建立了GNet和SNet。這兩個網絡有相同的結構,包含兩個額外的卷積層。第一個卷積層的卷積核的大小爲9*9,輸出的36特徵圖譜作爲下一層的輸入。第二個卷積層的卷積核的大小爲5*5,輸出前景的熱圖。選擇ReLU作爲這兩層的非線性變換。

SNet和GNet在第一幀通過最小化如下的損失函數的來初始化的:

注意,sel-CNN和GNet和SNet是具有不同的CNN結構的。sel-CNN的結構非常的簡單,避免利用噪聲特徵圖譜來擬合目標函數,但是GNet和SNet就相對複雜一點。因爲噪聲特徵圖譜已經在特徵圖譜選擇階段被去除了,更復雜的模型可以促進更加精確的跟蹤。

對於新給定的一幀圖像,我們先圈出感興趣的區域。通過前向傳播將感興趣的區域通過網絡,我們會分別從GNet和SNet網絡中得到前景熱圖。目標首先會被GNet網絡得到的熱圖定位。目標的位置信息爲

x,y,sigma 分別表示目標的中心座標和尺度。給定的上一幀目標的位置,我們假設當前幀的候選目標的位置服從高斯分佈:

是對角協方差矩陣,表明定位參數的差異。第i個候選目標的置信度的計算方法,候選區域中的所有的熱圖值的加和。有最高置信度得分的候選區域被GNet預測爲目標。

GNet是基於conv5-3層的,他捕獲了語義特徵,對於類內變化具有魯棒性。因此,GNet網絡生成的前景熱圖會將目標和具有相似的外觀的干擾的背景都標註出來。

爲了預防跟蹤器漂移到背景上面,我們進一步的利用干擾項的檢測機制來決定最終目標的位置。我們用表示GNet網絡預測的目標的區域,在熱圖中相應的目標區域表示爲。干擾項發生在背景的概率是通過在目標區域的外面和裏面的置信度的比例來估計的。

代表的是熱圖中的背景區域。當概率小於一個閾值的時候,我們認爲沒有干擾項,就用GNet預測的目標的位置作爲最終的位置。否則,我們利用SNet網絡預測的結果作爲最終的結果。

4.3. 在線更新

爲了避免在線更新時背景噪聲的進入,我們在初始化之後固定GNet,只更新SNet。SNet的更新遵循以下兩個不同的規則:適應性規則和可區分性規則,這是爲了使SNet網絡能夠適應目標的外觀的變化,並且提高它區分前景和背景的能力。根據適應性規則,我們每隔20幀用一段時間間隔中置信度最高的跟蹤結果來微調SNet網絡。基於可區分性的規則,當我們使用公式【9】檢測干擾項的時候,SNet要用第一幀跟蹤的結果和當前幀來更新,通過最小化如下公式:

表示的是SNet網絡的卷積權重。(x,y)表示的是空間座標。
公式【10】中的第二項相當於是在第一幀中定位目標的損失。噹噹前幀有干擾項的時候,或者目標遭受到很嚴重的遮擋的時候,對於學習目標的外觀來說,這個估計的目標區域是不可靠的。因此,我們選擇了一個保守的機制,通過增加第一幀來監督更新,這樣一來,我們的學習模型依然能夠捕獲到第一幀目標的外觀。公式【10】的第三項去除了不可靠的目標區域的損失,只考慮了當前幀中背景區域的損失。它能夠強化模型將更多的形變干擾看作是背景。合併公式【10】中的第二項和第三項能夠幫助SNet網絡更好的將目標從背景中分離開來,並且減輕由於遮擋和干擾項帶來的模型的退化。









發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章