DSST (Discriminative Scale Space Tracking) 文章分析(一)

         DSST(Discriminative Scale Space Tracking) 是基於 MOSSE,KCF基礎上的改進,主要有兩個方面:(1)引入多特徵融合機制;(2)引入尺度估計。

         首先DSST是基於 correlation filter 的方法,相關濾波算法的發展大致可看爲:

發展

推薦:https://www.jianshu.com/p/c709aea5a56f (DSST詳解)

改進思路

        本文中作者(Danelljan)所提出的改進思路有:

(1)多通道應用(特徵融合)

        首先我們看下MOSSE算法需要優化的方程:

最小均方誤差

        其中變量均在傅里葉域中運算。算法優化目標是:找出一個 filter h 使得均方誤差最小。

        MOSSE 算法的特徵是取自像素的灰度值,也就是單一通道特徵,從公式中也可以看出。

        再看看DSST 算法的均方誤差:

均方誤差

       將 patch 特徵記爲 f ,f 由  f^{1},...,f^{d} 組成, 對應 g 也是由 g^{1},...,g^{d} 組成,同理濾波器 h 也由 h^{1},...,h^{d} 組成。作者在這裏將patch的特徵分爲 d 個通道。並且上式只與一個patch的 f,g 有關,因此可推廣至:

        在這個公式中,共與 t 個 patch 有關,且每個 patch 均被分爲 d 個通道。

(2)Object Tracking 中兩個棘手的問題:

        目標的定位和目標尺度(尺寸)的改變;

        其中目標的尺度變化主要由兩方面引起:1:目標沿着相機拍攝軸線方向的運動;2:目標外觀的變化;

前者直接影響目標的大小變化;後者可能是目標旋轉、平面外運動等的影響。

        針對尺度變化,一個簡單直接的方法是在多尺度(多分辨率)下估計(預測)目標的外觀模型。此時若採用簡單窮舉的策略,可以使用兩種方式的濾波器:

        1.joint scale space filter: 一個3維的 filter, 同時對目標的位置和尺度進行評估。

        2.multiresolution translation filter: 在多分辨率(多尺度)的候選patch上應用2維標準filter。

        作者最終提出的是discriminative scale space tracker: 學習兩種濾波器,translation filter 和 scale filter 分別用於評估目標位置和目標尺度。

        作者首先用標準的 translation filter 評估目標的中心位置,然後通過以目標爲中心大小可變的patch提取特徵進行精確的目標尺度評估。不同於上述提出的兩種窮舉策略,由於位置的確定,從而減小了搜索區域的大小(確定了目標中心,則無需搜索偏離目標中心的區域)。兩 filter 分開學習也可以針對其特點設計不同的特徵表示。

        a. translation filter(二維):最終特徵爲 a*b*28 的特徵矩陣,a*b*1爲的標準化至[-0.5,0.5]的灰度值,a*b*[2:28]的fHOG特徵。

        b. scale filter(一維):最終特徵爲 z*nScales的特徵矩陣, nScales爲通道數(尺度數)。作者取4*4爲一個cell, 假設當前目標scale大小爲a*b ,則 z = a/4 * b/4 * 31。

Scale Factors 尺度因子:

        文中用 P*R 表示當前幀目標的初始大小,S 表示 scale filter(一維)的大小,也可以看作尺度的級數,a 爲兩層之間的比例係數。 

        取  ,  用於訓練的 image patch    的特徵矩陣    的大小爲  

        這裏作者又提出是否可以不犧牲算法魯棒性和準確性的前提下減低計算成本,從而增加搜索區域和追蹤器,以提高算法的魯棒性。這也就促進了 fDSST 的提出。

大致流程

       DSST (以及大部分 Correlation Filters tracking-by-detection framework 的追蹤算法) 的大致流程如下:

流程圖

        正如文中所說,Object Tracking 中 我們只知道目標的起始位置。這也就有了進入 tracking-by-detection 循環的切入點。

這裏放下論文中的算法流程:

這裏說明下文中的 correlation score :

        首先由最小均方誤差得到一個解,此時變量均爲單通道:

  爲了避免計算量過大,因此採用    的近似解,   稱爲學習率:  

其中    ,用    來近似求解   。

        在MOSSE中,我們可以知道    ,論文中稱 y 爲相關性分數,提取候選patch 的特徵 Z 求出 y ,最終 y 最大值對應的目標 pos 即爲當前幀的目標 pos 。

correlation score

 

項目地址:http://www.cvl.isy.liu.se/en/research/objrec/visualtracking/scalvistrack/index.html
 

 

       

 

        

           

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章