KCF(High-Speed Tracking with Kernelized Correlation Filters)論文詳解

近期拜讀了Jo ̃ao F. Henrique大神的KCF論文，下面是對該論文的詳細介紹（不喜勿噴，嘻嘻）

摘要

如今大多數跟蹤器的核心組件是判別分類器，其任務是區分目標和周圍環境。爲了適應自然圖像變化，通常使用經過轉化和縮放的樣本塊來訓練該分類器。這樣的樣本集充滿了冗餘 --- 任何重疊的像素都被限制爲相同。基於這個簡單的觀察，我們提出了數千個轉化塊的數據集分析模型。通過顯示結果數據矩陣是循環的，我們可以使用離散傅立葉變換對其進行對角化，從而將存儲和計算減少幾個數量級。有趣的是，對於線性迴歸，我們的公式相當於一些最快競爭的跟蹤器使用的相關濾波器。而對於核迴歸，我們推導出一種新的核化相關濾波器（KCF），與其他覈算法不同，它具有與線性對應物完全相同的複雜度。在此基礎上，我們還提出了一種線性相關濾波器的快速多通道擴展，通過線性核，我們稱之爲對偶相關濾波器（DCF）。 KCF和DCF在50個視頻基準測試中的表現優於Struck或TLD等頂級跟蹤器，儘管每秒運行數百幀，並且只需幾行代碼即可實現（算法1）。爲了鼓勵進一步的發展，我們的跟蹤框架是開源的。

1 介紹

可以說，最近視覺跟蹤研究中最大的突破之一是判別學習方法的廣泛採用。跟蹤任務是許多計算機視覺系統的關鍵組成部分，可以自然地指定爲在線學習問題[1]，[2]。給定包含目標的初始圖像塊，目標是訓練學習一個分類器以區分目標和周圍環境。該分類器可以在許多位置進行精細評估，以便在後續幀中檢測它。當然，每個新檢測都提供了一個新的圖像塊從而更新模型。

我們很容易專注於表徵感興趣的目標對象 - 分類器的正樣本。然而，判別方法的核心原則是給予同樣或者更多的相關環境 -- 即負樣本。最常用的負樣本是來自不同位置和尺度的圖像塊，它反映了在這些條件下評估分類器的先驗知識。

一個極具挑戰性的因素是可以從圖像中獲得幾乎無限量的負樣本。由於跟蹤的時間敏感性，如今的跟蹤器在儘可能多地合併樣本和保持較低的計算需求之間保持得很好。通常的做法是每幀隨機選擇幾個樣本[3]，[4]，[5]，[6]，[7]。

雖然這樣做的原因是可以理解的，但我們認爲負樣本的欠採樣是阻礙跟蹤績效的主要因素。在本文中，作者開發了用於在不同的相對平移下分析地合併數千個樣本的工具，而無需明確地迭代它們。這可以通過以下發現來實現：在傅立葉域中，如果我們使用特定的模型進行轉換，一些學習算法實際上變得更容易。

這些分析工具，即循環矩陣，在流行的學習算法和經典信號處理之間提供了有用的橋樑。這意味着我們能夠提出一種基於Kernel的脊迴歸[8]的跟蹤器，它不會受到“核詛咒”的影響，它有較大的漸近複雜度，甚至比非結構化線性迴歸表現出更低的複雜性。而且它可以被視爲線性相關濾波器的核化版本，它構成了可用的最快跟蹤器的基礎[9]，[10]。我們利用與線性相關濾波器相同的計算複雜度的強大內核技巧。我們的框架輕鬆地包含多個特徵通道，並且通過使用線性內核，我們展示了線性相關濾波器到多通道情況的快速擴展。

2 前期工作

2.1 跟蹤檢測方面

對檢測跟蹤的全面回顧超出了本文的範圍，但我們將感興趣的文章引用到兩個極好的和最近的調查[1]，[2]。最流行的方法是使用判別性外觀模型[3]，[4]，[5]，[6]。受統計機器學習方法的啓發，它包含了在線訓練分類器，來預測圖像塊中目標的存在與否。然後在許多候選塊上測試該分類器從而找到最可能的位置。或者，也可以直接預測位置[7]。使用類標籤的迴歸可以看作是分類，因此我們可以互換地使用這兩個術語。

在關注與我們的分析方法更直接相關的文獻之前，我們將討論一些相關的跟蹤器。逐個檢測範例的典型例子包括基於支持向量機（SVM）[12]，隨機森林分類器[6]或弱分類變體[13]，[5]。爲了對跟蹤有用，所有提到的算法都適用於在線學習。張等人[3]提出了一個固定隨機基礎的投影，以受壓縮傳感技術的啓發來訓練樸素貝葉斯分類器。爲了直接預測目標的位置，而不是在給定的圖像塊中進行選取，Hare等人[7]基於大量的圖像特徵，採用了結構化輸出SVM和高斯核。非判別性跟蹤器的例子包括Wu等人的工作[14]，他們將跟蹤描述爲一系列圖像對齊目標。以及Sevilla-Lara和Learned-Miller [15]，他們提出了一個基於分佈領域的強外觀描述符。 Kalal等人[4]的另一種判別性方法使用一組結構約束來指導增強分類器的採樣過程。最後，Bolme等人[9]採用經典信號處理分析來推導快速相關濾波器。我們將在稍後更詳細地討論最後這兩個的文章。

2.2 樣本轉換與相關濾波

回想一下，我們的目標是有效地學習和檢測轉換的圖像塊。與我們的方法不同，到目前爲止，大多數嘗試都集中在試圖清除不相關的圖像塊。在檢測方面，可以使用分支定界來找到分類器響應的最大值，同時避免不希望的候選塊[16]。不幸的是，在最壞的情況下，算法可能仍然需要迭代所有圖像塊。相關方法可以有效地找到一對圖像中最相似的色塊[17]，但不會直接轉換爲我們的設置。雖然它並不排除詳盡的搜索。但值得注意的是，使用快速但不準確的分類器來選擇有可能的塊，並且只在那些[18]，[19]上應用完整但較慢的分類器。

在訓練方面，Kalal等人[4]提出，使用結構約束從每個新圖像中選擇相關的樣本塊。這種方法相對昂貴，限制了可以使用的特徵，並且需要仔細調整結構啓發式；另一種流行的相關方法雖然主要用於離線檢測學習，即負樣本挖掘[20]。它包括在圖像池上運行初始檢測器，並選擇任何錯誤的檢測作爲重新訓練的樣本。儘管兩種方法都減少了訓練樣本的數量，但主要缺點是必須通過運行檢測器來考慮候選塊。

我們研究方向的最初動機是在跟蹤中近期成功的相關濾波器的應用[9]，[10]。事實證明，相關濾波器與更復雜的方法相比具有競爭力，但僅使用一小部分計算能力，數百幀/秒。他們利用了這樣一個事實，即兩個圖像塊的卷積（鬆散地，它們在不同相對轉換中的點積）相當於傅里葉域中的元素乘積。因此，通過在傅里葉域中制定它們的目標，它們可以一次性指定用於若干平移或圖像移位的線性分類器的期望輸出。

從[21]中可以看出，在信號處理方面有數十年的研究中，傅立葉域方法可以非常有效。不幸的是，它也可能是非常有限的。我們希望，在傅里葉域上，同時利用計算機視覺方面的最新進展，例如更強大的功能，大邊緣分類器和核方法[22]，[20]，[23]。

一些研究正朝該方向發展，並嘗試將核方法應用於相關濾波器中[24]，[25]，[26]，[27]。在這些工作中，必須區分兩種類型的目標函數：一種是不考慮功率譜或圖像轉換，例如合成判別函數（SDF）濾波器[25]，[26]，以及另一種，即考慮功率譜或圖像轉換，例如最小平均相關能量[28]，最佳權衡[27]和最小平方誤差輸出和（MOSSE）濾波器[9]。由於可以有效地忽略空間結構，前者更容易核化，並且已經提出了核SDF濾波器[26]，[27]，[25]。然而，在圖像轉換方面，由於缺乏非線性核和傅里葉域之間的相關性，將核技巧應用於其他濾波器更困難[25]，[24]，他們提出需要更高的計算時間和圖像偏移數量的限制[24]。

這提示我們需要在圖像塊轉換和訓練算法之間建立更深層次的聯繫，以克服傅立葉域公式的侷限性。

2.3 後續工作

自從這項工作的初始版本[29]以來，所提出的循環移位模型的一個有趣的時域變體已經非常成功地用於視頻檢索[30]。還提出了線性相關濾波器到多通道的推廣[31]，[32]，[33]，其中的一些是基於我們的初始版本。這允許他們利用更現代的特徵（例如，方向梯度直方圖 - HOG）。還提出了對其他線性算法的推廣，例如支持向量迴歸[31]。這裏必須指出，所有這些工作都以離線訓練爲目標，因此依賴於較慢的求解器[31]，[32]，[33]。相比之下，我們專注於快速元素操作，甚至使用核技巧，它也更適合實時跟蹤。

3 貢獻

早期提出了這項工作的初級版本[29]。它首次證明了帶有循環移位樣本的脊迴歸和經典相關濾波器之間的聯繫。這使得用 $O(n\log n )$ 快速傅里葉變換的快速學習代替了昂貴的矩陣代數。還提出了第一個核相關濾波器，但僅限於單個通道。還提出了在所有循環移位中計算核的封閉式解決方案。它們具有相同的 $O(n\log n )$ 計算成本，並且是針對徑向基和點積核導出的。

目前的工作是在初始版本基礎上增加了重要的方法：（1）使用更簡單的對角化技術重新導出所有原始結果（第4-6節）。（2）我們將原始工作擴展到多通道，這就讓我們使用最先進的特徵來顯着提升性能（第7節）。（3）在初始工作中添加了大量新分析和直觀解釋。（4）我們還將原始實驗從12個視頻擴展到50個視頻，並添加了基於方向梯度直方圖（HOG）特徵而非原始像素的核相關濾波器（KCF）跟蹤器的新變體。（5）通過線性核，我們還提出了一種計算複雜度非常低的線性多通道濾波器，幾乎與非線性內核的性能相匹配。我們將其命名爲對偶相關濾波器（DCF），並展示了它與一組最近更昂貴的多通道濾波器的關係[31]。在實驗上，我們證明了在沒有任何特徵提取的情況下，KCF已經比線性濾波器表現更好。憑藉HOG功能，線性DCF和非線性KCF都可以在Struck [7]或Track-Learn-Detect（TLD）[4]等大型頂級跟蹤器表現出色，同時可以在數百幀每秒的情況下輕鬆運行。

4 模塊

在本節中，我們提出了在不同平移下提取圖像塊的分析模型，並計算出對線性迴歸算法的影響。我們將展示與經典相關濾波器的自然底層連接，這將允許我們在第5-7節中研究更復雜的算法。

4.1 線性迴歸

由於脊迴歸展現了一個簡單的閉合式解決方案，並且可以實現接近更復雜方法的性能，例如支持向量機[8]。訓練階段，我們需要找到一個函數 $f(z)={w}^{T}z$ ，使得平方誤差達到最小值，即

其中， $x_{i}$ 爲樣本， $y_{i}$ 爲所迴歸的目標， $\lambda$ 爲如同SVM中的控制過擬合的正則化參數。

文獻[8]中給出了的閉合形式 $w=(X^{T}X+\lambda I)^{-1}X^{T}y$ （2），由於在本文的4.4節中提出要在傅里葉域中進行運算，通常會出現複數值，故將轉換爲複數域：

$w=(X^{H}X+\lambda I)^{-1}X^{H}y$ （3）

其中， $X^{H}={X^{*}}^{T}$ 爲厄米特轉置。可以看到，由於涉及矩陣的求逆等複雜操作，從而使得計算複雜度過高。

4.2 循環移位

我們首先討論一下一維單通道信號，之後在第7節將推廣至二維多通道圖像。作者將維列向量作爲基礎樣本，目的是使用基本樣本（一個正樣本）和通過轉換獲得的幾個虛擬樣本（即負樣本）來訓練一個分類器。我們可以通過循環移位算子來建模該向量的一維轉換，循環移位算子是置換矩陣。

那麼 $Px=\left [ x_{n} ,x_{1},x_{2},...,x_{n-1}\right ]^{T}$ 表示向量的元素向右平移一個單位。

上圖表示了維列向量組成的 $n\times n$ 維循環矩陣，由於循環特性，我們每個週期定期得到相同的信號。這意味着可以獲得整個移位信號，即有：

$\left \{ P^{u}X|u=0,...,n-1 \right \}$ （5）

4.3 循環矩陣<增加樣本數>

由上節分析可知， $X=C(x)=(P^{0}x,P^{1}x,P^{2}x,...,P^{n-1}x)^{T}$ ，即

上圖3給出了得到的模式圖示。我們剛剛得到的是一個循環矩陣，它具有幾個有趣的特性[34]，[35]。請注意，該模式是確定性的，並且由生成向量（第一行）完全指定。而且無論生成向量 [34]如何，所有循環矩陣都通過離散傅立葉變換（DFT）（線性運算）進行對角化。即有

$X=Fdiag(\hat{x})F^{H}$ （7）

其中，是一個與向量無關的常數矩陣， $\hat{x}$ 爲進行離散傅立葉變換後的向量。（7）式表示了一般循環矩陣的特徵分解。共享的、確定性的特徵向量F位於許多不常見特徵的緣由。

對於常數矩陣的表示形式，在循環矩陣傅立葉對角化裏面有詳細的推導介紹，該傅立葉矩陣有酉矩陣和對稱矩陣的性質，即 $F^{H}F=I$ ， $F^{H}=F$ 。

4.4 合併

當訓練數據由循環移位組成時，我們現在可以應用這一新知識來簡化（3）式中的線性迴歸，由此便使得計算更加簡單。

$\begin{align*} &X^{H}X=Fdiag(\hat{x}^{*})F^{H}Fdiag(\hat{x})F^{H} \\ & = Fdiag(\hat{x}^{*})diag(\hat{x})F^{H} \\ &= Fdiag(\hat {x}^{*} \odot \hat{x})F^{H} \end{align*}$ （10）

其中 $\hat{x}^{*}=(\hat{x})^{H}$ ，由於上式中的第二行爲兩個對角矩陣的乘積，即對應對角元素的相應乘積，故用點積符號 $\odot$ 化簡上式。將（10）式代入（3）式（論文附錄A.5推導）：

$\begin{align*} &w=(Fdiag(\hat {x}^{*} \odot \hat{x})F^{H}+\lambda F IF^{H})^{-1}X^{H}y \\ & = (F(diag(\hat {x}^{*} \odot \hat{x})+\lambda I)F^{H})^{-1}X^{H}y \\ &= F(diag(\hat {x}^{*} \odot \hat{x})+\lambda I)^{-1}F^{H}X^{H}y \\ &= Fdiag(\hat {x}^{*} \odot \hat{x}+ \lambda)^{-1}F^{H}F diag(\hat {x}^{*})F^{H}y \\ &= Fdiag(\frac{\hat {x}^{*}}{\hat {x}^{*} \odot \hat{x}+ \lambda})F^{H}y \end{align*}$

對上式左乘常數矩陣，得到：

$\begin{align*} &F^{H}w= F^{H}Fdiag(\frac{\hat {x}^{*}}{\hat {x}^{*} \odot \hat{x}+\lambda})F^{H}y \\ &Fw =diag(\frac{\hat {x}^{*}}{\hat {x}^{*} \odot \hat{x}+\lambda})Fy \\ &\hat {w} =diag(\frac{\hat {x}^{*}}{\hat {x}^{*} \odot \hat{x}+\lambda})\hat {y} \\ &=\frac{\hat {x}^{*}\odot \hat {y}}{\hat {x}^{*} \odot \hat{x}+\lambda} \end{align*}$ （12）

對於計算複雜度，若只考慮脊迴歸，則爲 $O(n^{3})$ ；而對於（12）式，其計算複雜度爲，若除去最後一步的傅立葉矩陣計算，其複雜度爲。

4.5 與相關濾波的聯繫

自80年代以來，相關濾波器一直是信號處理的一部分，在傅里葉域中解決了無數的目標函數[21]，[28]。最近，他們作爲MOSSE濾波器[9]重新出現在人們的視野中，儘管它們簡單且具有處理極快，在跟蹤方面表現出了卓越的性能。

這些過濾器的解決方案看起來像（12）式，但有兩個關鍵的區別：首先，MOSSE濾波器源自在傅里葉域中設計一個特別的目標函數；其次，正則化器 $\lambda$ 以點對點方式添加，以避免被零除。我們在上面展示的推導通過將起始點指定爲具有循環移位的脊迴歸並且到達相同的結果。

循環矩陣豐富了經典信號處理和現代相關濾波器提出的工具集，並將傅里葉技巧應用於新算法。在下一節中，我們將在訓練非線性濾波器中看到一個這樣的實例。

5 非線性迴歸

使非線性迴歸函數更強大的的一種方法是使用“核技巧”[23]。最有吸引力的是儘管是在一組不同的變量（在對偶空間）中，此優化問題仍然是線性的。但我們必須注意一點，迴歸函數通常隨着樣本數量的增加而增加。然而，我們用了一種新的分析工具後克服了該限制，並獲得與線性相關濾波器一樣快的非線性濾波器，將其用於訓練和評估。

5.1 核技巧--概述

使用核技巧將線性問題（原空間）的輸入映射到非線性特徵空間（對偶空間） $\varphi (x)$ （基向量）：

1）將向量（原空間）表示爲對偶空間中基向量的線性組合：

      $w=\sum_{i}\alpha _{i}\Phi (x_{i})=\Phi \left ( X \right ) ^{T} \alpha$          （13）

      此時優化問題轉化爲求解向量 $\alpha$ 。

2）定義核函數爲向量之間的點積 $\varphi ^{T}(x)\varphi({x}')=k(x,{x}')$ 。

所有樣本對之間的點積通常用 $n\times n$ 維的核矩陣中：

$K_{i,j}=k(x_{i},x_{j})$                （14）

核技巧的特點是採用來自隱式的高維特徵空間 $\varphi (x)$ ，而無需實例化原空間中的向量，但因爲迴歸函數的計算複雜度隨着樣本的數量的增加而增加，爲了避免這一問題，我們採用了循環矩陣的性質特點。