1. 論文信息

論文題目：End-to-end representation learning for Correlation Filter based tracking
論文出處：CVPR 2017
論文作者：Jack Valmadre，Luca Bertinetto等人
論文主頁：http://www.robots.ox.ac.uk/~luca/cfnet.html
源碼鏈接：https://github.com/bertinetto/cfnet

2. 濾波器求解——論文公式(7)推導過程

2.1 最優化求解

首先，定義最優化問題

\begin{matrix} (1) & \underset{w}{\arg min} \frac{1}{2 n} {‖ X^{T} w - y ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} \end{matrix}

其中，

w

表示待求解的濾波器，

n

表示樣本數目，

y

表示樣本標籤。
現在，我們將公式(1)換一種方式進行表述，定義

r = X^{T} w - y

，那麼最優化問題爲

\begin{matrix} (2) & \begin{array}{l} \underset{w, r}{\arg min} \frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} \\ s . t . r = X^{T} w - y \end{array} \end{matrix}

從公式(2)開始，利用拉格朗日乘子法進行優化，具體可以參考Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers一書中Chapter 2.1 Dual Ascent中的描述（PDF鏈接：https://web.stanford.edu/~boyd/papers/pdf/admm_distr_stats.pdf），首先構建拉格朗日表達式：

\begin{matrix} (3) & L (w, r, v) = \frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y) \end{matrix}

其中 $v$ 是拉格朗日乘數，這樣，將損失函數進行梯度求解，首先對 $w$ 求偏導數，得

\begin{matrix} (4) & \begin{aligned} \frac{\partial L (w, r, v)}{\partial w} & = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y))}{\partial w} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial w} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial w} + \frac{\partial (v^{T} (r - X^{T} w + y))}{\partial w} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial w} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial w} + \frac{\partial (v^{T} (X^{T} w))}{\partial w} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial w} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial w} + \frac{\partial (v^{T} X^{T} w)}{\partial w} \\ = 0 + λ w + v^{T} (0 - X^{T}) \\ = λ w - {(v^{T} X^{T})}^{T} \\ = λ w - X v \end{aligned} \end{matrix}

現在對 $r$ 求偏導數，得

\begin{matrix} (5) & \begin{aligned} \frac{\partial L (w, r, v)}{\partial r} & = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y))}{\partial r} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial r} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial r} + \frac{\partial (v^{T} (r - X^{T} w + y))}{\partial r} \\ = \frac{1}{2 n} \cdot 2 r + 0 + {(v^{T})}^{T} (1 - 0 + 0) \\ = \frac{1}{n} r + v \end{aligned} \end{matrix}

最後對 $v$ 求偏導數，得

\begin{matrix} (6) & \begin{aligned} \frac{\partial L (w, r, v)}{\partial v} & = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y))}{\partial v} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial v} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial v} + \frac{\partial (v^{T} (r - X^{T} w + y))}{\partial v} \\ = 0 + 0 + (r - X^{T} w + y) \\ = r - X^{T} w + y \end{aligned} \end{matrix}

現在，分別令上述三個偏導數爲0，得

\begin{matrix} (7) & {\begin{cases} λ w - X v = 0 \\ \frac{1}{n} r + v = 0 \\ r - X^{T} w + y = 0 \end{cases} \end{matrix}

根據方程(7)，首先求解，可以得到

\begin{matrix} (8) & w = \frac{1}{λ} X v \end{matrix}

接下來求解 $v$ ，有

\begin{matrix} (9) & \begin{matrix} {\begin{matrix} w = \frac{1}{λ} X v \\ \frac{1}{n} r + v = 0 \\ r = X^{T} w - y \end{matrix} \\ \Rightarrow \frac{1}{n} (X^{T} w - y) + v = 0 \\ \Rightarrow \frac{1}{n} (X^{T} \frac{1}{λ} X v - y) + v = 0 \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v - \frac{1}{n} y + v = 0 \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v + v = \frac{1}{n} y \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v + v = \frac{1}{n} y \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v + v = \frac{1}{n} y \\ \Rightarrow \frac{1}{λ} X^{T} X v + n v = y \\ \Rightarrow (\frac{1}{λ} X^{T} X + n I) v = y \\ \Rightarrow (X^{T} X + λ n I) v = λ y \\ \Rightarrow v = \frac{λ y}{X^{T} X + λ n I} \\ \Rightarrow v = \frac{λ}{n (\frac{1}{n} X^{T} X + λ I)} y \\ \Rightarrow v = \frac{λ}{n} {(\frac{1}{n} X^{T} X + λ I)}^{- 1} y \end{matrix} \end{matrix}

最終，得到的解爲

\begin{matrix} (10) & {\begin{matrix} w = \frac{1}{λ} X v \\ v = \frac{λ}{n} {(\frac{1}{n} X^{T} X + λ I)}^{- 1} y = v = \frac{λ}{n} K^{- 1} y \end{matrix} \end{matrix}

其中， $K = \frac{1}{n} X^{T} X + λ I$ 是正則化核矩陣。通常情況下，我們會引入一個scaled dual變量 $α = \frac{1}{λ} v = \frac{1}{n} K^{- 1} y$ ，利用變量 $α$ ，可以將 $w$ 表示爲某種加權組合

\begin{matrix} (11) & w = X α = \sum_{i = 1}^{n} α_{i} x_{i} \end{matrix}

2.2 相關濾波引入

根據相關濾波跟蹤方法的特性，這裏我們將上述變量 $X$ 定義爲循環矩陣，滿足 $X [u, t] = X [u + t mod m]$ ，由於此時矩陣 $X$ 是對稱矩陣，所以模板 $w$ 是通過互相關的方式獲取的

\begin{matrix} (12) & w = X α = α ⋆ x \end{matrix}

注： $*$ 表示循環卷積操作， $⋆$ 表示循環互相關操作， $⊙$ 表示矩陣元素級乘法

關於正則化核矩陣 $K = \frac{1}{n} X^{T} X + λ I$ ，關於它的線性映射等價於與base信號 $k$ 的卷積

\begin{matrix} (13) & K z = k * z \end{matrix}

其中 $k = \frac{1}{n} x ⋆ x + λ δ$ ，由於

\begin{matrix} (14) & \begin{aligned} \forall z : F X^{T} X z & = F ((z ⋆ x) ⋆ x) \\ = \hat{z} ⊙ {\hat{x}}^{*} ⊙ \hat{x} \\ = F (z * (x ⋆ x)) \end{aligned} \end{matrix}

於是，有

\begin{matrix} (15) & {\begin{matrix} k = \frac{1}{n} x ⋆ x + λ δ \\ k * α = k * \frac{1}{n} K^{- 1} y = \frac{1}{n} k * K^{- 1} y = \frac{1}{n} K K^{- 1} y = \frac{1}{n} y \\ w = α ⋆ x \end{matrix} \end{matrix}

放到傅里葉域中，其解爲

\begin{matrix} (16) & {\begin{matrix} \hat{k} = \frac{1}{n} ({\hat{x}}^{*} ⊙ \hat{x}) + λ I \\ \hat{α} = \frac{1}{n} {\hat{k}}^{- 1} ⊙ \hat{y} \\ \hat{w} = {\hat{α}}^{*} ⊙ \hat{x} \end{matrix} \end{matrix}

公式(16)即爲論文中的公式(7)，這樣，相關濾波的求解表達式就完成了。

注：公式中的互相關，在傅里葉域中會帶上一個共軛符號，其中一種出處：
不管如何，與直接卷積相差一個負號。這時，看清楚了，相關函數在頻域也不完全是乘積，是一個信號的共軛再與原信號乘積，這就是與“時域卷積頻域相乘不同的地方”。
所以，請記住這個有用的結論：兩個信號的互相關函數的頻域等於X信號頻域的共軛乘以Y信號的頻域。
https://blog.csdn.net/xiahouzuoxin/article/details/19286077

3. 反向傳播公式推導過程

3.1 計算微分

由於論文將相關濾波器作爲深度神經網絡中的一層，因此在定義網絡結構時，有必要確定網絡的反向傳播表達式。

首先，根據公式(15)，求解微分

\begin{matrix} (17) & {\begin{matrix} d k = \frac{1}{n} (d x ⋆ x + x ⋆ d x) \\ d k * α + k * d α = \frac{1}{n} d y \\ d w = d α ⋆ x + α ⋆ d x \end{matrix} \end{matrix}

將公式(17)轉換到傅里葉域，有

\begin{matrix} (18) & {\begin{matrix} \hat{d k} = \frac{1}{n} ({\hat{d x}}^{*} ⊙ \hat{x} + {\hat{x}}^{*} ⊙ \hat{d x}) \\ \hat{d α} = {\hat{k}}^{- 1} ⊙ (\frac{1}{n} \hat{d y} - \hat{d k} ⊙ \hat{α}) \\ \hat{d w} = {\hat{d α}}^{*} ⊙ \hat{x} + {\hat{α}}^{*} ⊙ \hat{d x} \end{matrix} \end{matrix}

3.2 計算反向傳播

用 $J_{1}$ 表示映射 $d x \mapsto d k$ （這個映射就是公式(17)，如果放到傅里葉域就是公式(18)），首先計算內積

\begin{matrix} (19) & \begin{aligned} ⟨ F (d k), F (J_{1} (d x)) ⟩ & = ⟨ \hat{d k}, \frac{1}{n} ({\hat{d x}}^{*} ⊙ \hat{x} + {\hat{x}}^{*} ⊙ \hat{d x}) ⟩ \\ = \frac{1}{n} ⟨ \hat{d k}, {\hat{d x}}^{*} ⊙ \hat{x} ⟩ + \frac{1}{n} ⟨ \hat{d k}, {\hat{x}}^{*} ⊙ \hat{d x} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} ⟩ + \frac{1}{n} ⟨ \hat{d x}, {\hat{x}}^{*} ⊙ \hat{d k} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} ⟩ + \frac{1}{n} ⟨ \hat{d x}, \hat{d k} ⊙ {\hat{x}}^{*} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} + \hat{d k} ⊙ {\hat{x}}^{*} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} + \hat{d k} ⊙ {\hat{x}}^{*} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, 2 Re {{\hat{d k}}^{*} ⊙ \hat{x}} ⟩ \\ = ⟨ \hat{d x}, \frac{2}{n} Re {{\hat{d k}}^{*} ⊙ \hat{x}} ⟩ \\ = ⟨ \hat{d x}, \frac{2}{n} Re {{\hat{d k}}^{*}} ⊙ \hat{x} ⟩ \end{aligned} \end{matrix}

根據公式(19)，計算反向傳播映射

\begin{matrix} (20) & \hat{\nabla_{x} ℓ} = \frac{2}{n} \hat{x} ⊙ Re {\hat{\nabla_{k} ℓ}} \end{matrix}

類似地，現在計算內積

\begin{matrix} (21) & \begin{aligned} ⟨ F (d α), F (J_{2} (d k, d y)) ⟩ & = ⟨ \hat{d α}, {\hat{k}}^{- 1} ⊙ (\frac{1}{n} \hat{d y} - \hat{d k} ⊙ \hat{α}) ⟩ \\ = ⟨ \hat{d α}, {\hat{k}}^{- 1} ⊙ (\frac{1}{n} \hat{d y}) ⟩ - ⟨ \hat{d α}, {\hat{k}}^{- 1} ⊙ (\hat{d k} ⊙ \hat{α}) ⟩ \\ = ⟨ \frac{1}{n} {\hat{k}}^{- 1} ⊙ \hat{d α}, \hat{d y} ⟩ + ⟨ - \hat{d α}, {\hat{k}}^{- 1} ⊙ (\hat{d k} ⊙ \hat{α}) ⟩ \\ = ⟨ \frac{1}{n} {\hat{k}}^{- 1} ⊙ \hat{d α}, \hat{d y} ⟩ + ⟨ - {\hat{k}}^{- 1} ⊙ \hat{α} ⊙ \hat{d α}, \hat{d k} ⟩ \\ = ⟨ \frac{1}{n} {\hat{k}}^{- *} ⊙ \hat{d α}, \hat{d y} ⟩ + ⟨ - {\hat{k}}^{- *} ⊙ {\hat{α}}^{*} ⊙ \hat{d α}, \hat{d k} ⟩ \end{aligned} \end{matrix}

得到反向傳播映射

\begin{matrix} (22) & {\begin{matrix} \hat{\nabla_{y} ℓ} = \frac{1}{n} {\hat{k}}^{- *} ⊙ \hat{\nabla_{α} ℓ} \\ \hat{\nabla_{k} ℓ} = - {\hat{k}}^{- *} ⊙ {\hat{α}}^{*} ⊙ \hat{\nabla_{α} ℓ} \end{matrix} \end{matrix}

類似地，計算內積

\begin{matrix} (23) & \begin{aligned} ⟨ F (d w), F (J_{3} (d α, d x)) ⟩ & = ⟨ \hat{d w}, {\hat{d α}}^{*} ⊙ \hat{x} + {\hat{α}}^{*} ⊙ \hat{d x} ⟩ \\ = ⟨ \hat{d w}, {\hat{d α}}^{*} ⊙ \hat{x} ⟩ + ⟨ \hat{d w}, {\hat{α}}^{*} ⊙ \hat{d x} ⟩ \\ = ⟨ {\hat{d α}}^{*}, \hat{d w} ⊙ \hat{x} ⟩ + ⟨ \hat{d x}, {\hat{α}}^{*} ⊙ \hat{d w} ⟩ \\ = ⟨ \hat{d α}, {\hat{d w}}^{*} ⊙ \hat{x} ⟩ + ⟨ \hat{d x}, {\hat{α}}^{*} ⊙ \hat{d w} ⟩ \end{aligned} \end{matrix}

也可以得到反向傳播映射

\begin{matrix} (24) & {\begin{matrix} \hat{\nabla_{α} ℓ} = \hat{x} ⊙ {\hat{\nabla_{w} ℓ}}^{*} \\ \hat{\nabla_{x} ℓ} = {\hat{α}}^{*} ⊙ \hat{\nabla_{w} ℓ} \end{matrix} \end{matrix}

最後，綜合上述公式(20)、(22)和(24)，可以得到CFNet最終的反向傳播映射

\begin{matrix} (25) & {\begin{matrix} \hat{\nabla_{α} ℓ} = \hat{x} ⊙ {\hat{\nabla_{w} ℓ}}^{*} \\ \hat{\nabla_{y} ℓ} = \frac{1}{n} {\hat{k}}^{- *} ⊙ \hat{\nabla_{α} ℓ} \\ \hat{\nabla_{k} ℓ} = - {\hat{k}}^{- *} ⊙ {\hat{α}}^{*} ⊙ \hat{\nabla_{α} ℓ} \\ \hat{\nabla_{x} ℓ} = \frac{2}{n} \hat{x} ⊙ Re {\hat{\nabla_{k} ℓ}} + {\hat{α}}^{*} ⊙ \hat{\nabla_{w} ℓ} \end{matrix} \end{matrix}

最後，本推導筆記離不開富民同學的耐心幫助和CSDN博主的xiahouzuoxin的啓發，在此一併表示感謝！

更多內容，歡迎掃碼關注“視覺邊疆”微信訂閱號

CFNet視頻目標跟蹤推導筆記

1. 論文信息

2. 濾波器求解——論文公式(7)推導過程

2.1 最優化求解

2.2 相關濾波引入

3. 反向傳播公式推導過程

3.1 計算微分

3.2 計算反向傳播

DAPPER 事務 TRANSACTION

解決Windows 10下pip安裝pycocotools報錯“ERROR: Failed building wheel for pycocotools”

升級VMware至15.1.0版本解決Windows 10 1903下VMware Workstation 15 Pro虛擬機死機問題

ICCV 2019視頻目標跟蹤算法Pipeline集合

Ubuntu 18.04安裝CUDA 10.0筆記

解決“ImportError: cannot import name 'imresize'”

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結