1. 论文信息

论文题目：End-to-end representation learning for Correlation Filter based tracking
论文出处：CVPR 2017
论文作者：Jack Valmadre，Luca Bertinetto等人
论文主页：http://www.robots.ox.ac.uk/~luca/cfnet.html
源码链接：https://github.com/bertinetto/cfnet

2. 滤波器求解——论文公式(7)推导过程

2.1 最优化求解

首先，定义最优化问题

\begin{matrix} (1) & \underset{w}{\arg min} \frac{1}{2 n} {‖ X^{T} w - y ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} \end{matrix}

其中，

w

表示待求解的滤波器，

n

表示样本数目，

y

表示样本标签。
现在，我们将公式(1)换一种方式进行表述，定义

r = X^{T} w - y

，那么最优化问题为

\begin{matrix} (2) & \begin{array}{l} \underset{w, r}{\arg min} \frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} \\ s . t . r = X^{T} w - y \end{array} \end{matrix}

从公式(2)开始，利用拉格朗日乘子法进行优化，具体可以参考Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers一书中Chapter 2.1 Dual Ascent中的描述（PDF链接：https://web.stanford.edu/~boyd/papers/pdf/admm_distr_stats.pdf），首先构建拉格朗日表达式：

\begin{matrix} (3) & L (w, r, v) = \frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y) \end{matrix}

其中 $v$ 是拉格朗日乘数，这样，将损失函数进行梯度求解，首先对 $w$ 求偏导数，得

\begin{matrix} (4) & \begin{aligned} \frac{\partial L (w, r, v)}{\partial w} & = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y))}{\partial w} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial w} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial w} + \frac{\partial (v^{T} (r - X^{T} w + y))}{\partial w} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial w} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial w} + \frac{\partial (v^{T} (X^{T} w))}{\partial w} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial w} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial w} + \frac{\partial (v^{T} X^{T} w)}{\partial w} \\ = 0 + λ w + v^{T} (0 - X^{T}) \\ = λ w - {(v^{T} X^{T})}^{T} \\ = λ w - X v \end{aligned} \end{matrix}

现在对 $r$ 求偏导数，得

\begin{matrix} (5) & \begin{aligned} \frac{\partial L (w, r, v)}{\partial r} & = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y))}{\partial r} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial r} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial r} + \frac{\partial (v^{T} (r - X^{T} w + y))}{\partial r} \\ = \frac{1}{2 n} \cdot 2 r + 0 + {(v^{T})}^{T} (1 - 0 + 0) \\ = \frac{1}{n} r + v \end{aligned} \end{matrix}

最后对 $v$ 求偏导数，得

\begin{matrix} (6) & \begin{aligned} \frac{\partial L (w, r, v)}{\partial v} & = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2} + \frac{λ}{2} {‖ w ‖}^{2} + v^{T} (r - X^{T} w + y))}{\partial v} \\ = \frac{\partial (\frac{1}{2 n} {‖ r ‖}^{2})}{\partial v} + \frac{\partial (\frac{λ}{2} {‖ w ‖}^{2})}{\partial v} + \frac{\partial (v^{T} (r - X^{T} w + y))}{\partial v} \\ = 0 + 0 + (r - X^{T} w + y) \\ = r - X^{T} w + y \end{aligned} \end{matrix}

现在，分别令上述三个偏导数为0，得

\begin{matrix} (7) & {\begin{cases} λ w - X v = 0 \\ \frac{1}{n} r + v = 0 \\ r - X^{T} w + y = 0 \end{cases} \end{matrix}

根据方程(7)，首先求解，可以得到

\begin{matrix} (8) & w = \frac{1}{λ} X v \end{matrix}

接下来求解 $v$ ，有

\begin{matrix} (9) & \begin{matrix} {\begin{matrix} w = \frac{1}{λ} X v \\ \frac{1}{n} r + v = 0 \\ r = X^{T} w - y \end{matrix} \\ \Rightarrow \frac{1}{n} (X^{T} w - y) + v = 0 \\ \Rightarrow \frac{1}{n} (X^{T} \frac{1}{λ} X v - y) + v = 0 \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v - \frac{1}{n} y + v = 0 \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v + v = \frac{1}{n} y \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v + v = \frac{1}{n} y \\ \Rightarrow \frac{1}{n} \cdot \frac{1}{λ} X^{T} X v + v = \frac{1}{n} y \\ \Rightarrow \frac{1}{λ} X^{T} X v + n v = y \\ \Rightarrow (\frac{1}{λ} X^{T} X + n I) v = y \\ \Rightarrow (X^{T} X + λ n I) v = λ y \\ \Rightarrow v = \frac{λ y}{X^{T} X + λ n I} \\ \Rightarrow v = \frac{λ}{n (\frac{1}{n} X^{T} X + λ I)} y \\ \Rightarrow v = \frac{λ}{n} {(\frac{1}{n} X^{T} X + λ I)}^{- 1} y \end{matrix} \end{matrix}

最终，得到的解为

\begin{matrix} (10) & {\begin{matrix} w = \frac{1}{λ} X v \\ v = \frac{λ}{n} {(\frac{1}{n} X^{T} X + λ I)}^{- 1} y = v = \frac{λ}{n} K^{- 1} y \end{matrix} \end{matrix}

其中， $K = \frac{1}{n} X^{T} X + λ I$ 是正则化核矩阵。通常情况下，我们会引入一个scaled dual变量 $α = \frac{1}{λ} v = \frac{1}{n} K^{- 1} y$ ，利用变量 $α$ ，可以将 $w$ 表示为某种加权组合

\begin{matrix} (11) & w = X α = \sum_{i = 1}^{n} α_{i} x_{i} \end{matrix}

2.2 相关滤波引入

根据相关滤波跟踪方法的特性，这里我们将上述变量 $X$ 定义为循环矩阵，满足 $X [u, t] = X [u + t mod m]$ ，由于此时矩阵 $X$ 是对称矩阵，所以模板 $w$ 是通过互相关的方式获取的

\begin{matrix} (12) & w = X α = α ⋆ x \end{matrix}

注： $*$ 表示循环卷积操作， $⋆$ 表示循环互相关操作， $⊙$ 表示矩阵元素级乘法

关于正则化核矩阵 $K = \frac{1}{n} X^{T} X + λ I$ ，关于它的线性映射等价于与base信号 $k$ 的卷积

\begin{matrix} (13) & K z = k * z \end{matrix}

其中 $k = \frac{1}{n} x ⋆ x + λ δ$ ，由于

\begin{matrix} (14) & \begin{aligned} \forall z : F X^{T} X z & = F ((z ⋆ x) ⋆ x) \\ = \hat{z} ⊙ {\hat{x}}^{*} ⊙ \hat{x} \\ = F (z * (x ⋆ x)) \end{aligned} \end{matrix}

于是，有

\begin{matrix} (15) & {\begin{matrix} k = \frac{1}{n} x ⋆ x + λ δ \\ k * α = k * \frac{1}{n} K^{- 1} y = \frac{1}{n} k * K^{- 1} y = \frac{1}{n} K K^{- 1} y = \frac{1}{n} y \\ w = α ⋆ x \end{matrix} \end{matrix}

放到傅里叶域中，其解为

\begin{matrix} (16) & {\begin{matrix} \hat{k} = \frac{1}{n} ({\hat{x}}^{*} ⊙ \hat{x}) + λ I \\ \hat{α} = \frac{1}{n} {\hat{k}}^{- 1} ⊙ \hat{y} \\ \hat{w} = {\hat{α}}^{*} ⊙ \hat{x} \end{matrix} \end{matrix}

公式(16)即为论文中的公式(7)，这样，相关滤波的求解表达式就完成了。

注：公式中的互相关，在傅里叶域中会带上一个共轭符号，其中一种出处：
不管如何，与直接卷积相差一个负号。这时，看清楚了，相关函数在频域也不完全是乘积，是一个信号的共轭再与原信号乘积，这就是与“时域卷积频域相乘不同的地方”。
所以，请记住这个有用的结论：两个信号的互相关函数的频域等于X信号频域的共轭乘以Y信号的频域。
https://blog.csdn.net/xiahouzuoxin/article/details/19286077

3. 反向传播公式推导过程

3.1 计算微分

由于论文将相关滤波器作为深度神经网络中的一层，因此在定义网络结构时，有必要确定网络的反向传播表达式。

首先，根据公式(15)，求解微分

\begin{matrix} (17) & {\begin{matrix} d k = \frac{1}{n} (d x ⋆ x + x ⋆ d x) \\ d k * α + k * d α = \frac{1}{n} d y \\ d w = d α ⋆ x + α ⋆ d x \end{matrix} \end{matrix}

将公式(17)转换到傅里叶域，有

\begin{matrix} (18) & {\begin{matrix} \hat{d k} = \frac{1}{n} ({\hat{d x}}^{*} ⊙ \hat{x} + {\hat{x}}^{*} ⊙ \hat{d x}) \\ \hat{d α} = {\hat{k}}^{- 1} ⊙ (\frac{1}{n} \hat{d y} - \hat{d k} ⊙ \hat{α}) \\ \hat{d w} = {\hat{d α}}^{*} ⊙ \hat{x} + {\hat{α}}^{*} ⊙ \hat{d x} \end{matrix} \end{matrix}

3.2 计算反向传播

用 $J_{1}$ 表示映射 $d x \mapsto d k$ （这个映射就是公式(17)，如果放到傅里叶域就是公式(18)），首先计算内积

\begin{matrix} (19) & \begin{aligned} ⟨ F (d k), F (J_{1} (d x)) ⟩ & = ⟨ \hat{d k}, \frac{1}{n} ({\hat{d x}}^{*} ⊙ \hat{x} + {\hat{x}}^{*} ⊙ \hat{d x}) ⟩ \\ = \frac{1}{n} ⟨ \hat{d k}, {\hat{d x}}^{*} ⊙ \hat{x} ⟩ + \frac{1}{n} ⟨ \hat{d k}, {\hat{x}}^{*} ⊙ \hat{d x} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} ⟩ + \frac{1}{n} ⟨ \hat{d x}, {\hat{x}}^{*} ⊙ \hat{d k} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} ⟩ + \frac{1}{n} ⟨ \hat{d x}, \hat{d k} ⊙ {\hat{x}}^{*} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} + \hat{d k} ⊙ {\hat{x}}^{*} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, {\hat{d k}}^{*} ⊙ \hat{x} + \hat{d k} ⊙ {\hat{x}}^{*} ⟩ \\ = \frac{1}{n} ⟨ \hat{d x}, 2 Re {{\hat{d k}}^{*} ⊙ \hat{x}} ⟩ \\ = ⟨ \hat{d x}, \frac{2}{n} Re {{\hat{d k}}^{*} ⊙ \hat{x}} ⟩ \\ = ⟨ \hat{d x}, \frac{2}{n} Re {{\hat{d k}}^{*}} ⊙ \hat{x} ⟩ \end{aligned} \end{matrix}

根据公式(19)，计算反向传播映射

\begin{matrix} (20) & \hat{\nabla_{x} ℓ} = \frac{2}{n} \hat{x} ⊙ Re {\hat{\nabla_{k} ℓ}} \end{matrix}

类似地，现在计算内积

\begin{matrix} (21) & \begin{aligned} ⟨ F (d α), F (J_{2} (d k, d y)) ⟩ & = ⟨ \hat{d α}, {\hat{k}}^{- 1} ⊙ (\frac{1}{n} \hat{d y} - \hat{d k} ⊙ \hat{α}) ⟩ \\ = ⟨ \hat{d α}, {\hat{k}}^{- 1} ⊙ (\frac{1}{n} \hat{d y}) ⟩ - ⟨ \hat{d α}, {\hat{k}}^{- 1} ⊙ (\hat{d k} ⊙ \hat{α}) ⟩ \\ = ⟨ \frac{1}{n} {\hat{k}}^{- 1} ⊙ \hat{d α}, \hat{d y} ⟩ + ⟨ - \hat{d α}, {\hat{k}}^{- 1} ⊙ (\hat{d k} ⊙ \hat{α}) ⟩ \\ = ⟨ \frac{1}{n} {\hat{k}}^{- 1} ⊙ \hat{d α}, \hat{d y} ⟩ + ⟨ - {\hat{k}}^{- 1} ⊙ \hat{α} ⊙ \hat{d α}, \hat{d k} ⟩ \\ = ⟨ \frac{1}{n} {\hat{k}}^{- *} ⊙ \hat{d α}, \hat{d y} ⟩ + ⟨ - {\hat{k}}^{- *} ⊙ {\hat{α}}^{*} ⊙ \hat{d α}, \hat{d k} ⟩ \end{aligned} \end{matrix}

得到反向传播映射

\begin{matrix} (22) & {\begin{matrix} \hat{\nabla_{y} ℓ} = \frac{1}{n} {\hat{k}}^{- *} ⊙ \hat{\nabla_{α} ℓ} \\ \hat{\nabla_{k} ℓ} = - {\hat{k}}^{- *} ⊙ {\hat{α}}^{*} ⊙ \hat{\nabla_{α} ℓ} \end{matrix} \end{matrix}

类似地，计算内积

\begin{matrix} (23) & \begin{aligned} ⟨ F (d w), F (J_{3} (d α, d x)) ⟩ & = ⟨ \hat{d w}, {\hat{d α}}^{*} ⊙ \hat{x} + {\hat{α}}^{*} ⊙ \hat{d x} ⟩ \\ = ⟨ \hat{d w}, {\hat{d α}}^{*} ⊙ \hat{x} ⟩ + ⟨ \hat{d w}, {\hat{α}}^{*} ⊙ \hat{d x} ⟩ \\ = ⟨ {\hat{d α}}^{*}, \hat{d w} ⊙ \hat{x} ⟩ + ⟨ \hat{d x}, {\hat{α}}^{*} ⊙ \hat{d w} ⟩ \\ = ⟨ \hat{d α}, {\hat{d w}}^{*} ⊙ \hat{x} ⟩ + ⟨ \hat{d x}, {\hat{α}}^{*} ⊙ \hat{d w} ⟩ \end{aligned} \end{matrix}

也可以得到反向传播映射

\begin{matrix} (24) & {\begin{matrix} \hat{\nabla_{α} ℓ} = \hat{x} ⊙ {\hat{\nabla_{w} ℓ}}^{*} \\ \hat{\nabla_{x} ℓ} = {\hat{α}}^{*} ⊙ \hat{\nabla_{w} ℓ} \end{matrix} \end{matrix}

最后，综合上述公式(20)、(22)和(24)，可以得到CFNet最终的反向传播映射

\begin{matrix} (25) & {\begin{matrix} \hat{\nabla_{α} ℓ} = \hat{x} ⊙ {\hat{\nabla_{w} ℓ}}^{*} \\ \hat{\nabla_{y} ℓ} = \frac{1}{n} {\hat{k}}^{- *} ⊙ \hat{\nabla_{α} ℓ} \\ \hat{\nabla_{k} ℓ} = - {\hat{k}}^{- *} ⊙ {\hat{α}}^{*} ⊙ \hat{\nabla_{α} ℓ} \\ \hat{\nabla_{x} ℓ} = \frac{2}{n} \hat{x} ⊙ Re {\hat{\nabla_{k} ℓ}} + {\hat{α}}^{*} ⊙ \hat{\nabla_{w} ℓ} \end{matrix} \end{matrix}

最后，本推导笔记离不开富民同学的耐心帮助和CSDN博主的xiahouzuoxin的启发，在此一并表示感谢！

更多内容，欢迎扫码关注“视觉边疆”微信订阅号

CFNet视频目标跟踪推导笔记

1. 论文信息

2. 滤波器求解——论文公式(7)推导过程

2.1 最优化求解

2.2 相关滤波引入

3. 反向传播公式推导过程

3.1 计算微分

3.2 计算反向传播

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

解決Windows 10下pip安裝pycocotools報錯“ERROR: Failed building wheel for pycocotools”

升級VMware至15.1.0版本解決Windows 10 1903下VMware Workstation 15 Pro虛擬機死機問題

ICCV 2019視頻目標跟蹤算法Pipeline集合

Ubuntu 18.04安裝CUDA 10.0筆記

解決“ImportError: cannot import name 'imresize'”

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結