CNN卷积神经网络学习笔记3：权值更新公式推导

在上篇《CNN卷积神经网络学习笔记2：网络结构》中，已经介绍了CNN的网络结构的详细构成，我们已经可以初始化一个自己的CNN网络了，接下来就是要用训练得到一个确定的CNN的模型，也就是确定CNN的参数。
CNN本质上就是人工神经网络的一种，只是在前几层的处理上有所不同，我们可以把卷积核看成是人工神经网络里的权值W，而采样层实质上也是一种卷积运算。所以可以基于人工神经网络的权值更新的方法来推导CNN里的权值更新公式。人工神经网络里是用反向传播算法将误差层层回传，利用梯度下降法更新每一层的权值，CNN中也是类似的。所以这里先对传统的BP算法做个概述，然后再推广到CNN中。

1，BP算法

1.1 Feedforward Pass前向传播

首先定义平方误差代价函数：

E N = 1 2 \sum n = 1 N \sum k = 1 c (t n k - y n k) 2 .

其中N是样本个数，c是label的维度，对于分类问题，意味着这些样本能分为c类。

tkn 表示第n个样本的label

tn 的第k维，

ykn 是第n个样本网络的输出(predict label)的第k维。我们的目标是要更新网络的权值，使得网络输出y与真实值t更接近，也就是最小化这个E，考虑到要考虑一个样本，则第n个样本的误差函数是：

E n = 1 2 \sum k = 1 c (t n k - y n k) 2 .

定义第l层的输出为：

x l = f (u l), 其 中 u l = W l x l - 1 + b l (1)

这里f是激活函数，

xl−1 是l-1层的输出，也就是l层的输入，W和b分别是l层的权值和偏置。
上式就是前向传播的公式，每一层对输入(也就是上一层的输出)做运算，得到输出结果，这样将样本信息逐层传递，最后输出一个预测值(predict label)。

1.2 Backpropagation Pass反向传播

预测值与真实值(label)之间必然是存在误差的，反向传播就是要把这个误差信息回传给每一层，让这些层修改他们的权值，使得CNN更精准。
BP算法中是用梯度下降法更新权值的，梯度下降法的更新公式如下：

W l n e w = W l o l d - η \partial E \partial W l o l d .

b l n e w = b l o l d - η \partial E \partial b l o l d .

梯度下降法细节可以参考这里：
http://ufldl.stanford.edu/wiki/index.php/Gradient_checking_and_advanced_optimization
其中

η 是梯度下降的学习率(learning rate)，可以看出，梯度下降法更新权值主要是利用误差代价函数对参数的梯度，所以权值更新的目标就是让每一层得到这样的梯度，然后更新。
为了求取单个样本的误差代价函数对参数的偏导，这里定义节点灵敏度(sensitivities)

δ 为误差对输出的变化率：

δ = \partial E \partial u

其中的u是

ul=Wlxl−1+bl .
对于参数中的偏置b，因为

∂u∂b=1 ，由链式求导法则可得：

\partial E \partial b l = \partial E \partial u l \partial u l \partial b l = δ l . (2)

每层的灵敏度是不一样的，可以算得：

δ l = \partial E \partial b l = \partial 1 2 ( y - t ) 2 \partial b l = f' (u l) \circ (y n - t n) . (3)

注意这里y也是b的函数，

y=f(ul)=f(Wlxl−1+b) ，所以要乘上

f′(ul) ，这里的

∘ 表示每个元素相乘，因为每个神经元连接都会有一个灵敏度

δ ，所以每一层的灵敏度是一个矩阵。
进一步求得误差代价函数E对参数中的权值W的偏导：

\partial E \partial W l = \partial E \partial u l \partial u l \partial W l = δ l x l - 1 . (4)

至此，我们得到了每一层利用梯度下降进行权值更新时需要的梯度，也就是(2),(4)，可以看到他们都和灵敏度有关，而灵敏度可由(3)式计算。
在(3)式中，

yl 和

ul 中的

xl−1 是不知道的，也就是说，我们不知道每一层具体的的输入和输出，而且这个也太难计算，那么怎么把误差信息层层回传呢？
从灵敏度下手：

δ l = \partial E \partial u l = \partial E \partial u l + 1 \partial u l + 1 \partial u l = δ l + 1 \partial ( W l + 1 x l + b ) \partial u l = δ l + 1 \partial ( W l + 1 f ( u l ) + b ) \partial u l = δ l + 1 W l + 1 \circ f' (u l) .

所以反向传播其实是通过灵敏度层层回传误差信息，如下就是反向传播的核心公式：

δ l = δ l + 1 W l + 1 \circ f' (u l) . (5)

以上是对经典的BP算法做一个概述，CNN中把权值W换成卷积核k，按照(1)(2)(3)(4)(5)式就可以得到CNN的权值更新公式。

2，CNN中卷积层权值更新推导

2.1 对照(1)式计算l层的输出

在CNN中，对于卷积层的每一种输出的特征图xj 有：

x l j = f (\sum i \in M j x l - 1 i * k l i j + b j) .

其中，Mj表示选择的输入特征图组合，

kij 是输入的第i种特征图和输出的第j种特征图之间的连接所用的卷积核，

bj 是第j种特征图对应的偏置，f是激活函数。

2.2 对照(5)式计算灵敏度

δ l j = δ l + 1 j W l + 1 j \circ f' (u l) = β l + 1 j u p (δ l + 1 j) \circ f' (u l) .

因为l+1层是采样层，所以相当于也是做卷积，例如做scale=2的下采样，就是用2*2的每个值为1/4的卷积核卷积图像，所以这里的权值W实际上就是这个2*2的卷积核，它的值是

βj 。up表示上采样操作，因为l+1采样层的灵敏度矩阵是l层灵敏度矩阵的尺寸的1/4(scale=2时)，所以这里要对l+1层的灵敏度矩阵做上采样，使它们尺寸一致。

2.3 对照(2)式计算误差代价函数对偏置b的偏导

也就是对层l中的灵敏度中所有节点求和，这里(u,v)代表灵敏度矩阵中的元素位置：

\partial E \partial b j = \sum u, v (δ l j) u, v

2.4 对照(4)式计算误差代价函数对卷积核k的偏导：

\partial E \partial k l i j = \sum u, v (δ l j) u, v (p l - 1 i) u v .

这里

(pl−1i)uv 是

xl−1i 在做卷积时，与

kij 做卷积的每一个patch，(u,v)是patch中心，输出特征图中(u,v)位置的值，是由输入特征图中(u,v)位置的patch和卷积核

kij 卷积所得的值。

3，CNN中下采样层权值更新推导

3.1 对照(1)式计算l层的输出

在CNN中，对于采样层的每一种输出特征图xj 有：

x l j = f (β l j d o w n (x l - 1 j) + b l j) .

down表示下采样，这里的

β 是乘性偏置，b是加性偏置，一般cnn网络中没有这个

β 。

3.2 对照(5)式计算灵敏度

δ l j = δ l + 1 j W l + 1 j \circ f' (u l) = f' (u l j) \circ c o n v 2 (δ l + 1 j, r o t 180 (k l + 1 j),' f u l l') .

3.3 对照(2)式计算误差代价函数对偏置b的偏导

这里和卷积层的b是一样的：

\partial E \partial b j = \sum u, v (δ l j) u, v .

至此我们就得到了CNN的权值更新公式。
下一篇中讨论一个简单的CNN实现。

Reference
《Notes on Convolutional Neural Networks》
http://cogprints.org/5869/1/cnn_tutorial.pdf
以及它的中文翻译：
http://blog.csdn.net/zouxy09/article/details/9993371

CNN卷积神经网络学习笔记3：权值更新公式推导

1，BP算法

1.1 Feedforward Pass前向传播

1.2 Backpropagation Pass反向传播

2，CNN中卷积层权值更新推导

2.1 对照(1)式计算l层的输出

2.2 对照(5)式计算灵敏度

2.3 对照(2)式计算误差代价函数对偏置b的偏导

2.4 对照(4)式计算误差代价函数对卷积核k的偏导：

3，CNN中下采样层权值更新推导

3.1 对照(1)式计算l层的输出

3.2 对照(5)式计算灵敏度

3.3 对照(2)式计算误差代价函数对偏置b的偏导

使用neovim打造go ide(支持代码跳转, 代码补全, 实时语法检查)

挑战程序设计竞赛 2.3章习题 poj 3046 Ant Counting

Shell/Python中的用户名获取

[VLFeat]Dense Sift的C源碼學習

LDA主題模型學習筆記5：C源碼理解

ADC方法(asymmetric distance computation)

論文筆記《Superparsing: Scalable Nonparametric Image Parsing with Superpixels》

[VLFeat]Fisher vector提取matlab代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結