【机器学习】动手写一个全连接神经网络（一）

　　反向传播神经网络推导中给出了复杂的BP公式。从头看这篇多年的博客的公式，我都有点被绕晕了。现在在这里我可以从矩阵计算的角度去演示一个全连接神经网络的计算过程，这样更简洁明了。

　　如上图，是一个简单的分类全连接神经网络，每一根线表示权重相乘。如果没看透这个计算关系，那么我们很容易这样设计程序：每一个节点都制作一个class类，每个类节点要与其他类节点有连接关系，要传递数据，要计算梯度误差。这样做出来的神经网络灵活性很强，但是真的是太复杂了！不靠谱！
　　假设我们只研究两层数据之间的关系，每根线代表一个权重乘法。设权重为w1ij ，前一层数据是x1i ，后一层数据为x2j ，那么后一层每一个数据就是x2i=∑ix1iw1ij+b1i 。为了形象表示数据从左向右传递的过程，我写成
　　

[x 11 x 12 . . .] ⎡ ⎣ ⎢ ⎢ w 1 1 j w 1 2 j . . . ⎤ ⎦ ⎥ ⎥ + b 11

　　如果我们扩展计算整个全连接层，就可以得到简单的矩阵计算：

[x 11 x 12 . . .] ⎡ ⎣ ⎢ w 111 w 121 . . . w 112 w 122 . . . . . . ⎤ ⎦ ⎥ + [b 11 b 12 . . .] = [x 21 x 22 . . .] \to X 1 W 1 + B 1 = X 2

　　所以，一个全连接层，实际上就是一个矩阵乘法和一个矩阵加法，数据都是向量，权重参数可以用矩阵表示，计算过程能够编码为一个layer类，即一个神经网络层。相应的，激活层其实就是对数据向量，逐个元素进行计算，即

A c t i v a t i o n (X 2) = [f (x 21) f (x 22) . . .]

这两种操作都可以向量化，在GPU中跑的飞快；CPU使用MKL和BLAS库也可以大大加速计算。
　　下面关键就是如何计算梯度来修正权重，梯度下降法的定义是

θnew=θold−∂F∂θ 。矩阵求导的公式(注意上标2并不是平方，是序号)是：

\partial X 2 \partial W 1 = (X 1) T \partial E \partial B 1 = I

设损失函数为E。
　　
　　好了，假设我随便做一个神经网络，包含一层全连接层

f c 1 : X f c 1 = X i n p u t W f c 1 + B f c 1

，一层sigmoid激活层

s i g : X s i g = s i g m o i d (X f c 1)

，一层全连接层,最后只输出一个结果

f c 2 : y = X f c 2 = X s i g W f c 2 + B f c 2

，损失函数是Euclidean损失函数

E=12∑(y′i−yi)2 ，求和是因为我们可能一次性计算一个批次的数据，即一个batch，把多次计算的误差全部加起来。
　　输出层误差梯度为：

δ4=∂E∂Xfc2=∑(y′i−yi)
　　fc2层要计算W、B的梯度，和一个向上传递的梯度：

δ 3 = \partial E \partial W f c 2 = \partial E \partial X f c 2 \partial X f c 2 \partial W f c 2 = X T s i g \sum (y' i - y i) = X T s i g δ 4 \partial E \partial B f c 2 = \sum (y' i - y i) = δ 4 δ u p 3 = δ 4 W T f c 2

　　sig层不包含W、B，只上传梯度：

δ u p 2 = \partial X s i g \partial X f c 1 δ u p 3 = X s i g . * (1 - X s i g) . * δ u p 3

.*是元素相乘。这只是一个过渡层。
　　fc1层函数梯度：

δ 1 = \partial E \partial W f c 1 = \partial E \partial X f c 2 \partial X f c 2 \partial X s i g \partial X s i g \partial X f c 1 \partial X f c 1 \partial W f c 1 = X T i n p u t δ u p 2 \partial E \partial B f c 1 = \partial E \partial X f c 2 \partial X f c 2 \partial X s i g \partial X s i g \partial X f c 1 \partial X f c 1 \partial B f c 1 = δ u p 2

　　
　　归纳总结一下：
* 设当前层序号为n，输入数据为

Xn ，下一层向上传递的梯度为

δupn+1 ，则当前层W更新梯度为

XTnδupn+1 ，B更新梯度为

δupn+1 ，向上传递的梯度为

δupn+1WTn
* 如果当前层不包含W，B，例如激活层，则上传向上传递梯度即可
* 输出层的梯度由损失函数定义。

artzers

发布了114 篇原创文章 · 获赞 140 · 访问量 42万+

他的留言板关注

【机器学习】动手写一个全连接神经网络（一）

【機器學習】SVM核函數的計算

【C++】BOOST ASIO 異步服務端代碼分析

【C++】網絡編程小總結

【圖像處理】時域最小二乘逆濾波

【C++】BOOST ASIO 異步客戶端代碼分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結