《MATLAB Deep Learning》Ch3 - Training of Multi-Layer Neural Network 学习笔记

原創

2020-07-05 17:07

Back-propagation algorithm

由于隐藏层的误差项没有被很好地定义（不像输出层有真实值 $d_i$ ），多层神经网络的发展停滞了许久。1986年，后向传播算法 Back-propagation algorithm 的引入解决了这个问题。

考虑一个三层网络（输入—隐藏—输出），下面是隐藏层到输出层的转换：

由前面的章节，我们已经知道对于隐藏层—输出层， $\delta=\varphi^{'}(v)e$ ， $\delta_i$ 对 $W_2$ 的每一行求导，就得到输出层神经元 i 对每一个隐藏层神经元的梯度。

但是现在我们的问题是要求出输入层—隐藏层对应的 $\delta$ ，由于要更新的是 $W_{1},W_1x=v^{(1)},y^{(1)}=\varphi(v^{(1)})$ ，我们需要将 $\delta_i$ 对隐藏层神经元 $y^{(1)}$ 求导。

考虑对每一个隐藏层神经元 $y^{(1)}_{j}$ ，它通过 $w^{(2)}_{ij}$ （竖着看 W 权重矩阵）作用于输出层神经元 $y_i$ ，故对第一个隐藏层神经元，有：

转换成矩阵形式，即：

由此，我们可以统一隐藏层和前面单一网络结构的梯度计算形式，它们的唯一区别就是 $\delta$ 的计算不同。

Momentum

momentum 就是增加到 delta 法则上的一个附加项，它考虑到了之前的梯度的影响。

Cost Function and Learning Rule

上面是两个经典的损失函数，一个是平方误差损失函数，一个是交叉熵损失函数。“the cross entropy-driven learning rule yields a faster learning process.”

考虑如下图的交叉熵损失，当 d=1 时，y 越接近 1，损失越小；y 越接近 0，损失越大。d=0 时同理。

梯度计算参考：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《MATLAB Deep Learning》Ch3 - Training of Multi-Layer Neural Network 学习笔记

目录

Back-propagation algorithm

Momentum

Cost Function and Learning Rule

10分钟搞定Mysql主从部署配置

如何使用 JS 判断用户是否处于活跃状态

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

一键自动化博客发布工具,用过的人都说好(掘金篇)

lightdb数据库超时相关控制参数

lightdb秒级增加列和删除列（not null带默认值）

Java ThreadPoolShutdown

李航：統計學習方法學習筆記 6 logistic迴歸與最大熵模型

論文筆記：Dark Channel Prior - Kaiming He（2）

《MATLAB Deep Learning》Ch4 & Ch5 學習筆記

論文筆記：Dark Channel Prior - Kaiming He（1）

《MATLAB Deep Learning》Ch1 & Ch2 學習筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結