2020-5-26 吴恩达-改善深层NN-w1 深度学习的实用层面(1.13 梯度检验(原理)-检查导数和梯度的逼近值是否相差过大)

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

1.13 梯度检验 Gradient Checking

梯度检验帮我们节省了很多时间，也可以发现反向传播backprop实施过程中的bug。本节我们看看如何利用它来调试或检验backprop的实施是否正确。

假设你的网络中含有这些参数，W^[1]和b^[1]…W^[L]和b^[L]。

为了执行梯度检验，首先要做的就是，把所有参数转换成一个巨大的向量数据，你要做的就是把矩阵W转换成一个向量。
把所有W矩阵转换成向量之后，做连接运算，得到一个巨型向量 $\theta$ 。
现在你得到了一个 $\theta$ 的代价函数J（即 $J(\theta)$ ）
$J(W^{[1]},b^{[1]}.....W^{[L]},b^{[L]}):J(\theta)$

接着，你得到与W和b顺序相同的数据，你同样可以把dW^[1]和db^[1]……dW^[L]和db^[L]转换成一个新的向量，用它们来初始化大向量 $d\theta$ ，它与 $\theta$ 具有相同维度。

注意dW^[1]与W^[1]具有相同维度，db^[1]与b^[1]具有相同维度。

那么 $d\theta$ 和代价函数 $J(\theta)$ 的梯度或坡度有什么关系？
这就是实施梯度检验Gradient Checking的过程。

首先，我们要清楚 J 是超参数 $\theta$ 的一个函数，不论超级参数 $\theta$ 向量的维度是多少，你可以将 J函数展开为 $J(\theta_1,\theta_2,\theta_3,......)$ 。为了实施梯度检验，你要做的就是循环执行，从而对每个 $i$ 也就是对每个 $\theta$ 组成元素计算 $d\theta_{approx}[i]$ 。

上一节已经介绍过，为了更加逼近导数，这里要使用双边误差计算逼近值approximation，即
$d\theta_{approx}[i]=\frac{J(\theta_1,\theta_2,......\theta_i+\epsilon,......)-J(\theta_1,\theta_2,......\theta_i-\epsilon,......)}{2\epsilon}$
只对 $\theta_i$ 增加 $\epsilon$ ，其它项保持不变。因为我们使用的是双边误差，对另一边做同样的操作，只不过是减去 $\epsilon$ ， $\theta$ 其它项全都保持不变。

上一节已经介绍过， $d\theta_{approx}[i]$ 应该逼近 $d\theta[i]=\frac{∂J}{∂\theta_i}$ ， $d\theta[i]$ 是代价函数 $J$ 的偏导数。

然后你需要对 $i$ 的每个值都执行这个运算，最后得到两个向量： $d\theta_{approx}$ 和 $d\theta$ 。这2个向量的维度相同，和 $\theta$ 的维度也相同。

你要做的就是验证这些向量是否彼此接近， $d\theta_{approx} \approx d\theta$ 。

那么如何定义两个向量是否真的接近彼此？

我们可以这样做。

计算这两个向量的欧式距离， $d\theta_{approx}[i] - d\theta[i]$ 的欧几里得范数(L2范数)。注意这里（ $||d\theta_{approx}[i] - d\theta[i]||_2$ ）没有平方，它是误差平方之和，然后求平方根，得到欧式距离。

然后使用向量长度的欧几里得范数归一化，得到梯度检验方程式为
$\frac{||d\theta_{approx}[i] - d\theta[i]||_2}{||d\theta_{approx}[i]||_2+||d\theta[i]||_2}$
分母只是用于预防这些向量太小或太大。分母使得这个方程式变成比率。

我们实际执行这个方程式， $\epsilon$ 可能为10^-7。使用这个取值范围内的 $\epsilon$

如果你发现计算上述方程式得到的值为10^-7或更小，这就很好，因为这意味着导数逼近很有可能是正确的，它的值非常小。
如果它的值在10^-5范围内，我就要小心了，也许这个值没问题，但我会再次检查这个向量的所有项，确保没有一项误差过大，可能这里有bug。
如果它的值大于10^-3，我就会担心是否存在bug。这时应该仔细检查所有 $\theta$ 项，看是否有一个具体的 $i$ 值，使得 $d\theta_{approx}[i]$ 和 $d\theta[i]$ 差别很大，并用它来追踪一些求导计算是否正确。经过一些调试，直至最终结果是这种非常小的值（10^-7），此时你的实施才可能是正确的。

在实现NN时，经常需要执行前向传播foreprop和反向传播backprop。
如果你发现这个梯度检验有一个相对较大的值，你就要小心存在bug。然后开始调试，调试，调试，调试一段时间后，直至得到一个很小的梯度检验值，现在你可以很自信的说，NN实施是正确的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2020-5-26 吴恩达-改善深层NN-w1 深度学习的实用层面(1.13 梯度检验(原理)-检查导数和梯度的逼近值是否相差过大)

1.13 梯度检验 Gradient Checking

EXCEL中下拉菜单中添加新选项或者删除选项

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

Python 爬虫：Spring Boot 反爬虫的成功案例

Java中止线程的方式

[转帖]Oracle Exadata 学习笔记之核心特性Part1

《最新出炉》系列入门篇-Python+Playwright自动化测试-43-分页测试

HTTP协议相关文档

2020-5-18 吳恩達-改善深層NN-w1 深度學習的實用層面(1.2 偏差-欠擬合(訓練集)/方差-過擬合(驗證集))

2020-6-6 吳恩達-NN&DL-w2 NN基礎(課後編程-Logistic Regression with a Neural Network mindset)

2020-6-10 吳恩達-NN&DL-w3 淺層NN(課後作業)

2020-6-21 吳恩達-NN&DL-w4 深層NN(課後作業)

2020-5-19 吳恩達-改善深層NN-w1 深度學習的實用層面(1.4 正則化-L2正則化/弗羅貝尼烏斯範數/權重衰減)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結