改善深层神经网络：超参数调整、正则化以及优化——2.8 Adam算法（Adaptive Moment Estimation）

原創

2020-02-27 10:15

Adam算法是Momentum和RMSprop结合在一起得到的。使用Adam算法，首先要初始化 $V_{dw}=0,S_{dw}=0,V_{db}=0,S_{db}=0$ 。在第t次迭代中，要计算微分，用当前的mini-batch计算 $dW,db$ ，一般会用mini-batch梯度下降法，接下来计算momentum指数加权平均数： $V_{dw}=\beta_1*V_{dw}+(1-\beta_1)*d_W$ $V_{db}=\beta_1*V_{db}+(1-\beta_1)*db$ 接着用RMSprop进行更新 $S_{dw}=\beta_2*S_{dw}+(1-\beta_2)*(dw)^2$ $S_{db}=\beta_2*S_{db}+(1-\beta_2)*(db)^2$ 一般使用Adam算法的时候，要计算偏差修正： $V_{dw}^{corrected}=\frac{V_{dw}}{1-\beta_1^t}$ $V_{db}^{corrected}=\frac{V_{db}}{1-\beta_1^t}$ $S_{dw}^{corrected}=\frac{S_{dw}}{1-\beta_2^t}$ $S_{db}^{corrected}=\frac{S_{db}}{1-\beta_2^t}$ 最后更新权重 $W=W-\alpha\frac{V_{dw}^{corrected}}{\sqrt{S_{dw}^{corrected}}+\varepsilon}$ $b=b-\alpha\frac{V_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\varepsilon}$ 所以Adam算法结合了Momentum和RMSprop梯度下降法，并且是一种及其常见的学习算法，被证明能有效适用于不同的神经网络。该算法有很多很重要的超参数，超参数学习率 $\alpha$ 很重要，也经常需要调试，可以尝试一系列值，然后看哪个有效。 $\beta-1$ 常用的缺省值为0.9，这是 $dW$ 的移动平均数，也就是 $dW$ 的加权平均数，这是Momentum涉及的项。至于超参数 $\beta_2$ ，Adam算法的发明者推荐使用0.999，这是在计算 $(dW)^2$ 以及 $(db)^2$ 的移动加权平均值。关于 $\varepsilon$ 的选择其实没有很重要，Adam论文的作者建议 $\varepsilon$ 为 $10^{-8}$ 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

吴恩达深度学习笔记02——改善深层神经网络3超参数调试

一、超參數調試處理 1、重要程度排序目前已經講到過的超參數中，重要程度依次是：最重要：學習率 α；其次重要： β：動量衰減參數，常設置爲 0.9； #hidden units：各隱藏層神經元個數； mini-bat

2020-07-07 22:37:47

吴恩达深度学习笔记02——改善深层神经网络1深度学习的实用层面

一、數據劃分：訓練 / 驗證 / 測試集應用深度學習是一個典型的迭代過程。對於一個需要解決的問題的樣本數據，在建立模型的過程中，數據會被劃分爲以下幾個部分：訓練集（train set）：用訓練集對算法或模型進行訓練過程；

2020-07-07 22:37:47

吴恩达第四课第一周编程作业

本次作業目的構建一個簡單的卷積網絡下載地址鏈接：https://pan.baidu.com/s/1h6gy7kDwzUOHDssnEw7lVQ 提取碼：nctg 代碼原生代碼 import numpy as np impo

2020-07-02 21:49:04

【吴恩达深度学习】【神经网络和深度学习】第三章第八节激活函数的导数

一、激活函數的導數有關每個函數的導數在前面的blo中已經很詳細的寫過了，這個不加贅述。值得一提的是有關ReLU函數在x=0處沒有導數的問題。由於可以想想的是，我們的訓練集的分散且巨大的，所以我們最終0點的情況非常少，可以忽略不計，因此

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第十一节随机初始化

一、爲什麼隨機初始化在之前有關梯度下降法的blo中我們討論了一個係數是如何在一個神經網絡中進行迭代的，而一個迭代過程，不知道知道迭代是如何進行的，還要知道，迭代的初值是什麼，這節課討論的就是這個問題。那既然初始化是必要的，爲什麼一定要

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第三节计算神经网络的输出

一、正向傳播正向傳播是指數據從X傳入到神經網絡，經過各個隱藏層得到最終輸出的過程在計算一個神經網絡的輸出的時候，如果已知輸入，那麼就是一個標準的正向傳播過程還是跟直接blog一樣的例子在這個例子中，我們實際上是在對每一個輸入，以

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第四节多个例子中的向量化

一、爲什麼能夠向量化大部分原因和前面blog中描述是一致的，這裏又有了一點心得思考。如果我們在後面要進行梯度下降法或者別的什麼方法進行迴歸計算或者別的深度學習的時候，我們總是要對整個神經網絡的參數進行調整的，那麼這個調整的過程需要確定

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第六节激活函数

一、激活函數定義我們在研究一個神經元的時候（這裏指生物學中的神經元），我們知道其有軸突和樹突，可以傳導衝動，同時我們還知道，衝動在傳導的時候有一個閾值，低於某個值的衝動無法被傳導或者傳道的時候減弱了，所以其實神經衝動的傳導是一個非線性的

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第二节神经网络表示

一、一些有關神經網絡的符號約定這個在上篇blog中提了一部分，這裏補充剩下的一部分我們對於加權函數一般記爲z=w^T x+b，而激活函數一般使用a=g(z)表示對於最終的輸出我們不妨記爲y hat，儘管這個真的沒有什麼特別的意義

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第五节向量化实现的解释

一、這節設置的目的在前面的四節課以及之前學習中，吳恩達已經很詳細講解了向量化及其好處，這節課卻反過來教學生如何進行向量化以及向量化爲什麼是對的，個人認爲這節課的設置是有一些多餘的，猜測其可能原因是想多舉出一些例子讓學生更好的理解淺層神

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第九节神经网络的梯度下降法

一、梯度下降法有關什麼是梯度下降法，這在之前幾周的學習中我們已經掌握了，這裏簡要分析。對於一個函數，我們在某一個點的next操作可以認爲是跟這個點的導數有關的，因爲導數會指引我們走向極值。然後我們每次根據這個點的導數向前走一步的過程中

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第七节我们为什么需要非线性激活函数？

一、爲什麼不能用非線性函數假如我們的神經網絡的所有激活函數都是線性的函數，我們不妨想這麼一個問題既然兩個線性的函數是可以複合的，所以一個只由線性函數構成的神經網絡的所有函數能不能複合成一個函數呢？顯然是可以的，線性函數直接是可以自

2020-06-17 03:20:26

【吴恩达深度学习】【神经网络和深度学习】第三章第一节神经网络概览

本章節主要講述的是淺層神經網絡。而這一節則是對整個章節的概覽一、神經元神經網絡，神經元連接而成的網絡如圖就是一個神經元，可以看出，有輸出，有輸出，中間經過了一些運算，這將來接下來的blog中進行討論。這是一個基於losgiti

2020-06-17 03:20:26

吴恩达第二课第一周编程作业

鏈接：https://pan.baidu.com/s/1qd3ocbfnmXdXUx-TjhlM3A 提取碼：93cz

2020-06-06 15:07:25

吴恩达第一课第二周编程作业

鏈接：https://pan.baidu.com/s/1ENynOEU33LFsoEln3HeZGw 提取碼：0spc 本次作業是完成一個“識別貓”的神經網絡網絡搭建。代碼： import numpy as np impor

2020-06-06 15:07:25

24小時熱門文章

最新文章

最新評論文章