Deep Learning 最優化方法之Nesterov(牛頓動量)

原創

2020-02-25 04:14

本文是Deep Learning 之最優化方法系列文章的Nesterov(牛頓動量)方法。主要參考Deep Learning 一書。

整個優化系列文章列表：

Deep Learning 之最優化方法

Deep Learning 最優化方法之SGD

Deep Learning 最優化方法之Momentum（動量）

Deep Learning 最優化方法之Nesterov(牛頓動量)

Deep Learning 最優化方法之AdaGrad

Deep Learning 最優化方法之RMSProp

Deep Learning 最優化方法之Adam

先上結論：

1.Nesterov是Momentum的變種。

2.與Momentum唯一區別就是，計算梯度的不同，Nesterov先用當前的速度v更新一遍參數，在用更新的臨時參數計算梯度。

3.相當於添加了矯正因子的Momentum。

4.在GD下，Nesterov將誤差收斂從O（1/k），改進到O(1/k^2)

5.然而在SGD下，Nesterov並沒有任何改進

具體算法如下所示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

Deep Learning 之參數初始化

本文僅對常見的參數初始化方法進行總結（大部分內容來自deep learning一書），原理性的問題不進行過多的探討。 Deep Learning中參數初始化十分重要，一般來說有以下這些原因： 1.初始點的選取，有時候能夠決定算法

2020-07-08 10:23:34

自然語言幾個重要的模型

自然語言幾個重要的模型。循環神經網絡 (序列模型序列依賴問題) 雙向循環神經網絡（輸入序列正向和反向依賴問題）深度雙向循環神經網絡 LSTM（梯度消失問題） GRU text CNN（一維卷積和池化） seq2seq（序列到

2020-07-06 22:44:07

模型實踐（二）bert 中文語料分類

1.下載bert源代碼和中文預訓練模型 bert代碼模型下載 Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameter

2020-07-06 22:44:07

關鍵詞提取-TFIDF 自定義逆文檔IDF的值

TF-IDF 用於提取關鍵詞，那麼如何從多個文檔中提取出關鍵詞。文章的關鍵詞可能有什麼規律，表示文章主要意思，那這個詞應該在該文章中出現多次，但是在其他文章中出現次數不多。 TF 詞頻（Term Frequency）表示w在文檔

2020-07-06 22:43:56

模型實踐（一）RNN LSTM 中文分類

對之前一節部分進行實踐，使用keras進行實現，keras關於循環神經網絡有多個方法。https://keras.io/zh/layers/recurrent/ SimpleRNN LSTM+CNN 樣本使用ai挑戰賽用戶評

2020-07-06 22:43:56

tensorflow2.1報no attribute 'Summary' && tf.contrib.summary instead

前後遇到兩個錯 1、AttributeError: module tensorflow has no attribute 'Summary' 通過將 tf.Summary 換成 tf.compat.v1.Summary，可利用ten

2020-07-05 09:59:45

基於PyTorch的深度學習快速入門教程

最近小組彙報正好用到了pytorch，所以想把相關內容整理成博客（彙報ppt和演示代碼附在最後了，有需要的話可以自取）。主要參考了《Python深度學習：基於PyTorch》的前幾章和網上的一些入門教程，側重代碼。通過這篇博客，

今天有向小何靠近一点点吗

2020-06-29 07:30:18

基於Python的Stanford CoreNLP自然語言分析快速入門教程

最近小組彙報正好用到了corenlp，所以想把相關內容整理成博客（彙報ppt和演示代碼附在最後了，有需要的話可以自取）。主要參考了corenlp官網教程和網上一些別的入門教程，由於代碼比較簡短，所以側重理論描述一點。通過這篇博客

今天有向小何靠近一点点吗

2020-06-29 07:30:17

一個小目標：構建一個classfier超越 lenet5！(model1_cifar10)

新的模型結構還沒，想出來..... 想先試試cifar10上訓練的結果和lenet5的差距，baseline主要參考這裏。然而我沒有1080Ti...... 我只有1060 6G版，哭首先先寫個cifar10的數據讀入和預處理的腳本

2020-06-22 00:32:31

基於ubuntu-16.04.5 安裝 mysql 和Python操作mysql的支持

系統版本：ubuntu-16.04.5-desktop-amd64，必須處理器: 2.7GHz，4核，可以根據實際情況選擇內存：4G 軟件依賴 # 安裝 pip sudo apt-get install curl su

2020-06-16 06:04:31

一個小目標：構建一個classfier超越 lenet5！（model_1）

閒來無事（好像也不閒啊）想從零開始構建一個model在mnist 上超過lenet5而且只訓練1000steps,利用這兩年看的論文，還是有信心的，畢竟lenet5 是20年前的模型啊！首先看下baseline： emmmm

2020-06-14 09:06:51

最優化問題之如何逃離(跳出)鞍點（Saddle Points）

2020-06-04 02:41:41

谷歌BERT 學習

2020-06-03 18:15:41

小白Bert系列-生成pb模型，tfserving加載，flask進行預測

2020-06-01 09:50:46

24小時熱門文章

關於遊戲付費的一點想法

最新文章

最新評論文章