Deep Learning 最优化方法之Nesterov(牛顿动量)

原創

2020-02-25 04:14

本文是Deep Learning 之最优化方法系列文章的Nesterov(牛顿动量)方法。主要参考Deep Learning 一书。

整个优化系列文章列表：

Deep Learning 之最优化方法

Deep Learning 最优化方法之SGD

Deep Learning 最优化方法之Momentum（动量）

Deep Learning 最优化方法之Nesterov(牛顿动量)

Deep Learning 最优化方法之AdaGrad

Deep Learning 最优化方法之RMSProp

Deep Learning 最优化方法之Adam

先上结论：

1.Nesterov是Momentum的变种。

2.与Momentum唯一区别就是，计算梯度的不同，Nesterov先用当前的速度v更新一遍参数，在用更新的临时参数计算梯度。

3.相当于添加了矫正因子的Momentum。

4.在GD下，Nesterov将误差收敛从O（1/k），改进到O(1/k^2)

5.然而在SGD下，Nesterov并没有任何改进

具体算法如下所示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

论文笔记之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

Deep Learning 之参数初始化

本文僅對常見的參數初始化方法進行總結（大部分內容來自deep learning一書），原理性的問題不進行過多的探討。 Deep Learning中參數初始化十分重要，一般來說有以下這些原因： 1.初始點的選取，有時候能夠決定算法

2020-07-08 10:23:34

自然语言几个重要的模型

自然語言幾個重要的模型。循環神經網絡 (序列模型序列依賴問題) 雙向循環神經網絡（輸入序列正向和反向依賴問題）深度雙向循環神經網絡 LSTM（梯度消失問題） GRU text CNN（一維卷積和池化） seq2seq（序列到

2020-07-06 22:44:07

模型实践（二）bert 中文语料分类

1.下載bert源代碼和中文預訓練模型 bert代碼模型下載 Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameter

2020-07-06 22:44:07

关键词提取-TFIDF 自定义逆文档IDF的值

TF-IDF 用於提取關鍵詞，那麼如何從多個文檔中提取出關鍵詞。文章的關鍵詞可能有什麼規律，表示文章主要意思，那這個詞應該在該文章中出現多次，但是在其他文章中出現次數不多。 TF 詞頻（Term Frequency）表示w在文檔

2020-07-06 22:43:56

模型实践（一）RNN LSTM 中文分类

對之前一節部分進行實踐，使用keras進行實現，keras關於循環神經網絡有多個方法。https://keras.io/zh/layers/recurrent/ SimpleRNN LSTM+CNN 樣本使用ai挑戰賽用戶評

2020-07-06 22:43:56

tensorflow2.1报no attribute 'Summary' && tf.contrib.summary instead

前後遇到兩個錯 1、AttributeError: module tensorflow has no attribute 'Summary' 通過將 tf.Summary 換成 tf.compat.v1.Summary，可利用ten

2020-07-05 09:59:45

基于PyTorch的深度学习快速入门教程

最近小組彙報正好用到了pytorch，所以想把相關內容整理成博客（彙報ppt和演示代碼附在最後了，有需要的話可以自取）。主要參考了《Python深度學習：基於PyTorch》的前幾章和網上的一些入門教程，側重代碼。通過這篇博客，

今天有向小何靠近一点点吗

2020-06-29 07:30:18

基于Python的Stanford CoreNLP自然语言分析快速入门教程

最近小組彙報正好用到了corenlp，所以想把相關內容整理成博客（彙報ppt和演示代碼附在最後了，有需要的話可以自取）。主要參考了corenlp官網教程和網上一些別的入門教程，由於代碼比較簡短，所以側重理論描述一點。通過這篇博客

今天有向小何靠近一点点吗

2020-06-29 07:30:17

一个小目标：构建一个classfier超越 lenet5！(model1_cifar10)

新的模型結構還沒，想出來..... 想先試試cifar10上訓練的結果和lenet5的差距，baseline主要參考這裏。然而我沒有1080Ti...... 我只有1060 6G版，哭首先先寫個cifar10的數據讀入和預處理的腳本

2020-06-22 00:32:31

基于ubuntu-16.04.5 安装 mysql 和Python操作mysql的支持

系統版本：ubuntu-16.04.5-desktop-amd64，必須處理器: 2.7GHz，4核，可以根據實際情況選擇內存：4G 軟件依賴 # 安裝 pip sudo apt-get install curl su

2020-06-16 06:04:31

一个小目标：构建一个classfier超越 lenet5！（model_1）

閒來無事（好像也不閒啊）想從零開始構建一個model在mnist 上超過lenet5而且只訓練1000steps,利用這兩年看的論文，還是有信心的，畢竟lenet5 是20年前的模型啊！首先看下baseline： emmmm

2020-06-14 09:06:51

最优化问题之如何逃离(跳出)鞍点（Saddle Points）

2020-06-04 02:41:41

谷歌BERT 学习

2020-06-03 18:15:41

小白Bert系列-生成pb模型，tfserving加载，flask进行预测

2020-06-01 09:50:46

24小時熱門文章

最新文章

最新評論文章