梯度下降算法總結

原創

2018-09-03 03:44

梯度下降算法	優點	缺點
BGD（batch）	1、相對噪聲低 2、凸函數可以收斂到全局小值	每更新一次參數都要遍歷所有樣本，計算量開銷大，計算速度慢對於非凸函數收斂到局部最小值
SGD	1、收斂速度快 2、有機會跳出局部最小值	1.失去所有向量化帶來的加速（無法利用矩陣操作加速計算過程） 2.噪聲大 3.永遠不會收斂，一直在最小值附近波動
MBGD（mini-batch）（事實上很多論文將之稱爲SGD）	BGD和SGD的折中 Batch_size比較小時，可能跳出局部最小值	不能收斂到最小值，在最小值附近波動
Momentum	收斂速度非常快	參數採用相同的學習率，對於稀疏數據不友好
Adagrad	爲不同的參數設置不同的學習率，易於處理稀疏數據	學習率不斷較小最終達到一個非常小的值，模型學習速度很慢
RMSprop	解決了Adagrad學習率消失的問題善於處理非平穩目標	相對於Adagrad收斂速度慢
Adam	1、結合了Adagrad善於處理稀疏梯度和RMSprop善於處理非平穩目標的優點 2、對內存需求較小 3、也適用於大多非凸優化，適用於大數據集和高維空間	可能不收斂或者收斂到局部最小值

1.SGD + Momentum

被大量用在CNN 、NLP 問題上

2.Adam + SGD

Adam加速收斂過程，可能陷入到局部最小值或無法收斂，此時用小學習率 SGD 幫助 adam 跳出局部最小值。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

優化算法之模擬退火算法

clear all;clc;close all %模擬退火算法求解旅行商問題 %{ 日期： 20190912_ZD %} t0 = clock;%計時 Inter = 1;%迭代次數初始化 a = 0.99;%溫度衰減係數 Ts = 1

等等登登-Ande

2020-07-03 11:23:42

論文研讀-基於變量分類的動態多目標優化算法

論文研讀-基於變量分類的動態多目標優化算法 A Dynamic Multiobjective Evolutionary Algorithm Based on Decision Variable Classification 覺得有

武科大许志伟

2020-07-05 14:19:11

深度學習系列（七）優化算法（梯度下降、動量法、AdaGrad算法、RMSProp算法、AdaDelta算法、Adam算法） 2020.6.24

前言在訓練模型時，會使⽤優化算法不斷迭代模型參數以降低模型損失函數的值本節詳細學習常用的優化算法梯度下降動量法 AdaGrad算法 RMSProp算法 AdaDelta算法 Adam算法 1、優化算法的挑戰優化算法的

思源湖的鱼

2020-07-03 22:46:14

優化算法之粒子羣算法

今天爲大家分享啓發式優化算法的第二種算法——粒子羣算法（又稱鳥羣算法），粒子羣算法是依據鳥羣在覓食過程中信息在在個體和集體中傳遞的原理進行優化的，具體原理這裏同樣不進行詳細介紹，大家可以參考其他博客，這裏直接貼出相關程序： functi

等等登登-Ande

2020-07-03 11:23:52

優化算法之進化策略

clear all;clc;close all; %進化策略解決旅行商問題 %{ 日期： 20190912_ZD 遺傳算法強調染色體的操作，進化策略強調個體級的行爲變化，而進化規劃則強強調種羣級別上的行爲變化，現在學術界上將GA，ES

等等登登-Ande

2020-07-03 11:23:52

優化算法之蟻羣算法

今天爲大家講解第三種啓發式優化算法——蟻羣算法。蟻羣算法是根據螞蟻覓食的行爲得到的一種優化算法，螞蟻在覓食的過程中會在行進的道路上留下信息素，信息素越濃，表示該條路徑到食物的距離越短，通過這種方式螞蟻可以快速找到大量的食物，下面給出通過蟻

等等登登-Ande

2020-07-03 11:23:42

WFG系列問題-多目標優化測試問題

直接從微信公衆號搬運的～～～文章主題：WFG系列測試問題的定義，特徵，真實PF，使用方法適用人羣：正在學習優化算法的同學推薦閱讀時間：2mins 1. ZDT簡介在學習多目標優化的過程中，WFG測試問題常常出現，但他的定義形式和代

2020-06-29 10:38:53

線性降維：主成分分析PCA原理分析與仿真驗證

鶯嘴啄花紅溜，燕尾點波綠皺。指冷玉笙寒，吹徹小梅春透。依舊，依舊，人與綠楊俱瘦。 ——《如夢令·春景》秦觀 1、背景隨着信息技術的發展，數據量呈現爆照式增長，高維海量數據給傳統的數據處理方法帶來了嚴峻的挑戰，因此

2020-06-25 12:06:52

優化算法入門學習筆記（一）優化算法基本概念

一、優化的過程一個典型的工程設計優化過程如下圖所示，可以簡述爲：問題說明 -> 初始設計 -> 評估性能 -> 改進設計 -> 最終模型 The role of the designer is to provide a proble

2020-06-23 10:54:25

粒子羣優化算法（2）離散粒子羣算法

在上一篇博客粒子羣優化算法（1）中介紹了基本的粒子羣算法，基本粒子羣算法是基於連續空間（區間）進行搜索，然而在一些實際的工程應用中，我們的待求解的變量可能並不是歷需的，而實一種離散型的變量。這就需要對基本的粒子羣算法做出一些

途径北海道

2020-06-23 09:03:18

最優化理論-線搜法(Line Search Methods)

分類準確的線搜法：迭代次數確定。如二分法，插值法，黃金分割法，etc. 非準確的線搜法：在一階優化中用得較多，用於確定學習率（步長）。二分法如下圖，反覆交替確定上下界，終止條件是最終經過kkk次迭代後的上下界之間的距離

2020-06-22 11:56:03

理解ADMM, ALF和Split Bregman

理解ADMM, ALM和Split Bergman引言Alternating Direction Method of MultipliersAugmented Lagrangian Multipliers小結Splitt Breg

2020-06-22 11:56:03

最優化理論-2-梯度下降法

梯度法分類上升與下降方向大家應該都聽過最陡梯度下降法。首先，“陡”與方向有關，既然是最陡，就存在不那麼“陡”的方向。在介紹最陡梯度下降法之前，先了解一下下降方向。這個時候高中學的地理知識可發揮用場了，“等高線”可以刻畫一座山

2020-06-22 11:56:03

最優化理論3-牛頓法

回顧在講解牛頓法之前我們先回顧一下最速梯度下降法，泰勒展開與Hessian矩陣之間的關係。泰勒展開對於一元函數f(x)f(x)f(x)，在xxx處的泰勒展開爲： f(x+σ)=f(x)+f′(x)σ+12f′′(x)σ2+.

2020-06-22 11:56:03

優化算法 | 使用Knn算法進行數據預測流程分析

現在給你一組數據{ a 1 ,a 2, ⋯ ,a n}，比如這組數據表示的是第1個月到第n個月的電量使用情況現在讓你根據這組數據使用KNN算法去預測a n+1的值，也就是第n+1個月的電量使用情況由於任何一個月的用電量總是和前幾個月的用電

2020-06-22 00:30:13

24小時熱門文章

最新文章

最新評論文章