關於梯度尋優的理解

原創

2020-02-21 22:28

問題：爲什麼沿着函數梯度的方向蹦，函數值一定會往增大的方向走或者走向收斂？

假設
設函數爲 $f(x)$ ， $f(x)$ 的梯度爲 $f^{'}(x)$ ，函數上有一點爲 $x_0$ ，相應的函數值和梯度值爲 $f(x_0)、f^{'}(x_0)$ 。

分類討論

$f^{'}(x)$ 無非三種狀態：負數、0、正數。

當 $f^{'}(x_0)<0$ 時， $f(x)$ 遞減，所以 $x_0>x_0+f^{'}(x_0)$ ，所以 $f(x_0)<f(x_0+f^{'}(x_0))$ ；
當 $f^{'}(x_0)=0$ 時， $x_0=x_0+f^{'}(x_0)$ ，所以會一直原地踏步，也就是所謂的收斂了；
當 $f^{'}(x_0)>0$ 時， $f(x)$ 遞增，所以 $x_0<x_0+f^{'}(x_0)$ ，所以 $f(x_0)<f(x_0+f^{'}(x_0))$ ；

應用

尋求 $f(x)$ 的極小值時，應向梯度的反方向尋找，即 $x_{n+1}=x_{n}-\alpha f^{'}(x_n)$ 。
尋求 $f(x)$ 的極大值時，應向梯度的方向尋找，即 $x_{n+1}=x_{n}+ \alpha f^{'}(x_n)$ 。
判斷找到極值的條件即 $f^{'}(x_0)=0$ 。

一般尋找的時候會設個步長 $\alpha$ ，也稱學習率。就是每次邁的步子大小，步子邁大了，會來回震盪；邁小了，收斂速度會慢。

發佈了35 篇原創文章 · 獲贊 51 · 訪問量 8萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

人工智能之從零理解人工神經網絡

人工智能之從零理解人工神經網絡引人工智能並非是一個新型的詞彙，從十九世紀五十年代開始，人們就開始探索爲機器賦予類似人的智能能力。限於當時的基礎數學理論不夠完善，人工智能的發展並不順利。直到九十年代發展出了基於統計學的數學工具，人工智能纔

2023-10-29 23:43:35

logistic迴歸 python代碼實現

本代碼參考自：https://github.com/lawlite19/MachineLearning_Python/blob/master/LogisticRegression/LogisticRegression.py 1. 讀取數據

2021-12-25 21:35:45

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

點擊下方“AI算法與圖像處理”，一起進步！重磅乾貨，第一時間送達作者丨小馬編輯丨極市平臺導讀儘管近年來卷積神經網絡很大地促進了計算機視覺的發展，

2021-09-15 21:15:08

【機器學習】深入探討，爲什麼要做特徵歸一化/標準化？

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜作者丨shine-lee 編輯丨極市平臺來源丨https://blog.csdn.net/blogshinelee/article/details/102875044 導

機器學習算法與Python實戰

2021-09-09 21:12:51

模型逆向攻擊實戰

#前言 AI在生活中已經無處不在了，不論是高鐵、機場的人臉識別還是指紋支付、語音助手等，都內置了AI技術。隨着一項技術逐漸發展成熟，其安全風險就需要被考慮了。可能大家談到AI安全的時候，最熟悉的就是對抗樣本攻擊，其本質是通過修改輸入樣本，

2021-08-04 21:10:50

機器學習：一文詳解算法優化內部機制

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜來源：數據派THU，編輯：黃繼彥

機器學習算法與Python實戰

2021-08-02 21:14:05

淺談樹模型與集成學習-從決策樹到GBDT

引言神經網絡模型，特別是深度神經網絡模型，自AlexNet在Imagenet Challenge 2012上的一鳴驚人，無疑是Machine Learning Research上最靚的仔，各種進展和突破層出不窮，科學家工程師人人都愛它

2021-07-29 21:19:56

使用apache.commons.math求解一元多項式方程

添加依賴 <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-math3</artifactId> <version>3.6.

2021-03-22 21:21:46

機器學習：從零開始學習梯度下降

作者：SETHNEHA 翻譯：王可汗校對：陳丹梯度下降是一個需要理解的重要算法，因爲它是機器學習和深度學習中使用的許多更先進算法的基礎。因此，掌握梯度下降的內部工作原理對任何計劃進一步探索機器學習算法的人來

機器學習算法與Python實戰

2021-03-22 21:14:52

吳恩達深度學習學習筆記——C2W2——算法優化——練習題

C2W2 Quiz - Optimization algorithms Ans: C Note: [i]{j}(k) superscript means i-th layer, j-th mini

2021-02-05 21:26:19

吳恩達深度學習學習筆記——C3W1——機器學習策略1-1

1.1 爲什麼需要ML策略？問題引入：如何提高機器學習的水平？可能有很多種想法（如，收集更多數據、收集更豐富多樣的訓練數據、增加梯度下降法迭代次數、增加網絡規模、減小網絡規模、使用隨機失活（dropout）、添加L2正則化項、改變網

2021-02-05 21:15:25

吳恩達深度學習學習筆記——C2W3——超參數調試、Batch正則化和程序框架-1

1.1 超參數的調試（調參）超參數有哪些？學習率α、動量梯度下降法參數β、Adam算法參數（β1、β2、ε）、神經網絡的層數、神經網絡各隱層的節點數、學習率衰減係數、mini-batch大小等隨機選擇超參數一般勝過表格法（按

2021-02-04 09:25:20

吳恩達深度學習學習筆記——C2W3——超參數調試、Batch 正則化和程序框架——作業

C2W3 Quiz - Hyperparameter tuning, Batch Normalization, Programming Frameworks Ans: False Note: Try random va

2021-02-04 09:11:53

忘掉sklearn，用Python徒手寫線性迴歸

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜來源：機器之心對於大多數數據科學家而言，線性迴歸方法是他們進行統計學建模和預測分析任務的起點。這種方法已經存在了 200 多年，並得到了廣泛研究，但仍然是一個積極的研究領

機器學習算法與Python實戰

2021-02-02 21:13:23

24小時熱門文章

最新文章

最新評論文章