理解梯度下降法

原創

2020-02-20 16:29

梯度下降法是求解無約束最優問題中常用到的一種學習方法，形式簡單，屬於一階收斂，在空間進行線性搜索。在前面講到的邏輯斯蒂迴歸模型中，就常用到梯度下降法來學習參數。
首先給出問題定義（統計學習方法附錄A）：
假設f(x)是Rn 上具有一階連續偏導的函數，求解的目標問題如下：

minx∈Rnf(x)

x∗ 表示目標函數f(x) 的極小值點。
梯度下降法通過迭代的方法不斷更新x 的值，直至x 離極小值點x∗ 的距離滿足條件。由於函數的負梯度方向是函數值下降最快的方向，因此梯度下降法選擇在負梯度方向更新x 的值。

若第k次迭代時x 的值爲x(k) ，在該點處對f(x) 一階泰勒展開，得到：

f(x)=f(x(k))+gTk(x−x(k))

其中，gk 爲在x(k) 點的梯度。有如下等式來對x(k+1) 更新：

x(k+1)=x(k)+λkpk

其中，pk=−gk 是該點的負梯度，表示更新x 時的搜索方向；λk 是步長，在梯度下降法使用中是最需要考慮的一個參數，要求：

f(x(k)+λkpk)=minλ≥0f(x(k)+λpk)

在實際運用中最簡單方法是通過多次實驗選取最合適的步長作爲定長來使用。
綜上，梯度下降法的步驟如下：
（1）、取初始值x(0) ，置k=0;
（2）、計算f(x(k)) ;
（3）、計算梯度gk=g(x(k)) ，當||gk||<ϵ 時，說明已經收斂，停止迭代，記x∗=x(k) ；否則，令pk=−gk ;
（4）、使用等式x(k+1)=x(k)+λkpk 來更新x ，並求f(x(k+1)) ，當||f(x(k+1))−f(x(k))||<ϵ 或||x(k+1)−x(k)||<ϵ 時，停止迭代，記x∗=x(k+1) ；
（5）、否則，置k=k+1 ，轉（3）。

梯度下降法通常在離極值點遠的地方下降很快，但在極值點附近時會收斂速度很慢。並且，在目標函數是凸函數時，梯度下降法的解是全局最優解。而在一般情況下，梯度下降法不保證求得全局最優解。

示例
若對一個線性數據集通過梯度下降法求得線性方程的參數theta,即上面的xk 。設在訓練數據上的損失函數爲：

J(θ)=12m∑i=1m(hθ(xi)−yi)2

其中，

hθ(x)=θ⋅x ,

θ爲增廣向量
對

J(θ) 求偏導，得：

J′(θ)=12m×2∑mi=1(hθ(xi)−yi)×h′θ(xi)

=1m∑mi=1(hθ(xi)−yi)×xi
用式子

θj←θj−λ⋅J′(θ)
對

θj 進行更新。
下面是對一個單變量數據集使用梯度下降法得出的線性方程：

火貪三刀

發佈了50 篇原創文章 · 獲贊 229 · 訪問量 63萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

理解梯度下降法

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

理解牛頓法

語義網—RDFS

理解支持向量機（二）核函數

理解數學空間，從距離到希爾伯特空間

理解最大熵模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結