3種不同形式的梯度下降算法(SGD、MBGD、BGD)

pre

爲了便於理解使用只含有一個特徵的線性迴歸進行陳述:
假設函數:
hθ(x(i))=θ1x(i)+θ0h_{\theta}(x^{(i)})=\theta_{1}x^{(i)}+\theta_{0}
使用MSE損失函數
J(θ0,θ1)=12mi=1m(hθ(x(i))y(i))2J_{(\theta_{0},\theta_{1})} =\frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2
使用MSE + L2L_2 正則化
J(θ0,θ1)=12mi=1m(hθ(x(i))y(i))2+12mθ12J_{(\theta_{0},\theta_{1})} =\frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2 + \frac{1}{2m}||\theta_1||^2
在這裏插入圖片描述

批梯度下降

公式

代碼demo

隨機梯度下降

公式

代碼demo

小批量梯度下降

公式

代碼demo

參考文獻

REF1
REF2
REF3
REF4
其中REF3在BGD上的公式有誤,參考REF1

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章