機器學習—梯度下降

單變量梯度下降
在我們學習的損失函數後,梯度下降就是求解損失函數的一種方法
我們求出θ0,θ1,使得J(θ0,θ1)最小,同理也是求出θ0,θ1,θ2,θ3…θn使得J(θ0,θ1,θ2,θ3…θn)最小,或者局部最小值,我們僅用θ0,θ1,使得J(θ0,θ1)最小,這個例子來求解:
在這裏插入圖片描述
例如圖中,我們隨機取一點,然後再通過這點找到向下的最佳點,一直迭代到數據最佳,即爲我們得出的最小損失函數:
在這裏插入圖片描述
但是我們再其他位置,找到一個最佳點:
在這裏插入圖片描述
如圖,得出的最小損失函數不同,即爲局部最佳點。這個是梯度下降的一個特點。
所以,梯度下降算法如下:
在這裏插入圖片描述
表示賦值
此符號表示賦值,跟新θj的值
α
此符號表示學習速率,是一個值,他控制了梯度下降的速率
在這裏插入圖片描述
這是個微分項,較爲簡單,即爲一點的斜率(後面不過多講解)
所以:
在這裏插入圖片描述
所以,上述式子可以這樣理解:θj這個點不停的在更新,即用θj減去α×θj的斜率,他是不停的跟新狀態,找到局部最優點。注意:在更新時,需要同時更新θ0,θ1的值

這裏我們使用一個參數的損失函數:J(θ1):
在這裏插入圖片描述
上述即爲下列式子求最佳點J(θ1):
θ1:=θ1-a×( d/dθ1)J(θ1),
例如:
在這裏插入圖片描述
這點中,斜率爲( d/dθ1)J(θ1),a爲學習速率,所以,θ1:=θ1-a×( d/dθ1)J(θ1)中,會形成如下圖:
在這裏插入圖片描述
找到最優點,如果a太小都會需要很多時間才能找到最佳點,如果a太大,他會離最佳點越來越遠。
在這裏插入圖片描述
在這裏插入圖片描述
當我們用梯度下降時,他會一點一點的找到最優點。
單變量梯度下降如上理解
多變量梯度下降
在這裏插入圖片描述
上圖中有n+1個θ參數,代價函數J(θ0,θ1…θn)
我們可以想象成n+1維向量函數,在梯度下降算法中:
在這裏插入圖片描述
講過代價函數J(θ0,θ1)爲
————m
(1/2m)∑=(h(x(i))-y(i))
————i=1
所以:
在這裏插入圖片描述
可以化爲上述式子。

當代價函數J(θ0,θ1…θn)爲n>=1時
在這裏插入圖片描述
在梯度下降中,我們常常將其收斂到-1-1的範圍
如有錯誤可以聯繫我:626529441,一起交流學習,謝謝。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章