機器學習—梯度下降

單變量梯度下降
在我們學習的損失函數後，梯度下降就是求解損失函數的一種方法
我們求出θ0，θ1，使得J(θ0，θ1)最小，同理也是求出θ0，θ1，θ2，θ3…θn使得J(θ0，θ1，θ2，θ3…θn)最小，或者局部最小值，我們僅用θ0，θ1，使得J(θ0，θ1)最小，這個例子來求解：

例如圖中，我們隨機取一點，然後再通過這點找到向下的最佳點，一直迭代到數據最佳，即爲我們得出的最小損失函數：

但是我們再其他位置，找到一個最佳點：

如圖，得出的最小損失函數不同，即爲局部最佳點。這個是梯度下降的一個特點。
所以，梯度下降算法如下：

此符號表示賦值，跟新θj的值
α
此符號表示學習速率，是一個值，他控制了梯度下降的速率

這是個微分項，較爲簡單，即爲一點的斜率(後面不過多講解)
所以：

所以，上述式子可以這樣理解：θj這個點不停的在更新，即用θj減去α×θj的斜率，他是不停的跟新狀態，找到局部最優點。注意：在更新時，需要同時更新θ0，θ1的值

這裏我們使用一個參數的損失函數：J(θ1):

上述即爲下列式子求最佳點J（θ1）：
θ1:=θ1-a×（ d/dθ1）J（θ1），
例如：

這點中，斜率爲（ d/dθ1）J（θ1），a爲學習速率，所以，θ1:=θ1-a×（ d/dθ1）J（θ1）中，會形成如下圖：

找到最優點，如果a太小都會需要很多時間才能找到最佳點，如果a太大，他會離最佳點越來越遠。

當我們用梯度下降時，他會一點一點的找到最優點。
單變量梯度下降如上理解
多變量梯度下降

上圖中有n+1個θ參數，代價函數J（θ0，θ1…θn）
我們可以想象成n+1維向量函數，在梯度下降算法中：

講過代價函數J（θ0，θ1）爲
————m
（1/2m）∑=（h（x（i））-y（i））
————i=1
所以：

可以化爲上述式子。