Stanford公開課機器學習---week1-2.單變量線性迴歸(Linear Regression with One Variable)

原創

2020-06-20 23:02

單變量線性迴歸(Linear Regression with One Variable)

2.1 模型表達(Model Representation)

單變量線性迴歸：只含有一個特徵/輸入變量 x

$h θ = θ 0 + θ 1 x$

目標便是選擇出可以使得建模誤差的平方和能夠最小的模型參數，使得代價函數J(θ0,θ1) 最小

$J (θ 0, θ 1) = 1 2 m \sum 1 m (h θ (x (i)) - y (i)) 2$

J(θ0,θ1) 形成的圖像：Bowl-shaped弓形函數，又叫convex function 凸函數：

開始：隨機選擇一個參數的組合(θ0,θ1,…,θn)

一直改變(θ0,θ1,…,θn)來減小代價函數J(θ0,θ1)
直到到一個 局部最小值(local minimum)

因爲我們並沒有嘗試完所有的參數組合,所以不能確定我們得到的局部最小值是否便是 全局最小值(global minimum)
選擇不同的初始參數組合,可能會找到不同的局部最小值(如下圖)。

批量梯度下降(batch gradient descent)：下降的每一步都使用所有的訓練樣本。

要同時更新θ0θ1 :

公式	含義
∂∂θjJ(θ0,θ1)	1.該點的切線斜率（slope）：決定下降方向
α	2.學習率(learning rate)：決定了下降方向向下邁出的步子有多大。

2.學習率(learning rate)
α 過小：下降過慢
α 過大：過學習，可能不能找到局部最小值或不能收斂

因爲隨着下降過程，越來越接近局部最小值（此處斜率爲0），斜率（梯度）逐漸減小，所以無需減小α ，下降步子也會隨斜率減小。如下圖：

把梯度下降法用於對線性迴歸求代價函數的最小值：

\partial \partial θ j J (θ 0, θ 1) = \partial \partial θ j 1 2 m \sum 1 m (h θ (x (i)) - y (i)) 2

j=0時：

\partial \partial θ 0 J (θ 0, θ 1) = 1 m \sum 1 m (h θ (x (i)) - y (i))

j=1時：

\partial \partial θ 1 J (θ 0, θ 1) = 1 m \sum 1 m （ (h θ (x (i)) - y (i)) \cdot x (i) ）

得到此線性函數hθ(x) 的梯度下降公式：

因爲線性函數的代價函數總是convex function 凸函數，所以梯度下降只有一個局部最小值，也就是全局最小值了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.