單變量線性迴歸(Linear Regression with One Variable)
2.1 模型表達(Model Representation)
- m 代表訓練集中實例的數量
- x 代表特徵/輸入變量
- y 代表目標變量/輸出變量
- (x,y) 代表訓練集中的實例
- (x(i),y(i) ) 代表第 i 個觀察實例
- h 代表學習算法的解決方案或函數也稱爲假設(hypothesis)
單變量線性迴歸:只含有一個特徵/輸入變量 x
hθ=θ0+θ1x
2.2 代價函數(Cost Function)
目標便是選擇出可以使得建模誤差的平方和能夠最小的模型參數,使得代價函數
J(θ0,θ1)=12m∑1m(hθ(x(i))−y(i))2
θ0=0 時:
J(θ1) 隨着θ1 的改變而改變
θ0θ1 都存在:
二維上用不同顏色的等高線把Bowl-shaped弓形函數映射爲如下右圖
2.3 梯度下降(Gradient Descent)
- 開始:隨機選擇一個參數的組合(θ0,θ1,…,θn)
一直改變(θ0,θ1,…,θn)來減小代價函數
J(θ0,θ1)
直到到一個 局部最小值(local minimum)
因爲我們並沒有嘗試完所有的參數組合,所以不能確定我們得到的局部最小值是否便是 全局最小值(global minimum)
選擇不同的初始參數組合,可能會找到不同的局部最小值(如下圖)。
批量梯度下降(batch gradient descent):下降的每一步都使用所有的訓練樣本。
要同時更新
公式 | 含義 |
---|---|
1.該點的切線斜率(slope):決定下降方向 | |
2.學習率(learning rate):決定了下降方向向下邁出的步子有多大。 |
- 切線斜率(slope):可正可負(下降方向)
2.學習率(learning rate)
因爲隨着下降過程,越來越接近局部最小值(此處斜率爲0),斜率(梯度)逐漸減小,所以無需減小
2.4 對線性迴歸運用梯度下降法
把梯度下降法用於對線性迴歸求代價函數的最小值:
j=0時:
j=1時:
得到此線性函數
因爲線性函數的代價函數總是convex function 凸函數,所以梯度下降只有一個局部最小值,也就是全局最小值了。
2.5 測試