Stanford公開課機器學習---week1-2.單變量線性迴歸(Linear Regression with One Variable)

單變量線性迴歸(Linear Regression with One Variable)


2.1 模型表達(Model Representation)

  • m 代表訓練集中實例的數量
  • x 代表特徵/輸入變量
  • y 代表目標變量/輸出變量
  • (x,y) 代表訓練集中的實例
  • (x(i),y(i) ) 代表第 i 個觀察實例
  • h 代表學習算法的解決方案或函數也稱爲假設(hypothesis)

這裏寫圖片描述

單變量線性迴歸:只含有一個特徵/輸入變量 x

hθ=θ0+θ1x

2.2 代價函數(Cost Function)

目標便是選擇出可以使得建模誤差的平方和能夠最小的模型參數,使得代價函數J(θ0,θ1) 最小

J(θ0,θ1)=12m1m(hθ(x(i))y(i))2

J(θ0,θ1) 形成的圖像:Bowl-shaped弓形函數,又叫convex function 凸函數:

Bowl-shaped弓形函數,又叫convex function 凸函數

  1. θ0=0 時:
    J(θ1) 隨着θ1 的改變而改變

這裏寫圖片描述

  1. θ0θ1 都存在:
    二維上用不同顏色的等高線把Bowl-shaped弓形函數映射爲如下右圖

這裏寫圖片描述


2.3 梯度下降(Gradient Descent)

  • 開始:隨機選擇一個參數的組合(θ0,θ1,…,θn)
  • 一直改變(θ0,θ1,…,θn)來減小代價函數J(θ0,θ1)
    直到到一個 局部最小值(local minimum)

    這裏寫圖片描述

因爲我們並沒有嘗試完所有的參數組合,所以不能確定我們得到的局部最小值是否便是 全局最小值(global minimum)
選擇不同的初始參數組合,可能會找到不同的局部最小值(如下圖)。

這裏寫圖片描述

批量梯度下降(batch gradient descent):下降的每一步都使用所有的訓練樣本。

這裏寫圖片描述

要同時更新θ0θ1 :

這裏寫圖片描述

公式 含義
θjJ(θ0,θ1) 1.該點的切線斜率(slope):決定下降方向
α 2.學習率(learning rate):決定了下降方向向下邁出的步子有多大。

  1. 切線斜率(slope):可正可負(下降方向)

這裏寫圖片描述

2.學習率(learning rate)
α 過小:下降過慢
α 過大:過學習,可能不能找到局部最小值或不能收斂

這裏寫圖片描述

因爲隨着下降過程,越來越接近局部最小值(此處斜率爲0),斜率(梯度)逐漸減小,所以無需減小α ,下降步子也會隨斜率減小。如下圖:

這裏寫圖片描述


2.4 對線性迴歸運用梯度下降法

把梯度下降法用於對線性迴歸求代價函數的最小值:

這裏寫圖片描述

θjJ(θ0,θ1)=θj12m1m(hθ(x(i))y(i))2

j=0時:

θ0J(θ0,θ1)=1m1m(hθ(x(i))y(i))

j=1時:

θ1J(θ0,θ1)=1m1m(hθ(x(i))y(i))x(i)

得到此線性函數hθ(x) 的梯度下降公式:

這裏寫圖片描述

因爲線性函數的代價函數總是convex function 凸函數,所以梯度下降只有一個局部最小值,也就是全局最小值了。
Bowl-shaped弓形函數,又叫convex function 凸函數


2.5 測試

這裏寫圖片描述
這裏寫圖片描述

123

4 5

這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章