吳恩達機器學習(二)線性迴歸 2/3 —— 多變量線性迴歸

多變量線性迴歸

(LinearRegression with Multiple Variables)

1. 多維特徵

(Multiple Features)

目前爲止,我們探討了 單變量/特徵 的迴歸模型,現在我們對 房價模型 增加更多的特徵,例如房屋樓層等,構成一個含有多個變量的模型,對於每一個訓練實例,其特徵爲 (x1,x2,...,xn)(x_1,x_2,...,x_n),如下圖爲 n=4n=4時:
在這裏插入圖片描述定義以下符號:

  • nn :特徵數量
  • x(i)x^{(i)}:第 ii 個 訓練實例,是一個向量(vector),例如上圖的 x(2)=[1416, 3, 2, 40]x^{(2)}=[1416,\ 3,\ 2,\ 40]
  • xj(i)x_j^{(i)}:第 ii 個訓練實例的第 jj 個特徵,例如上圖的 x2(2)=3, x4(2)=40x_2^{(2)}=3, \ x_4^{(2)}=40

假設函數 hh 表示爲:hθ(x)=θ0+θ1x1+θ2x2+...+θnxnh_θ(x)=θ_0+θ_1x_1+θ_2x_2+...+θ_nx_n進一步簡化公式,引入 x0=1x_0=1,則公式可以化爲:
hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxn=[θ0θ1θ2θn][x0x1x2:xn]=θTXh_θ(x)=θ_0x_0+θ_1x_1+θ_2x_2+...+θ_nx_n= \begin{bmatrix} \theta_0&\theta_1&\theta_2&··&\theta_n \end{bmatrix} \begin{bmatrix} x_0\\x_1\\x_2\\:\\x_n\end{bmatrix}=\theta^TX模型中的參數組合是一個 n+1n+1 維的向量,任何一個訓練實例的特徵也是n+1n+1 維的向量。

注意:
這裏的 XX 是針對單個訓練實例而言,並不是整個訓練集,對整個訓練集進行向量化得到特徵矩陣,見下一篇 線性迴歸向量化及正規方程

2. 多變量梯度下降

(Gradient Descent for Multiple Variables)

與單變量線性迴歸類似,在多變量線性迴歸中我們也構建一個代價函數,等於所有建模誤差的平方和,即:
J(θ0,θ1,...,θn)=12mi=1m(hθ(x(i))y(i))2J(θ_0,θ_1,...,θ_n)=\frac{1}{2m} \displaystyle\sum_{i=1}^{m} ( h_θ( x^{(i)} ) - y^{(i)}) ^2其中hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxnh_θ(x)=θ_0x_0+θ_1x_1+θ_2x_2+...+θ_nx_n和單變量線性迴歸問題一樣,我們的目標就是找出使得代價函數取得最小值的一個參數組合,其批量梯度下降算法爲:
在這裏插入圖片描述求導後得到:
在這裏插入圖片描述可以驗證一下:
在這裏插入圖片描述與單變量線性迴歸一樣,多變量線性迴歸中批量梯度下降算法的思想就是在開始時隨機選擇一個參數組合,根據計算所有預測結果及其代價函數,然後再給所有參數更新賦值,如此循環直到收斂爲止。

除了用梯度下降法不斷迭代來求解代價函數最小值,還有一種稱爲 正規方程normal equations)的方法可以直接求解,見下一篇(4)線性迴歸模型向量化及正規方程

3. 梯度下降法實踐

(Gradient Descent in Practice)

3.1 特徵縮放

Feature Scaling

在面對多維特徵問題的時候,要保證這些特徵都具有相近的尺度,這將幫助梯度下降算法更快地收斂。

以房價問題爲例,假設我們使用兩個特徵,房屋的面積 和 房間的數量,面積的值爲 0-2000平方英尺,而房間數量的值則是0-5,以兩個參數 θ1θ_1θ2θ_2 分別爲橫縱座標,繪製 代價函數 的等高線圖,能看出圖像會顯得很扁,梯度下降算法需要非常多次的迭代才能收斂。
在這裏插入圖片描述
注1:上圖呈豎直橢圓狀的原因爲:特徵 x1(i)x_1^{(i)}相較於 x2(i)x_2^{(i)}大很多,則對應的 θ1θ_1有較小波動時,就會導致代價函數產生較大的波動,即等高圖中橫軸方向的等高線比縱軸密集(看不懂等高圖的可以參考這個鏈接:3D講解等高線地形圖

注2:梯度下降時來回的波動稱爲震盪現象

解決的方法是嘗試將所有特徵的尺度都儘量縮放到-1到1之間。如圖:
在這裏插入圖片描述
常用以下兩種方法進行特徵縮放:

  • 均值歸一化 Mean normalization
    也稱爲 Z-score標準化 ,給予原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。經過處理的數據符合標準正態分佈,即均值爲0,標準差爲1。轉化函數爲:x=xμσx=\frac{x-μ}{σ}其中 μμ爲所有樣本數據的平均值,σσ 爲所有樣本數據的標準差。量化後的特徵將大部分都分佈在[-1,1]之間。

  • Min-Max標準化(Min-Max Normalization)
    也稱爲離差標準化,是對原始數據的線性變換,使結果值映射到[0 , 1]之間。轉換函數如下:x=xxminxmaxxminx=\frac{x-x_{min}}{x_{max}-x_{min}}其中max爲樣本數據的最大值,min爲樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

3.2 學習率

(Learning Rate)

梯度下降算法收斂所需要的迭代次數根據模型的不同而不同,我們不能提前預知,但可以繪製迭代次數和代價函數的圖表來觀測算法在何時趨於收斂。如下圖所示, J(θ)J(θ) 應該隨着迭代次數增加而逐漸減小至趨於0。
在這裏插入圖片描述也有一些自動測試是否收斂的方法,例如將代價函數的變化值與某個閥值(例如0.001)進行比較,但通常看上面這樣的圖表更好。

  • 梯度下降算法的每次迭代受到學習率的影響,如果學習率過小,則達到收斂所需的迭代次數會非常高;
  • 如果學習率過大,每次迭代可能不會減小代價函數,可能會越過局部最小值導致無法收斂。

通常可以考慮嘗試些學習率:
α=0.01, 0.03, 0.1, 0.3, 1, 3, 10α=0.01, \ 0.03,\ 0.1,\ 0.3,\ 1,\ 3,\ 10

3.3 特徵和多項式迴歸

(Features and Polynomial Regression)
在這裏插入圖片描述在這裏插入圖片描述

參考:
cs229-notes1
斯坦福大學2014機器學習教程中文筆記目錄

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章