機器學習入門——線性迴歸剖析

引言

我們以吳恩達教授常說的房價預測的例子做引入,已知房價可能的影響因素有房屋大小(size)、臥室數量(number of bedrooms)、樓層數(number of floors)、房齡(age of home)等等。其中房屋大小、臥室數量、樓層數、房齡等影響房價的變量稱爲自變量/特徵/屬性/預測變量,而房價稱爲因變量/標籤/目標變量。
線性迴歸就是要建立迴歸方程模擬自變量和因變量之間的相關關係。

一元線性迴歸

假設我們只考慮房屋大小(size)對房價的影響。得到如下圖的樣本點分佈:
在這裏插入圖片描述
由上述可知,一元線性迴歸就是要建立迴歸方程模擬兩個變量之間的相關關係(一個自變量一個因變量)。因爲只有兩個變量,我們需要引入一條直線y=ax+by=ax+b,來擬合我們已有的樣本點。我們的迴歸方程常寫成如下形式:hθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x
我們需要找到一條迴歸直線來擬合已有樣本點,而對於直線,確定斜率和截距即可得到直線方程即迴歸方程。
此時,我們要建立迴歸方程就等價於尋找回歸直線,又等價於求解直線的斜率和截距。

損失函數

在求解迴歸係數時,必須要引入損失函數的概念。
如下圖,紅色點爲樣本點,藍色爲擬合的迴歸直線。我們在尋找回歸直線的時候,很自然會想到最好的迴歸直線應該是能夠儘可能多的穿過所有的樣本點。(因爲此時擬合的損失最小,擬合的直線更加準確)但是,對於點分佈比較雜亂的情況(下圖)幾乎不可能實現,無論怎樣擬合損失都達不到0,此時我們的辦法是,使迴歸直線和樣本點的(平均)殘差平方和最小。
在這裏插入圖片描述
這樣就得到了損失函數:
J(θ0,θ1)=12mi=1m(yihθ(xi))2J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m (y^i-h_\theta(x^i))^2
其中分母的2m2m可以省略,22爲了後續求導方便,mm求得平均損失。

損失函數可視化

一元線性迴歸損失函數:

eg.假設θ0=0\theta_0=0,此時損失函數簡化到二維平面,若有三個樣本點爲(1,1),(2,2),(3,3),下面分別根據不同的迴歸直線計算其損失。

此時,hθ(x)=xh_\theta(x)=x,迴歸直線完全擬合樣本點,損失爲0.
在這裏插入圖片描述
hθ(x)=0.5xh_\theta(x)=0.5x,帶入損失函數公式J(θ0,θ1)=123i=13(yihθ(xi))2J(\theta_0,\theta_1)=\frac{1}{2*3}\sum_{i=1}^3 (y^i-h_\theta(x^i))^2,迴歸直線擬合的損失爲0.533。
在這裏插入圖片描述
hθ(x)=0h_\theta(x)=0J(θ0,θ1)=123i=13(yihθ(xi))2J(\theta_0,\theta_1)=\frac{1}{2*3}\sum_{i=1}^3 (y^i-h_\theta(x^i))^2迴歸直線擬合的損失約爲2.33。
帶入不同的係數θ1\theta_1的值可以得到不同損失值,作圖可得:
在這裏插入圖片描述
綜上,可得去除截距項的一元線性迴歸的損失函數爲一條拋物線。
而完整不經過簡化的一元線性迴歸損失函數爲下圖凸曲面:

在這裏插入圖片描述
而我們常見的等高線圖就是其凸曲面(三維圖)的二維表示。
在這裏插入圖片描述
等高線圖上的一個點對應一元線性迴歸的一條擬合的迴歸線(每個點橫縱座標爲迴歸係數值,即可確定一條直線)。我們的目的就是尋找使損失函數(凸曲面)達到最低點的迴歸係數的值。

求解一元線性迴歸

方法一、最小二乘法

最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和爲最小。

最小二乘法想必大家都不陌生,它的求解思路就是:求偏導,令偏導爲0從而求得全局最優解。
在這裏插入圖片描述
解得:
{θ1=i=1m(xixˉ)yii=1mxi21m(i=1mxi2)θ0=yˉθ1xˉ\begin{cases}\theta_1=\frac{\sum_{i=1}^m (x_i-\bar{x})y_i}{\sum_{i=1}^m x_i^2-\frac{1}{m}(\sum_{i=1}^m x_i^2)}\\\theta_0=\bar{y}-\theta_1\bar{x}\end{cases}

方法二、梯度下降法

梯度:函數在某一點的方向導數(某一點沿各個方向的偏導)沿某個方向達到最大值,此時所沿的方向爲梯度方向。也就是說,沿梯度方向函數值增加最快。

梯度下降法基於“貪心策略”,簡單來說就是走一步看一步。
比如說,一個人在山林中,周圍有兩座小山,其餘大概是平原和窪地。我們的目標是找到最快下山的方向。我們需要注意的是我們可見範圍有限,並不能瞭解整個地勢情況(這個人不知道有兩座小山,多少窪地)他如何在一定的可見範圍內,最快下山。
這個問題就是梯度下降的典型事例。
在這裏插入圖片描述
對於梯度下降,我們首先要了解幾個概念:
 1. (梯度下降的)目標:選擇θ0\theta_0θ1\theta_1使J(θ0,θ1)J(\theta_0,\theta_1)最小。
 2. 梯度:在所有方向導數中斜率最大的方向導數。
 3. 梯度下降:沿着梯度負方向走(走一步調整一步θ0\theta_0θ1\theta_1
 4. 步長(學習率):越小-時間越久;越長-無法收斂到最小
如下圖,若損失函數值隨迭代次數起起伏伏,說明α值較大,無法收斂到全局最小,來回震盪。
在這裏插入圖片描述
如下圖,若損失函數值隨着迭代次數增大,說明α值過大,無法收斂到全局最小值向上震盪。
在這裏插入圖片描述
求解過程:
梯度下降法求解線性迴歸就通過不斷沿損失函數降低最快的方向(梯度的負方向)做權值(係數)更新得到最優的係數。
PS.爲什麼某點的梯度是該函數在這一點的偏導?詳見博文:
https://blog.csdn.net/weixin_42398658/article/details/83017995
在這裏插入圖片描述

求解步驟總結:

  1. 設置初始值(斜率、截距、學習率、迭代次數)
  2. 定義損失函數
  3. 根據梯度下降公式動態調整斜率和截距(權值更新),return出最終的係數。

PS.代碼傳送連接:https://mp.csdn.net/postedit/100619535

求解多元線性迴歸

瞭解了一元線性迴歸後,很容易延伸到多元情況,多元線性迴歸就是建立迴歸方程模擬多個變量之間的相關關係。
hθ(x)=θ0+θ1x1+θ2x2+...+θnxnh_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n其實我們可以想象出:
一元線性迴歸可以擬合出-一條直線
二元線性迴歸可以擬合出-一個平面
多元線性迴歸可以擬合出-一個超平面
例:還是用一開始的房價的例子。假設房價影響因素有房屋大小(size)、臥室數量(number of bedrooms)、樓層數(number of floors)、房齡(age of home)四個。可以得到迴歸方程爲:hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4爲了轉換爲矩陣形式,方便計算:XθX\theta,將θ0\theta_0乘上x0x_0,令x0=1x_0=1即矩陣增加了一列全爲1的向量x0x_0。大致情況見下表:
在這裏插入圖片描述

方法一、梯度下降法

在這裏插入圖片描述

方法二、正規方程法

將上表整理爲矩陣得:(ww即爲θ\theta係數)
在這裏插入圖片描述
在這裏插入圖片描述
矩陣微分知識請參考博客:https://blog.csdn.net/daaikuaichuan/article/details/80620518
在下一篇博客,我們一起看一看正規方程的侷限性,對於有侷限的情況應該如何處理,怎樣進行模型改進。

寫在最後

這是自己在CSDN上寫的第一篇博客,歡迎各位大佬批評指正~
希望自己能夠堅持下去!加油!(╹▽╹)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章