本文主要以下幾個角度來講解線性迴歸:
- 最小二乘法LSE(矩陣表達,幾何意義)
- 概率角度:最小二乘法LSE——noise爲Gaussian MLE
- 正則化:
- L1——Lasso
- L2——Ridge
- 正則化的幾何解釋
最小二乘法
定義爲:通過給定樣本數據集, , ,試圖學習到這樣的一個模型,使得對於任意的輸入特徵向量,模型的預測輸出能夠表示爲輸入特徵向量的線性函數,即滿足:
也可以寫成矩陣的形式:
其中,和稱爲模型的參數。
爲了求解線性模型的參數和,首先我們定義損失函數,在迴歸任務中,常用的損失函數是均方誤差:
優化損失函數就是我們的目標,基於均方誤差損失函數來求解模型參數的方差,也就是我們熟悉的最小二乘法,最小二乘法的思想其實就是尋找一個超平面,使得訓練數據集中的所有樣本點到這個超平面的歐式距離最小。
OK,接下來就是優化問題了,如何取優化該損失函數,從而獲得最優模型參數和,因爲該損失函數是凸函數,根據極值存在的必要條件,我們可以運用解析法進行求解。
下面我們將給出詳細的推導求解和的過程:
1. 首先將參數和進行合併,用來進行表示:, 容易知道是維度。
對輸入特徵向量進行改寫,,則全體訓練集,可用矩陣進行如下表示:
對輸入特徵向量的輸出標籤,可以改寫爲:
2. 根據1.我們可以知道是一個的列向量,這樣模型的預測結果可以寫成矩陣形式:
3. 根據1和2,損失函數可以轉化爲矩陣形式:
根據極值存在的必要條件,下面進行對參數的求導:
Method 1:
,這裏的
Method 2:
對上一步結果進行展開
轉換爲跡運算
對上一步結果進行展開
根據常見矩陣求導公式,可知
根據常見矩陣求導公式,可知
根據常見矩陣求導公式,可知
綜上可知,
令,可得,求解得到
需要注意,要保證對稱矩陣是可逆的,如果不可逆,則解析法求解失效。
幾何意義
1. 第一種幾何解釋
如下圖所示:誤差與所有的紅色距離有關;
2. 第二種幾何解釋
把誤差被分配到p個維度上;
由最小二乘法可知:
其中矩陣。
, 這裏對一列一列來看,這個N維向量就構成維子空間;這裏的是不在維子空間,除非數據集每個樣本點都被完全擬合;
在這裏我們改寫成;
幾何意義:在維子空間找到一個平面,使得與此最近,即在維子空間的投影,則滿足與維子空間的基向量垂直。如下圖所示:
綜上可知:
概率視角
概率視角主要考察最小二乘法與高斯分佈之間的關係
考慮第個樣本的真實輸出和存在如下關係:
其中表示由噪聲引起的誤差項,服從均值0,標準差爲的高斯分佈,則。
整理可得:
利用對數最大似然估計有:
等價於損失函數
綜上可知:最小二乘估計等價於噪聲服從高斯分佈的極大似然估計;
正則化
由上面可知,最小二乘的損失函數爲,解析解爲。
其中,個樣本,,多出來的一維度是因爲方便與偏置加法計算。一般情況下,;
模型過擬合的解決方案:
- 加數據
- 特徵選擇/特徵提取.(PCA)
- 正則化
正則化框架如下:
其中,爲懲罰項, L1: lasso,
L2: Ridge,
帶L1正則化的線性迴歸的損失函數:
由於的正負無法確定,因爲這裏將轉換成進行求導,爲符號函數。
令,可得,有, 在這裏是得不到解析解的,那麼如何求解L1正則化的極小值呢?可採用座標軸下降法(Coordinate Descent)和最小角迴歸法(Least Angle Regressionm), 此處不展開。
帶L2正則化的線性迴歸的損失函數:
在前邊已經詳細推導過,這裏不在詳細推導,求導結果爲
令,可得,求解得到
正則化的幾何解釋
帶L2正則化的線性迴歸:
在最大似然估計中,是假設權重是未知的參數,從而求得對數似然函數:
在最大化後驗概率估計中,是將權重看作隨機變量,也具有某種概率分佈,從而有:
利用最大化後驗概率可以有:
後驗概率函數:
後驗概率函數是在似然函數的基礎上增加了 ,的意義爲對權重係數的概率分佈的先驗假設,在收集到足夠的數據集,則依據在數據集下的後驗概率對權重係數進行修正,從而完成對權重係數的估計。
這裏假設權重係數的先驗分佈爲高斯分佈,.如下圖所示:
則有:
,
MAP:
MAP: ,
綜上可知,最小二乘估計LSE 等價於 極大似然估計MLE(noise 爲Gaussian Distribution)
L2正則化最小二乘估計Regularized LSE 等價於 最大後驗概率估計MAP (priod 和 noise均爲Gaussian Distribution)
同理,帶L1正則化的線性迴歸:
這裏假設權重係數的先驗分佈爲拉普拉斯分佈,.
則有:
,
MAP:
MAP: ,
綜上可知,最小二乘估計LSE 等價於 極大似然估計MLE(noise 爲Gaussian Distribution)
L1正則化最小二乘估計Regularized LSE 等價於 最大後驗概率估計MAP (priod 爲Laplace Distribution,noise爲Gaussian Distribution)
完,
【參考資料】
1. https://github.com/shuhuai007/Machine-Learning-Session
2. https://github.com/ws13685555932/machine_learning_derivation