Python以及線性迴歸複習整理(四)線性迴歸

各種術語

Prob 模型顯著性

(顯著性,又稱統計顯著性(Statistical significance), 是指零假設爲真的情況下拒絕零假設所要承擔的風險水平,又叫概率水平,或者顯著水平。)

方差齊性檢驗意義在於反映了一組數據與其平均值的偏離程度

過擬合與欠擬合

過擬合: 將隨機誤差擬合到模型。 表現爲訓練集擬合效果特別好,測試集擬合很差

欠擬合: 沒有擬合到足夠的規律。 

多元線性迴歸

過擬合在於模型擬合了過多的誤差。

消除過擬合就是要減少係數w的敏感性,添加對w的懲罰項,這也是嶺迴歸和Lasso迴歸的原理

模型選擇

AIC(Akaike Information Criterion,赤池信息準則) 是日本統計學家赤池,根據極大似然估計原理,提出的 一種常用的選擇標準。AIC值較小的模型要優先選擇,它 說明模型用較少的參數獲得了足夠的擬合度。

BIC (Bayesian Information Criterion,貝葉斯信息準 則)同樣可以作爲選擇標準,使BIC達到最小的模型是“ 最優”模型。

多數情況下,AIC和BIC的結果大同小異,但結果不 一致時,需注意BIC的懲罰項比AIC的力度要大,因此, AIC選出的模型更爲保守(包含更多的變量),BIC恰恰 相反

交互項

多元線性迴歸模型語法: model = ols(formula=‘y~x1+x2+…’,data=df)

多元線性迴歸模型交互項語法: ols(formula=‘y~x1+x2+x1:x2’,data=df)

語 法 簡 寫 : ols(formula=‘y~x1*x2’,data=df)

同理,x1*x2*x3等價於 𝑥𝑥1 + 𝑥𝑥2 + 𝑥𝑥3 + 𝑥𝑥1: 𝑥𝑥2 + 𝑥𝑥1: 𝑥𝑥3 + 𝑥𝑥2: 𝑥𝑥3 + 𝑥𝑥1: 𝑥𝑥2: 𝑥𝑥3

多重共線性

多重共線性是指變量之間存在高度相關關係。可以 通過相關係數矩陣和方差膨脹因子(VIF)判斷。

相關係數矩陣:df.corr()

方差膨脹因子:statsmodels.stats.outliers_influence. variance_inflation_factor()

一般來說,VIF大於4,即認爲存在多重共線性。

向量範數

l1代表曼哈頓距離 l2代表歐式距離

下圖爲二維向量空間中的範數

嶺迴歸與Lasso迴歸

多重共線性會使得自變量係數較大,ols沒有對w中自變量的係數進行懲罰所以通常存在過擬合的情況,而由於嶺迴歸和Lasso迴歸對w的係數進行了不同程度的懲罰,對於存在共線性的變量之間會基於類似某個等式係數抵消,使得自變量係數降低,AIC,BIC下降,過擬合和多重共線性明顯下降. 不同的是,嶺迴歸通過懲罰項,係數w的平方,對w進行約束, 從圖形可以看出,這相當於同比例縮放所有係數,因此 難以對特徵進行篩選,只能通過縮小無關特徵的係數, 來減少特徵的影響(共線性、噪聲)。 而Lasso迴歸通過懲罰項,係數w得絕對值,對w進行 約束,可以對特徵進行篩選,從而得到稀疏解,在一定 程度上消除特徵的影響。(對這裏保持疑問)

嶺迴歸對w實施L2範數下的懲罰,Lasso迴歸對w實施L1範數下的懲罰。

迴歸模型 y = x1 + x2 + e 中, x2爲期望 均值爲0的隨機數,此時嶺迴歸和Lasso迴歸的結果有什 麼不同?

這我也不知道, 希望大家留言解答。 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章