Python以及線性迴歸複習整理（四）線性迴歸

原創

北逸

2018-11-20 03:03

各種術語

Prob 模型顯著性

(顯著性，又稱統計顯著性（Statistical significance），是指零假設爲真的情況下拒絕零假設所要承擔的風險水平，又叫概率水平，或者顯著水平。)

方差齊性檢驗意義在於反映了一組數據與其平均值的偏離程度

過擬合與欠擬合

過擬合：將隨機誤差擬合到模型。表現爲訓練集擬合效果特別好，測試集擬合很差

欠擬合：沒有擬合到足夠的規律。

多元線性迴歸

過擬合在於模型擬合了過多的誤差。

消除過擬合就是要減少係數w的敏感性，添加對w的懲罰項，這也是嶺迴歸和Lasso迴歸的原理

模型選擇

AIC（Akaike Information Criterion，赤池信息準則）是日本統計學家赤池，根據極大似然估計原理，提出的一種常用的選擇標準。AIC值較小的模型要優先選擇，它說明模型用較少的參數獲得了足夠的擬合度。

BIC （Bayesian Information Criterion，貝葉斯信息準則）同樣可以作爲選擇標準，使BIC達到最小的模型是“ 最優”模型。

多數情況下，AIC和BIC的結果大同小異，但結果不一致時，需注意BIC的懲罰項比AIC的力度要大，因此， AIC選出的模型更爲保守（包含更多的變量），BIC恰恰相反

交互項

多元線性迴歸模型語法： model = ols(formula=‘y~x1+x2+…’,data=df)

多元線性迴歸模型交互項語法： ols(formula=‘y~x1+x2+x1:x2’,data=df)

語法簡寫： ols(formula=‘y~x1*x2’,data=df)

同理，x1*x2*x3等價於 𝑥𝑥1 + 𝑥𝑥2 + 𝑥𝑥3 + 𝑥𝑥1: 𝑥𝑥2 + 𝑥𝑥1: 𝑥𝑥3 + 𝑥𝑥2: 𝑥𝑥3 + 𝑥𝑥1: 𝑥𝑥2: 𝑥𝑥3

多重共線性

多重共線性是指變量之間存在高度相關關係。可以通過相關係數矩陣和方差膨脹因子（VIF）判斷。

相關係數矩陣：df.corr()

方差膨脹因子：statsmodels.stats.outliers_influence. variance_inflation_factor()

一般來說，VIF大於4，即認爲存在多重共線性。

向量範數

l1代表曼哈頓距離 l2代表歐式距離

下圖爲二維向量空間中的範數

嶺迴歸與Lasso迴歸

多重共線性會使得自變量係數較大，ols沒有對w中自變量的係數進行懲罰所以通常存在過擬合的情況，而由於嶺迴歸和Lasso迴歸對w的係數進行了不同程度的懲罰，對於存在共線性的變量之間會基於類似某個等式係數抵消，使得自變量係數降低，AIC，BIC下降，過擬合和多重共線性明顯下降. 不同的是，嶺迴歸通過懲罰項，係數w的平方，對w進行約束，從圖形可以看出，這相當於同比例縮放所有係數，因此難以對特徵進行篩選，只能通過縮小無關特徵的係數，來減少特徵的影響（共線性、噪聲）。而Lasso迴歸通過懲罰項，係數w得絕對值，對w進行約束，可以對特徵進行篩選，從而得到稀疏解，在一定程度上消除特徵的影響。（對這裏保持疑問）

嶺迴歸對w實施L2範數下的懲罰，Lasso迴歸對w實施L1範數下的懲罰。

迴歸模型 y = x1 + x2 + e 中， x2爲期望均值爲0的隨機數，此時嶺迴歸和Lasso迴歸的結果有什麼不同？

這我也不知道，希望大家留言解答。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python以及線性迴歸複習整理（四）線性迴歸

各種術語

過擬合與欠擬合

多元線性迴歸

模型選擇

交互項

多重共線性

向量範數

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

2015上海區域賽D題左偏樹+樹形DP

codeforces 1163E Magical Permutation

頭條曠世算法崗算法面試題（非機器學習題）

HDU 6284 Longest Increasing Subsequence

隨筆 2019年6月9日晚

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結