各種術語
Prob 模型顯著性
(顯著性,又稱統計顯著性(Statistical significance), 是指零假設爲真的情況下拒絕零假設所要承擔的風險水平,又叫概率水平,或者顯著水平。)
方差齊性檢驗意義在於反映了一組數據與其平均值的偏離程度
過擬合與欠擬合
過擬合: 將隨機誤差擬合到模型。 表現爲訓練集擬合效果特別好,測試集擬合很差
欠擬合: 沒有擬合到足夠的規律。
多元線性迴歸
過擬合在於模型擬合了過多的誤差。
消除過擬合就是要減少係數w的敏感性,添加對w的懲罰項,這也是嶺迴歸和Lasso迴歸的原理
模型選擇
AIC(Akaike Information Criterion,赤池信息準則) 是日本統計學家赤池,根據極大似然估計原理,提出的 一種常用的選擇標準。AIC值較小的模型要優先選擇,它 說明模型用較少的參數獲得了足夠的擬合度。
BIC (Bayesian Information Criterion,貝葉斯信息準 則)同樣可以作爲選擇標準,使BIC達到最小的模型是“ 最優”模型。
多數情況下,AIC和BIC的結果大同小異,但結果不 一致時,需注意BIC的懲罰項比AIC的力度要大,因此, AIC選出的模型更爲保守(包含更多的變量),BIC恰恰 相反
交互項
多元線性迴歸模型語法: model = ols(formula=‘y~x1+x2+…’,data=df)
多元線性迴歸模型交互項語法: ols(formula=‘y~x1+x2+x1:x2’,data=df)
語 法 簡 寫 : ols(formula=‘y~x1*x2’,data=df)
同理,x1*x2*x3等價於 𝑥𝑥1 + 𝑥𝑥2 + 𝑥𝑥3 + 𝑥𝑥1: 𝑥𝑥2 + 𝑥𝑥1: 𝑥𝑥3 + 𝑥𝑥2: 𝑥𝑥3 + 𝑥𝑥1: 𝑥𝑥2: 𝑥𝑥3
多重共線性
多重共線性是指變量之間存在高度相關關係。可以 通過相關係數矩陣和方差膨脹因子(VIF)判斷。
相關係數矩陣:df.corr()
方差膨脹因子:statsmodels.stats.outliers_influence. variance_inflation_factor()
一般來說,VIF大於4,即認爲存在多重共線性。
向量範數
l1代表曼哈頓距離 l2代表歐式距離
下圖爲二維向量空間中的範數
嶺迴歸與Lasso迴歸
多重共線性會使得自變量係數較大,ols沒有對w中自變量的係數進行懲罰所以通常存在過擬合的情況,而由於嶺迴歸和Lasso迴歸對w的係數進行了不同程度的懲罰,對於存在共線性的變量之間會基於類似某個等式係數抵消,使得自變量係數降低,AIC,BIC下降,過擬合和多重共線性明顯下降. 不同的是,嶺迴歸通過懲罰項,係數w的平方,對w進行約束, 從圖形可以看出,這相當於同比例縮放所有係數,因此 難以對特徵進行篩選,只能通過縮小無關特徵的係數, 來減少特徵的影響(共線性、噪聲)。 而Lasso迴歸通過懲罰項,係數w得絕對值,對w進行 約束,可以對特徵進行篩選,從而得到稀疏解,在一定 程度上消除特徵的影響。(對這裏保持疑問)
嶺迴歸對w實施L2範數下的懲罰,Lasso迴歸對w實施L1範數下的懲罰。
迴歸模型 y = x1 + x2 + e 中, x2爲期望 均值爲0的隨機數,此時嶺迴歸和Lasso迴歸的結果有什 麼不同?
這我也不知道, 希望大家留言解答。