100-Days-Of-ML threeday(多元線性迴歸、特徵選擇)

第三天學習的是多元線性迴歸

一、前提(想要有一個成功的迴歸分析,確認這些值很重要):

1、線型:自變量和因變量的關係應該是線性的,也就是說特徵值和預測值是線性相關的
2、保持誤差項的方差齊性(常數方差): 也就是誤差項的分散(方差)必須相等
3、多元正態分佈: 多元迴歸假定殘差符合正態分佈
4、缺少多重共線性: 假設數據有極少甚至沒有多重共線性。當特徵(或自變量不是相互獨立的時,會引發多重共線性)

二、虛(擬)變量:

在多元迴歸模型中,當遇到數據集是非數據類型時使用分類數據是一個非常有效的方法。分類數據值反映(事物)類別的數據,是離散數據,其數值個數(分類屬性)有限(但可能很多),且值之間無須。
比如:按性別分爲男女兩類,在一個迴歸模型中,這些分類值可以用序變量來表示

三、注意:過多的變量可能會降低模型的精確度,尤其是如果存在一些對結果無關的變量、或者相反存在對其他變量造成很大影響的變量時。這裏介紹一些選擇合適變量的方法

1、向前選擇法
2、向後選擇法(也稱向後剔除法、向後消元法)ji
3、向前向後法:即結合了上面說的向前選擇法和向後選擇法,先用向前法篩選變量,再用向後法篩選變量,當無論怎麼篩選都不會發生變化時結束

四、虛擬變量陷阱:

指的是兩個或兩個以上變量之間高度相關的情形。簡而言之,就是存在一個能被其他變量預測出的變量。例如:我們捨棄男性類別,使用女性類別女性值爲0 男性爲1

五、相比較一元線性迴歸,主要區別是多一步處理虛擬變量陷阱的區別

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章