100-Days-Of-ML threeday（多元線性迴歸、特徵選擇）

原創

2019-06-11 09:36

第三天學習的是多元線性迴歸

一、前提（想要有一個成功的迴歸分析，確認這些值很重要）：

1、線型：自變量和因變量的關係應該是線性的，也就是說特徵值和預測值是線性相關的
2、保持誤差項的方差齊性(常數方差)： 也就是誤差項的分散（方差）必須相等
3、多元正態分佈： 多元迴歸假定殘差符合正態分佈
4、缺少多重共線性： 假設數據有極少甚至沒有多重共線性。當特徵（或自變量不是相互獨立的時，會引發多重共線性）

二、虛（擬）變量：

在多元迴歸模型中，當遇到數據集是非數據類型時使用分類數據是一個非常有效的方法。分類數據值反映（事物）類別的數據，是離散數據，其數值個數（分類屬性）有限（但可能很多），且值之間無須。
比如：按性別分爲男女兩類，在一個迴歸模型中，這些分類值可以用序變量來表示

三、注意：過多的變量可能會降低模型的精確度，尤其是如果存在一些對結果無關的變量、或者相反存在對其他變量造成很大影響的變量時。這裏介紹一些選擇合適變量的方法

1、向前選擇法
2、向後選擇法（也稱向後剔除法、向後消元法）ji
3、向前向後法：即結合了上面說的向前選擇法和向後選擇法，先用向前法篩選變量，再用向後法篩選變量，當無論怎麼篩選都不會發生變化時結束

四、虛擬變量陷阱：

指的是兩個或兩個以上變量之間高度相關的情形。簡而言之，就是存在一個能被其他變量預測出的變量。例如：我們捨棄男性類別，使用女性類別女性值爲0 男性爲1

五、相比較一元線性迴歸，主要區別是多一步處理虛擬變量陷阱的區別

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

100-Days-Of-ML threeday（多元線性迴歸、特徵選擇）

一、前提（想要有一個成功的迴歸分析，確認這些值很重要）：

二、虛（擬）變量：

三、注意：過多的變量可能會降低模型的精確度，尤其是如果存在一些對結果無關的變量、或者相反存在對其他變量造成很大影響的變量時。這裏介紹一些選擇合適變量的方法

四、虛擬變量陷阱：

五、相比較一元線性迴歸，主要區別是多一步處理虛擬變量陷阱的區別

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

Mellanox網卡開啓SR-IOV

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

Java NIO 第一版I/O模型概述

python的del 第四天（關鍵字和del()方法）

ML100day_fourDay 邏輯迴歸

b樹和b+

練習題

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結