機器學習聽課筆記5.19

一、對率迴歸(也叫sigmod函數)

lny/1-y = thetaTx
首先先行表示,然後再分類,可以用於線性可分的問題

二、決策樹

分類平面是非線性的,是啓發的(不一定尋找到最優解)

1、ID3

思想

在這裏插入圖片描述
每個屬性單獨考察,看看那個合適做根節點,重複過程。

僞代碼

在這裏插入圖片描述
如何選擇屬性X?
純度大,熵小

熵表示不確定性,與不確定性有關的因素:
在這裏插入圖片描述
特點
在這裏插入圖片描述
在這裏插入圖片描述
k的數量表示i數量,pk代表概率代表,-log表示不確定度。

信息增益

對於節點a來說,可以取值有v個。如果在a上的信息上越小,信息增益越大。
在這裏插入圖片描述

如果用編號作爲節點,信息增益很大。隱含意義:偏好對於屬性可選值多的

2、C4.5

在這裏插入圖片描述

3、過擬合

決策樹裏的過擬合是指在相同的性能下,枝多的。
偏差方差
在這裏插入圖片描述
在這裏插入圖片描述
兩種過擬合的方法
預剪枝,後剪枝
在這裏插入圖片描述
兩者對比

4、連續值處理

利用二分法對連續屬性離散化

三、集成學習

投票輸出,所以一般學習器數目是單數

1、Boosting:強依賴,串行

典型:AdaBoost(Adaptive Boosting)
在這裏插入圖片描述
因此可以看到前面的分類器都是輔助的,最後一個纔是最關鍵的,但是都是弱分類器。

2、Bagging和隨機森林:沒有依賴,並行

Bagging是有放回抽樣,得到m個樣本的採樣集,可以得到T個這樣的訓練集,最後投票。

從這個圖來看,不僅樣本隨機,選用的屬性也隨機,這也從側面改變了樣本分佈。因此可以降低過擬合。
在這裏插入圖片描述
影響
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章