機器學習聽課筆記5.19
一、對率迴歸(也叫sigmod函數)
lny/1-y = thetaTx
首先先行表示,然後再分類,可以用於線性可分的問題
二、決策樹
分類平面是非線性的,是啓發的(不一定尋找到最優解)
1、ID3
思想
每個屬性單獨考察,看看那個合適做根節點,重複過程。
僞代碼
如何選擇屬性X?
純度大,熵小
熵表示不確定性,與不確定性有關的因素:
特點
k的數量表示i數量,pk代表概率代表,-log表示不確定度。
信息增益
對於節點a來說,可以取值有v個。如果在a上的信息上越小,信息增益越大。
如果用編號作爲節點,信息增益很大。隱含意義:偏好對於屬性可選值多的
2、C4.5
3、過擬合
決策樹裏的過擬合是指在相同的性能下,枝多的。
偏差方差
兩種過擬合的方法
預剪枝,後剪枝
兩者對比
略
4、連續值處理
利用二分法對連續屬性離散化
三、集成學習
投票輸出,所以一般學習器數目是單數
1、Boosting:強依賴,串行
典型:AdaBoost(Adaptive Boosting)
因此可以看到前面的分類器都是輔助的,最後一個纔是最關鍵的,但是都是弱分類器。
2、Bagging和隨機森林:沒有依賴,並行
Bagging是有放回抽樣,得到m個樣本的採樣集,可以得到T個這樣的訓練集,最後投票。
從這個圖來看,不僅樣本隨機,選用的屬性也隨機,這也從側面改變了樣本分佈。因此可以降低過擬合。
影響