具體ppt也已上傳至csdn和GitHub
可以做分類樹和迴歸樹
現在是一個多分類任務
PPT講解
- 強壯性是對若有缺失值等其他情況,該模型依然能夠對其進行準確預測
- 可解釋性是對其可視化的要求,比如決策樹可以畫出樹模型以及節點的判斷依據,而像高維的svm就很難可視化
可分類可迴歸
最關鍵的是決策樹怎麼構造,所以我們要做一種衡量標準,按照這個標準去構造
就像物理上的熵一樣,對其混亂度的度量,信息熵是對某一信息不確定性的度量
2或π是隨意取的,現在計算的熵是在這個系統內四個特徵的熵,只要底數相等就行,反正是比較大小,具體多少我們用不到,底數不同只是其最終得到的熵的單位不同,
2是隨意取的,現在計算的熵是在這個系統內四個特徵的熵,只要底數相等就行,反正是比較大小,具體多少我們用不到
ID3算法問題是: 以上面數據爲例,若每天都爲一個編號或者每天都爲一個人的名字,這樣編號或者名字的熵值爲0(因爲只有1類是個確定值),信息增益也是最大的,但編號和名字對我們最後的預測並不起任何作用,而且使樹的深度很小
信息增益率是信息增益/自身熵值
CART和是另一種計算方法,其原理和ID3差不多
一般不是特別深的樹,可以畫出樹的結構,然後根據樹結構來進行剪枝
通過參考別人的課件(朋友給的,具體作者我也不清楚,侵權必刪),自己又刪改添加了很多內容,自己應該能看懂。