寫給小白的機器學習之決策樹算法詳解(附實戰源碼)

這裏是實戰源碼,裏面算法參數解釋和數據可視化詳解

GitHub慢的話看碼雲

具體ppt也已上傳至csdn和GitHub
可以做分類樹和迴歸樹

現在是一個多分類任務
在這裏插入圖片描述

PPT講解

  • 強壯性是對若有缺失值等其他情況,該模型依然能夠對其進行準確預測
  • 可解釋性是對其可視化的要求,比如決策樹可以畫出樹模型以及節點的判斷依據,而像高維的svm就很難可視化
    在這裏插入圖片描述
    可分類可迴歸
    在這裏插入圖片描述

在這裏插入圖片描述
最關鍵的是決策樹怎麼構造,所以我們要做一種衡量標準,按照這個標準去構造
在這裏插入圖片描述
在這裏插入圖片描述
就像物理上的熵一樣,對其混亂度的度量,信息熵是對某一信息不確定性的度量
在這裏插入圖片描述
在這裏插入圖片描述
log2Xlog_2 X 2或π是隨意取的,現在計算的熵是在這個系統內四個特徵的熵,只要底數相等就行,反正是比較大小,具體多少我們用不到,底數不同只是其最終得到的熵的單位不同,
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

log2Xlog_2 X 2是隨意取的,現在計算的熵是在這個系統內四個特徵的熵,只要底數相等就行,反正是比較大小,具體多少我們用不到
在這裏插入圖片描述
ID3算法問題是: 以上面數據爲例,若每天都爲一個編號或者每天都爲一個人的名字,這樣編號或者名字的熵值爲0(因爲只有1類是個確定值),信息增益也是最大的,但編號和名字對我們最後的預測並不起任何作用,而且使樹的深度很小
信息增益率是信息增益/自身熵值
CART和是另一種計算方法,其原理和ID3差不多
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
一般不是特別深的樹,可以畫出樹的結構,然後根據樹結構來進行剪枝
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

在這裏插入圖片描述

通過參考別人的課件(朋友給的,具體作者我也不清楚,侵權必刪),自己又刪改添加了很多內容,自己應該能看懂。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章