決策樹
決策樹是一種分類和迴歸方法
優點:模型可讀性,分類速度快
過程:特徵選擇、決策樹的生成、決策樹的剪枝
損失函數:正則化的極大似然函數
特徵選擇:多個特徵時,如何選擇某個特徵作爲判斷的依據
- 信息增益:
熵定義:
熵越大,隨機變量的不確定性越大。
條件熵:
已知隨機變量X的條件下隨機變量Y的不確定性。
信息增益 = 熵 - 條件熵(也就是互信息)
表示由於特徵A而使得對數據集D進行分類的不確定性減少程度。
優點:如果根節點的熵最大,下一個特徵如果得到正確的分類結果,那麼下一個特徵的條件熵就是0,信息增益最大,所以這個特徵比較好。
缺點:存在偏向於選擇取值較多的特徵的問題,所以可以使用信息增益比,信息增益與訓練集D在特徵A下的熵
決策樹的生成:
1、多個特徵時,通過信息增益的值挨個選擇特徵,最後生成樹結構
2、ID3通過信息增益,C4.5通過信息增益比
決策樹的剪枝:
防止出現過擬合情況,刪除某些子節點或者葉節點
通過最小化損失函數來做剪枝,其中加上了類似於正則項的東西