統計學習方法學習1.0

決策樹

決策樹是一種分類和迴歸方法

優點:模型可讀性,分類速度快

過程:特徵選擇、決策樹的生成、決策樹的剪枝

損失函數:正則化的極大似然函數

特徵選擇:多個特徵時,如何選擇某個特徵作爲判斷的依據

  1. 信息增益:

              熵定義:

               熵越大,隨機變量的不確定性越大。

               條件熵:

                已知隨機變量X的條件下隨機變量Y的不確定性。

                信息增益 = 熵 - 條件熵(也就是互信息)

                 表示由於特徵A而使得對數據集D進行分類的不確定性減少程度。

優點:如果根節點的熵最大,下一個特徵如果得到正確的分類結果,那麼下一個特徵的條件熵就是0,信息增益最大,所以這個特徵比較好。

缺點:存在偏向於選擇取值較多的特徵的問題,所以可以使用信息增益比,信息增益與訓練集D在特徵A下的熵

決策樹的生成:

                 1、多個特徵時,通過信息增益的值挨個選擇特徵,最後生成樹結構

                  2、ID3通過信息增益,C4.5通過信息增益比

  決策樹的剪枝:

                  防止出現過擬合情況,刪除某些子節點或者葉節點

                 通過最小化損失函數來做剪枝,其中加上了類似於正則項的東西

                  

 

 

發佈了36 篇原創文章 · 獲贊 19 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章