《統計學習方法》第5章 決策樹

基本的分類和迴歸方法
在分類問題中,表示基於特徵對實例進行分類的過程。
if-then規則的幾何,或定義在特徵空間與類空間上的條件概率分佈
優點:可讀性和分類速度快
損失函數最小化的原則建立決策樹模型
三個步驟:特徵選擇、決策樹的生成和決策樹的修剪

5.1 決策樹模型的學習

5.1.1 決策樹模型

分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點(node)和有向邊(edge)組成。
結點有兩種類型:內部節點葉節點。內部節點表示一個特徵屬性。葉節點表示一個

5.1.2 決策樹與if-then規則

決策樹的路徑或其對應額if-then規則集合具有一個重要的性質:互斥並且完備。每一個實例都被一條路徑或一條規則所覆蓋,而且只被一條路徑或一條規則覆蓋。

5.1.3 決策樹與條件概率分佈

在這裏插入圖片描述

5.1.4 決策樹學習

決策樹學習本質上是從訓練數據集種歸納出一組分類規則。
決策樹學習的損失函數通常是正則化的極大似然函數。
決策樹學習的策略是以損失函數爲目標函數的最小化。
採用啓發式方法,近似求解這一最優化問題,這樣得到的決策樹是次最優(sub-optimal)的。
決策樹學習的算法通常是一個遞歸地選擇最優特徵。利用最優特徵對訓練數據進行劃分。這一過程對應着對特徵空間的劃分,也對應着決策樹的構建。
自下而上的剪枝:防止過擬合。
決策樹的生成對應於模型的局部選擇,只考慮局部最優
決策樹的剪枝對應於模型的全局選擇,考慮全局最優

5.2 特徵選擇

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章