《集體智慧編程》第7章決策樹建模個人筆記

原創

2018-08-24 03:43

第7章決策樹建模

7.1 屬性劃分

本章使用CART樹（分類迴歸樹）來做分類，找到最優拆分屬性和最優拆分屬性值後進行劃分。如何選擇劃分分案，通過計算數據集合的混雜程度。對於混雜程度的測度，有多種方案，這裏用以下兩種：

基尼不純度：將來自集合中的某種結果隨機應用於集合中某一數據項的預期誤差率。即
$G i n i I m p u r i t y = \sum i \sum j \neq i p i \cdot p j = 1 - \sum i p 2 i$
熵：代表的是集合的無序程度，即
$E n t r o p y = \sum i - p i log p i$
熵和基尼不純度之間的主要區別在於，熵達到峯值的過程要相對慢一些。

7.2 決策樹的剪枝

本章採用的是後剪枝策略，先創建一顆完整的決策樹，考察某個節點，如果將其子節點合併熵的增加量小於某個指定的閾值，則合併其子節點。

這部分可參考李航老師的《統計學習方法》，利用決策樹的損失函數來剪枝，損失函數加入了樹葉子節點數作爲正則項。

這章我覺得寫得有點簡略，ID3、C4.5、CART這三者都沒有介紹清楚（熵增益比都沒說=。=），這塊還是建議看《統計學習方法》和西瓜書吧~~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《集體智慧編程》數學公式

這篇博客的目的主要是爲了記錄這些公式，取自原書附錄B。 1.歐幾里得距離（Euclidean Distance）用途：計算距離，衡量相似度公式：代碼實現： def euclidean(p, q): sum

清风不识字12138

2020-06-16 12:18:34

集體智慧編程第二章匹配商品

我們在前面學習瞭如何爲指定人員尋找品味相近的人，以及如何向其推薦商品。但是如果我們想了解哪些商品是彼此相近的，應該如何做？匹配商品比如我們去淘寶，點擊某個商品的時候，側面總會給我們推薦一些類似商品。這是如何做到的呢？首先我們要將之

2020-07-08 03:44:42

集體智慧編程第二章提供推薦

我們要知道在購物網站中，如何構建一個系統，用以尋找具有相同品味的人，並根據他人的喜好自動給出推薦。一個協作型過濾算法通常的做法是對一大羣人進行搜索，並從中找到與我們品味相近的一小羣人。算法會對這些人所偏愛的其他內容進行考察，並將它們組合

2020-07-08 03:09:02

集體智慧編程----第三章發現羣組

第三章發現羣組監督學習和無監督學習對博客用戶進行分類對訂閱源中的單詞進行計數分級聚類繪製樹狀圖列聚類K-均值聚類針對偏好的聚類獲取數據和準備數據Beautiful Soup收集來自Zebo的結果定義距離度量標準對結果進行聚類以二維

2020-06-23 22:08:13

chapter7的一個小bug

一開始，作者說如果使用準備好的數據集，可以下載他的decision_tree_example.txt。然後通過my_data = [ line.split('/t') for line in file('decision_tree_ex

2020-06-20 16:56:09

《集體智慧編程》之決策樹（學習筆記）

原理：決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。比如，在貸款申請中，要對申請的風險大小做出判斷，圖是爲了解決這個問題而建立的一棵決策樹，從中我們可以看到決策樹的基本組成部分：決策節點、分支和葉子。決策樹中最上面的節

2020-06-16 16:34:51

《集體智慧編程》第六章

1.P126代碼爲了定義閾值，請修改初始化方法，在classifier中加入一個新的實例變量： def __init__(self, getfeatures): classifier.__init__(self, ge

清风不识字12138

2020-06-16 12:18:34

集體智慧編程中文版---第二章

中英文術語對照表英文中文 clustering j聚類 computationally intensive 計算量很大的 cross-product 叉乘 dendrogram 樹狀圖 group

2020-06-13 02:29:29

集體智慧編程第三章發現羣組

2020-02-23 09:01:28

《集體智慧編程》第8章

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第五章優化

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第九章

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第3章發現羣組個人筆記

2020-02-21 10:02:42

《集體智慧編程》第2章提供推薦個人筆記

2020-02-21 10:02:42

《集體智慧編程》第5章優化個人筆記

2020-02-21 10:02:42

24小時熱門文章

最新文章

最新評論文章