如何構建決策樹
- 準備工作:
- 明確自變量和因變量
- 確定信息度量的方式
- 確定終止條件
- 選擇特徵
- 得到當前待處理子集
- 計算所有特徵信息度量
- 得到當前最佳分類特徵
- 創建分支
- 根據選中特徵將當前記錄分成不同分支,分支個數取決於算法
- 是否終止
- 判斷是否滿足終止條件
- 生成結果
- 判斷是否需要剪枝
案例
根據部分電腦購買記錄,對購買者建模。該模型可以基於客戶的一些信息預測他是否會購買電腦。
記錄標識 | 人羣羣體 | 收入層次 | 是否單身 | 信用等級 | 是否購買電腦 |
---|---|---|---|---|---|
1 | 青年 | 高 | 否 | 一般 | 否 |
2 | 青年 | 高 | 否 | 良好 | 否 |
3 | 中年 | 高 | 否 | 一般 | 是 |
4 | 老年 | 中 | 否 | 一般 | 是 |
5 | 老年 | 低 | 是 | 一般 | 是 |
6 | 老年 | 低 | 是 | 良好 | 否 |
7 | 中年 | 低 | 是 | 良好 | 是 |
8 | 青年 | 中 | 否 | 一般 | 否 |
9 | 青年 | 低 | 是 | 一般 | 是 |
10 | 老年 | 中 | 是 | 一般 | 是 |
11 | 青年 | 中 | 是 | 良好 | 是 |
12 | 中年 | 中 | 否 | 良好 | 是 |
13 | 中年 | 高 | 是 | 一般 | 是 |
14 | 老年 | 中 | 否 | 良好 | 否 |
準備工作
- 觀察數據,明確自變量和因變量
- 自變量:人羣羣體、收入層次、是否單身、信用等級
- 因變量:是否購買電腦
- 明確信息度量方式:信息增益
- 熵
- 基尼係數
- 明確分支終止條件
- 純度
- 記錄條數
- 循環次數
構建一棵決策樹
觀察各自的分支,再根據情況選擇是否還需要再次挑選特徵進行區分,最終的結果如下。