決策樹學習筆記
決策樹的基本概念
依託於策略抉擇而建立起來的樹。
是一個預測模型;代表對象屬性與對象值之間的一種映射關係。
決策樹僅有單一輸出,若欲有複數輸出,可以建立獨立的決策樹以處理不同輸出。
從數據產生決策樹的機器學習技術叫做決策樹學習, 通俗點說就是決策樹,說白了,這是一種依託於分類、訓練上的預測樹,根據已知預測、歸類未來。
ID3算法
ID3(Iterative Dichotomiser 3 ,迭代二叉樹3代)是一個由Ross Quinlan發明的用於決策樹的算法。
奧卡姆剃刀原理應用:越是小型的決策樹越優於大的決策樹(簡單理論)。但不是總是生成最小的樹形結構,而是一個啓發式算法。
刻畫了樣例集的不純度。一種解釋是確定要編碼集合中的任意成員的分類所需要的最少二進制位數。
同理,信息增益
注意到信息增益由信息熵算出(變量都只是S)
ID3算法的核心思想就是以信息增益度量屬性選擇,選擇分裂後信息增益最大的屬性進行分裂。該算法採用自頂向下的貪婪搜索遍歷可能的決策樹空間。
先這麼多