決策樹算法--python實現

定義:
信息增益:再劃分數據之前之後信息發生的變化。
香濃熵(簡稱熵):集合信息的度量方式,熵是信息的期望值。

其實決策樹主要就是選擇最優劃分屬性對給定集合進行劃分,隨着花粉的不斷進行,我們希望最終決策樹所包含的樣本儘量屬於同一類別,即結點的“純度”越來越高。

信息增益的計算:
1.信息熵的計算Ent(D)越小,純度越高
2.信息增益:
Gain(D,a) = Ent(D) - 屬性的信息熵
信息增益越大,則意味着使用屬性a來進行劃分所獲得的“純度提升越大”

3.Gain_ratio(D,a) = Gain(D,a)/IV(a)
IV(a)的計算

iv(a)稱爲屬性a的固有值,a的取值數目越多(V越大),則IV(a)的值通常越大。
由式子可見,增益率準則對可取值數目較少的屬性有所偏好,故算法並非直接選擇增益率最大的候選屬性來進行劃分。他使用的是一個啓發式,從候選劃分屬性中找出信息增益高於平均水平的屬性,再從中選取增益率最高的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章