机器学习 | 分类 —— 决策树:分支标准(熵/Gini系数)

1.Gini系数

设pk为节点S包含的K个不同的类别的数据记录所占的比例,则结点S的基尼系数G(S)定义如下:

 基尼系数位于[0,1]区间,数字越小表明区分度越大。一次划分的整体基尼系数等于划分得到的孩子节点的基尼系数的加权平均,且权值被定义为孩子节点包含的数据量。因此,如果S1和S2为节点S在二元决策树中的孩子节点,n1和n2为S1和S2包含的记录数,则划分S→(S1,S2)的基尼系数定义如下:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章