sklearn-決策樹

1.用於分類
2.參數一:
criterion,不純度
gini:基尼係數,信息敏感度低,默認使用
entropy:信息熵,信息敏感度高,容易出現過擬合
當數據欠擬合時使用信息熵,數據維度大,噪音大時使用基尼係數
3.參數二,三:
random_state:整數值,決策樹具有隨機性,該參數可讓樹的隨機性固定下來。
splitter參數值有:best,random;當值爲random時可怎加決策樹的隨機性
這兩個參數可以用來控制樹的過擬合情況
4.剪枝參數:
max_depth:控制決策樹層數,樹的層數影響到計算量,每增加一層計算量增加一倍當增加層數不能提高結果時可以適當減少層數

min_samples_leaf:控制葉子節點所包含樣本數,可與maxdepth搭配使用,找到當前層數下的最優樹結構

min_samples_split:當樹枝包含多少個樣本時可分
min_impurity_decrease:信息增益差值,當父子節點的增益差值小於該值是節點不可分
max_features:限值使用的最大特徵數,該參數會降低特徵使用的維度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章