RandomForest調參,不斷總結

class sklearn.ensemble.RandomForestClassifier(
n_estimators: int 默認10
criterion:gini” or “entropy”(default=”gini”)表示使用基尼不純度還是信息增益來計算屬性,來選擇最合適的節點。
max_depth:(default=None)設置樹的最大深度,默認爲None,直到使每一個葉節點只有一個類別,或是達到min_samples_split。
min_samples_split:默認2,int(可以被分割的所含最小樣本數),float(總樣本的百分比)
min_samples_leaf:默認1,int或float,葉子節點所含最少樣本數
min_weight_fraction_leaf:(default=0) 葉子節點所需要的最小權值(當樣本採樣權重設置時纔有意義,葉子節點的權重爲屬於該節點的所有樣本權重和)
max_features:(default=”auto”) 每次找最好的分割點是可以考慮的特徵數

If int,特徵數
If float, 特徵總數的百分比
If “auto”, sqrt(n_features).
If “sqrt”, sqrt(n_features)
If “log2”, log2(n_features).
If None, 全部特徵數


max_leaf_nodes:
最大葉節點數 和樹的最大深度同樣作用
min_impurity_split
bootstrap:
是否有放回採樣,默認True
oob_score:默認False,是否使用袋外數據統計泛華誤差。
利用在某次決策樹訓練中沒有被採樣選中的數據對該單個模型進行驗證,算是一個簡單的交叉驗證。性能消耗小,但是效果不錯。

n_jobs:默認1.可並行job數。-1代表有多少job=core

import timeit 來計時統計查看速度差別:運行多個函數並提供最快的循環運行時間


random_state:如果給定相同的參數和訓練數據,random_state的確定值將始終產生相同的結果。
一個具有不同隨機狀態的多個模型的集合,並且所有最優參數有時比單個隨機狀態更好。
verbose:(default=0) 是否顯示任務進程
warm_start:False熱啓動,決定是否使用上次調用該類的結果然後增加新的。
class_weight:None,各個label的權重





點擊打開鏈接

Random Forest和Gradient Tree Boosting調參


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章