XGBoost參數解釋：https://blog.csdn.net/qq_40587575/article/details/82886782

XGBoost參數調優：Complete Guide to Parameter Tuning in XGBoost with codes in Python

XGBoost算法是一種高度複雜的算法，功能強大，足以處理各種數據不規則性。

本文最適合XGBoost的新手。在本文中，我們將學習有關XGBoost的一些信息。

XGBoost的優勢

1、正則化

標準GBM的實現沒有像XGBoost這樣的正則化步驟。正則化對減少過擬合也是有幫助的。

實際上，XGBoost以“正則化提升(regularized boosting)”技術而聞名。

2、並行處理

XGBoost實現了並行處理，並且與GBM相比，速度非常快。

XGBoost還支持在Hadoop上的實現。

3、高靈活性

XGBoost允許用戶定義自定義優化目標和評估標準。

這爲模型增加了一個全新的維度，所以我們的處理不會受到任何限制。

4、處理缺失值

XGBoost內置處理缺失值的規則。

用戶需要提供一個和其它樣本不同的值，然後把它作爲一個參數傳進去，以此來作爲缺失值的取值。XGBoost在不同節點遇到缺失值時採用不同的處理方法，並且會學習未來遇到缺失值時的處理方法。

5、剪枝

當分裂時遇到一個負損失時，GBM會停止分裂。因此GBM實際上是一個貪心算法。

XGBoost會一直分裂到指定的最大深度(max_depth)，然後回過頭來剪枝。如果某個節點之後不再有正值，它會去除這個分裂。

這種做法的優點，當一個負損失（如-2）後面有個正損失（如+10）的時候，就顯現出來了。GBM會在-2處停下來，因爲它遇到了一個負值。但是XGBoost會繼續分裂，然後發現這兩個分裂綜合起來會得到+8，因此會保留這兩個分裂。

6、內置交叉驗證

XGBoost允許在每一輪boosting迭代中使用交叉驗證。因此，可以方便地獲得最優boosting迭代次數。

這與GBM不同，在GBM中，我們必須使用網格搜索，並且只能測試有限的值。

2、繼續現有模型

XGBoost可以在上一輪的結果上繼續訓練。這個特性在某些特定的應用上是一個巨大的優勢。

sklearn中的GBM的實現也有這個功能，兩種算法在這一點上是一致的。

XGBoost參數

儘管有兩種booster可供選擇，這裏只介紹tree booster，因爲它的表現遠遠勝過linear booster，所以linear booster很少用到。

XGBClassifier(max_depth, learning_rate, n_estimators, silent, 
			  objective, booster, n_jobs, nthread, gamma, 
			  min_child_weight, max_delta_step, subsample, 
			  colsample_bytree, colsample_bylevel, reg_alpha, 
			  reg_lambda, scale_pos_weight, base_score, 
			  random_state, seed, missing)

booster[默認gbtree]

選擇每次迭代的模型，有兩種選擇：

	gbtree：基於樹的模型

	gbliner：線性模型

objective[默認reg:linear]

迴歸任務
	reg:linear (默認)
	reg:logistic
	
二分類
	binary:logistic     概率 
	binary：logitraw   類別
	
多分類
	multi：softmax  num_class=n   返回類別
	multi：softprob   num_class=n  返回概率
	
rank:pairwise

gamma[默認0]

在節點分裂時，只有分裂後損失函數的值下降了，纔會分裂這個節點。
Gamma指定了節點分裂所需的最小損失函數下降值。

這個參數的值越大，算法越保守。
這個參數的值和損失函數息息相關，所以是需要調整的。

max_depth[默認6]

和GBM中的參數相同，這個值爲樹的最大深度。

這個值也是用來避免過擬合的。max_depth越大，模型會學到更具體更局部的樣本。

需要使用CV函數來進行調優。

典型值：3-10

reg_lambda[默認1]

權重的L2正則化項。(和Ridge regression類似)。

這個參數是用來控制XGBoost的正則化部分的。

reg_alpha[默認1]

權重的L1正則化項。(和Lasso regression類似)。

可以應用在很高維度的情況下，使得算法的速度更快。

silent[默認0]

當這個參數值爲1時，靜默模式開啓，不會輸出任何信息。

一般這個參數就保持默認的0，因爲這樣能幫我們更好地理解模型。

learning_rate[默認0.3]

學習率，控制每次迭代更新權重的步長，默認0.3，值越小，訓練越慢。

典型值爲 0.01-0.2 。

n_esitimators

決策樹的棵樹，即總共迭代的次數。

min_child_weight[默認1]

決定最小葉子節點樣本權重和。

和GBM的 min_child_leaf 參數類似，但不完全一樣。
XGBoost的這個參數是最小樣本權重的和，而GBM參數是最小樣本總數。

這個參數用於避免過擬合。當它的值較大時，可以避免模型學習到局部的特殊樣本。

但是如果這個值過高，會導致欠擬合。這個參數需要使用CV來調整。

subsample[默認1]

減小這個參數的值，算法會更加保守，避免過擬合。
但是，如果這個值設置得過小，它可能會導致欠擬合。

對於每棵樹，隨機採樣的比例———隨機選擇多少樣本建立決策樹。
float型，如：0.8 取 80 % 的樣本

典型值：0.5-1

scale_pos_weight[默認1]

正樣本的權重。

在二分類任務中，當正負樣本比例失衡時，設置正樣本的權重，模型效果更好。

例如，當正負樣本比例爲1:10時，scale_pos_weight=10。

random_state

隨機數的種子

設置它可以復現隨機數據的結果，也可以用於調整參數。

colsample_bytree[默認1]

和GBM裏面的max_features參數類似。
用來控制每棵隨機採樣的列數的佔比(每一列是一個特徵)。

典型值：0.5-1

colsample_bylevel[默認1]

用來控制樹的每一級的每一次分裂，對列數的採樣的佔比。

subsample參數和colsample_bytree參數可以起到相同的作用。

max_delta_step[默認0]

這參數限制每棵樹權重改變的最大步長。如果這個參數的值爲0，那就意味着沒有約束。
如果它被賦予了某個正值，那麼它會讓這個算法更加保守。

通常，這個參數不需要設置。
但是當各類別的樣本十分不平衡時，它對邏輯迴歸是很有幫助的。

這個參數一般用不到，但是你可以挖掘出來它更多的用處。

nthread[默認值爲最大可能的線程數]

這個參數用來進行多線程控制，應當輸入系統的核數。

如果你希望使用CPU全部的核，那就不要輸入這個參數，算法會自動檢測它。

max_leaf_nodes

樹上最大的節點或葉子的數量。

可以替代max_depth的作用。
因爲如果生成的是二叉樹，一個深度爲n的樹最多生成2 ^ n個葉子。

如果定義了這個參數，GBM會忽略max_depth參數。

XGBClassifier().fit() 參數

fit(self, X, y, sample_weight=None, eval_set=None, 
	eval_metric=None, early_stopping_rounds=None, verbose=True, 
	xgb_model=None, sample_weight_eval_set=None)

early_stopping_rounds

在驗證集上，當連續n次迭代，分數沒有提高後，提前終止訓練。

作用：防止overfitting。

sample_weight

樣本權重

eval_set

 list 型，如：eval_set = [(X_test, y_test)]。 
 
 設置自定義樣本，將使用列表的樣本作爲驗證集，當迭代幾次分數沒提高，則終止。

eval_metric

評估標準。使用方法： eval_metric = 'error' 

迴歸任務(默認rmse)
	rmse--均方根誤差
	mae--平均絕對誤差
	
分類任務(默認error)
	auc--roc曲線下面積
	error--錯誤率（二分類）
	merror--錯誤率（多分類）
	logloss--負對數似然函數（二分類）
	mlogloss--負對數似然函數（多分類）

early_stopping_rounds

int 型，當連續迭代幾次時，分數沒有提高後，提前終止訓練。

sample_weight_eval_set

list 型，每個特徵樣本作爲驗證集的權重。

代碼實現

代碼實現：https://www.cnblogs.com/wanglei5205/p/8579244.html

第一種方法：XGBClassifier

from sklearn import datasets
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from xgboost import plot_importance
%matplotlib inline

digits = datasets.load_digits()
X = digits.data
y = digits.target

# 訓練測試集分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)

# 訓練數據
xgb = XGBClassifier(learning_rate=0.1,
                    n_estimators=1000,         # 樹的個數--1000棵樹建立xgboost
                    max_depth=6,               # 樹的深度
                    min_child_weight = 1,      # 葉子節點最小權重
                    gamma=0.,                  # 懲罰項中葉子結點個數前的參數
                    subsample=0.8,             # 隨機選擇80%樣本建立決策樹
                    colsample_btree=0.8,       # 隨機選擇80%特徵建立決策樹
                    objective='multi:softmax', # 指定損失函數
                    scale_pos_weight=1,        # 解決樣本個數不平衡的問題
                    random_state=666           # 隨機數
                    )
xgb.fit(X_train,
        y_train,
        eval_set = [(X_test,y_test)],
        eval_metric = "mlogloss",
        early_stopping_rounds = 10,
        verbose = True)

# 對測試集進行預測
y_predict = xgb.predict(X_test)

# 模型評估
accuracy = accuracy_score(y_test, y_predict)
print("accuarcy: %.2f%%" % (accuracy*100.0))

# 特徵重要性分析
fig,ax = plt.subplots(figsize=(15,15))
plot_importance(xgb,
                height=0.5,
                ax=ax,
                max_num_features=64)
plt.show()

accuarcy: 97.22%

第二種方法：xgboost

import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt

params = {
    'booster': 'gbtree',
    'objective': 'multi:softmax',
    'num_class': 10,
    'gamma': 0.1,
    'max_depth': 6,
    'lambda': 2,
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'min_child_weight': 1,
    'eta': 0.1,
    'seed': 666
}

plst = params.items()

dtrain = xgb.DMatrix(X_train, y_train)
num_rounds = 500
model = xgb.train(plst, dtrain, num_rounds)

# 對測試集進行預測
dtest = xgb.DMatrix(X_test)
y_predict = model.predict(dtest)

print("Accuracy: %.2f%% " % (accuracy_score(y_test, y_predict)*100.0))

# 特徵重要性分析
fig,ax = plt.subplots(figsize=(15,15))
plot_importance(model,
                height=0.5,
                ax=ax,
                max_num_features=64)

Accuracy: 97.50%

XGBoost參數及代碼實戰

XGBoost參數解釋：https://blog.csdn.net/qq_40587575/article/details/82886782

XGBoost參數調優：Complete Guide to Parameter Tuning in XGBoost with codes in Python

XGBoost的優勢

1、正則化

2、並行處理

3、高靈活性

4、處理缺失值

5、剪枝

6、內置交叉驗證

2、繼續現有模型

XGBoost參數

booster[默認gbtree]

objective[默認reg:linear]

gamma[默認0]

max_depth[默認6]

reg_lambda[默認1]

reg_alpha[默認1]

silent[默認0]

learning_rate[默認0.3]

n_esitimators

min_child_weight[默認1]

subsample[默認1]

scale_pos_weight[默認1]

random_state

colsample_bytree[默認1]

XGBClassifier().fit() 參數

early_stopping_rounds

sample_weight

eval_set

eval_metric

early_stopping_rounds

sample_weight_eval_set

代碼實現

代碼實現：https://www.cnblogs.com/wanglei5205/p/8579244.html

第一種方法：XGBClassifier

第二種方法：xgboost