模型融合—— stacking詳細講解

stacking的過程有一張圖非常經典,如下:

 

雖然他很直觀,但是沒有語言描述確實很難搞懂。

上半部分是用一個基礎模型進行5折交叉驗證,如:用XGBoost作爲基礎模型Model1,5折交叉驗證就是先拿出四折作爲training data,另外一折作爲testing data。注意:在stacking中此部分數據會用到整個traing set。如:假設我們整個training set包含10000行數據,testing set包含2500行數據,那麼每一次交叉驗證其實就是對training set進行劃分,在每一次的交叉驗證中training data將會是8000行,testing data是2000行。

每一次的交叉驗證包含兩個過程,1. 基於training data訓練模型;2. 基於training data訓練生成的模型對testing data進行預測。在整個第一次的交叉驗證完成之後我們將會得到關於當前testing data的預測值,這將會是一個一維2000行的數據,記爲a1。注意!在這部分操作完成後,我們還要對數據集原來的整個testing set進行預測,這個過程會生成2500個預測值,這部分預測值將會作爲下一層模型testing data的一部分,記爲b1。因爲我們進行的是5折交叉驗證,所以以上提及的過程將會進行五次,最終會生成針對testing set數據預測的5列2000行的數據a1,a2,a3,a4,a5,對testing set的預測會是5列2500行數據b1,b2,b3,b4,b5。

在完成對Model1的整個步驟之後,我們可以發現a1,a2,a3,a4,a5其實就是對原來整個training set的預測值,將他們拼湊起來,會形成一個10000行一列的矩陣,記爲A1。而對於b1,b2,b3,b4,b5這部分數據,我們將各部分相加取平均值,得到一個2500行一列的矩陣,記爲B1。

以上就是stacking中一個模型的完整流程,stacking中同一層通常包含多個模型,假設還有Model2: LR,Model3:RF,Model4: GBDT,Model5:SVM,對於這四個模型,我們可以重複以上的步驟,在整個流程結束之後,我們可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩陣。

在此之後,我們把A1,A2,A3,A4,A5並列合併得到一個10000行五列的矩陣作爲training data,B1,B2,B3,B4,B5並列合併得到一個2500行五列的矩陣作爲testing data。讓下一層的模型,基於他們進一步訓練。

以上即爲stacking的完整步驟!

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章