模型融合—— stacking詳細講解

原創

2018-08-22 07:47

stacking的過程有一張圖非常經典，如下：

雖然他很直觀，但是沒有語言描述確實很難搞懂。

上半部分是用一個基礎模型進行5折交叉驗證，如：用XGBoost作爲基礎模型Model1，5折交叉驗證就是先拿出四折作爲training data，另外一折作爲testing data。注意：在stacking中此部分數據會用到整個traing set。如：假設我們整個training set包含10000行數據，testing set包含2500行數據，那麼每一次交叉驗證其實就是對training set進行劃分，在每一次的交叉驗證中training data將會是8000行，testing data是2000行。

每一次的交叉驗證包含兩個過程，1. 基於training data訓練模型；2. 基於training data訓練生成的模型對testing data進行預測。在整個第一次的交叉驗證完成之後我們將會得到關於當前testing data的預測值，這將會是一個一維2000行的數據，記爲a1。注意！在這部分操作完成後，我們還要對數據集原來的整個testing set進行預測，這個過程會生成2500個預測值，這部分預測值將會作爲下一層模型testing data的一部分，記爲b1。因爲我們進行的是5折交叉驗證，所以以上提及的過程將會進行五次，最終會生成針對testing set數據預測的5列2000行的數據a1,a2,a3,a4,a5，對testing set的預測會是5列2500行數據b1,b2,b3,b4,b5。

在完成對Model1的整個步驟之後，我們可以發現a1,a2,a3,a4,a5其實就是對原來整個training set的預測值，將他們拼湊起來，會形成一個10000行一列的矩陣，記爲A1。而對於b1,b2,b3,b4,b5這部分數據，我們將各部分相加取平均值，得到一個2500行一列的矩陣，記爲B1。

以上就是stacking中一個模型的完整流程，stacking中同一層通常包含多個模型，假設還有Model2: LR，Model3：RF，Model4: GBDT，Model5：SVM，對於這四個模型，我們可以重複以上的步驟，在整個流程結束之後，我們可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩陣。

在此之後，我們把A1,A2,A3,A4,A5並列合併得到一個10000行五列的矩陣作爲training data，B1,B2,B3,B4,B5並列合併得到一個2500行五列的矩陣作爲testing data。讓下一層的模型，基於他們進一步訓練。

以上即爲stacking的完整步驟！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

模型融合—— stacking詳細講解

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

docker入門

shell命令行&&、||和，的使用方法

機器學習：什麼是欠擬合和過擬合

xgboost: Higgs Boson Machine Learning Challenge

極大似然估計和貝葉斯決策詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結