機器學習模型融合方法

1.Voting
投票法針對分類模型，多個模型的分類結果進行投票，少數服從多數。除了公平投票外，還可以給投票設置權重，分類器效果越好權重越高，分類器效果越差，權重越低。

2.Averaging
迴歸問題：直接取平均值作爲最終的預測值，也可以使用加權平均。
分類問題：直接將模型的預測概率做平均，也可以使用加權平均。
可以把所有模型預測的結果作爲新的特徵，再通過線性迴歸計算出權重

3.Ranking
Ranking融合適合排序評估指標，對auc比較有效。具體公式如下：

$\sum_{i=1}^{n}\frac{Weight_{i}}{Rank_{i}}$

其中，n表示模型個數， $Weight_{i}$ 表示該樣本在第i個模型的權重，所有權重相同表示平均融合， $Rank_{i}$ 表示該樣本在第i個模型中的升序排名。

4.Bagging
採用有放回的方式抽取訓練子集來訓練每個基模型，最後所有基模型進行融合，分類問題進行投票，迴歸問題進行平均。除了構建不同的訓練子集，也可以構建不同的特徵和參數保證基模型的差異性，最後再進行融合。參考隨機森林。

5.Boosting
        Boosting算法是一種迭代算法。每輪迭代中會在訓練集上產生一個新的分類器，然後使用該分類器對所有樣本進行分類，以評估每個樣本的重要性。具體來說，算法會爲每個訓練樣本賦予一個權值。每次用訓練完的新分類器標註各個樣本，若某個樣本點已被分類正確，則將其權值降低，並以該權重進行下一次數據的抽樣（抽中的概率減小）；若樣本點未被正確分類，則提高其權值，並以該權重進行下一次數據的抽樣（抽中的概率增大）。權值越高的樣本在下一次訓練中所佔的比重越大，也就是說越難區分的樣本在訓練過程中會變得越來越重要。整個迭代過程直到錯誤率足夠小或達到一定次數才停止。參考adaboost，gbdt，xgboost。
      （1）Bagging + 決策樹 = 隨機森林
      （2）AdaBoost + 決策樹 = 提升樹
      （3）Gradient Boosting + 決策樹 = GBDT
Bagging和Boosting算法的區別：
      （1）bagging的訓練集是隨機的，各訓練集是獨立的；而boosting訓練集的選擇不是獨立的，每一次選擇的訓練集都依賴於上一次學習的結果。
  （2）bagging的每個預測函數都沒有權重；而boosting根據每一次訓練的訓練誤差得到該次預測函數的權重。
      （3）bagging的各個預測函數可以並行生成；而boosting只能順序生成。

6.Stacking
        Stacking是指將多種分類器組合在一起來取得更好表現的一種集成學習模型。一般情況下，Stacking模型分爲兩層。第一層中我們訓練多個不同的模型，然後再以第一層訓練的各個模型的輸出作爲輸入來訓練第二層的模型，以得到一個最終的輸出。
        首先，我們從stacking模型的訓練開始闡述。假如該模型的第一層有五個分類模型，第二層有一個分類模型。在第一層中，對於不同的分類模型，我們分別將訓練數據分爲5份，接下來迭代5次。每次迭代時，將4份數據作爲訓練集對每個分類模型進行訓練，然後剩下一份數據在訓練好的分類模型上進行預測並且保留結果。當5次迭代都完成以後，我們就獲得了一個結果矩陣。該矩陣是一個N*1的矩陣，N是訓練集的樣本數。當5個模型都進行完上述操作後，我們就可以得到一個N*5的結果矩陣。然後將該結果矩陣導入到第二層的模型中進行訓練，此時全部模型訓練完畢。接下來是stacking模型的預測過程。
        接下來我們開始闡述該模型的預測過程。在第一層中，對於不同分類模型，我們還是使用在訓練時分成的5份訓練數據進行五次迭代。每次迭代時，我們利用訓練後的分類模型對預測集進行預測並保留下來。當5次迭代都完成以後，我們可以得到一個M*5的矩陣，M是預測集的樣本數。我們將這個矩陣按列取平均，縮減成M*1的矩陣。當5個模型都進行完上述操作後，我們就可以得到一個N*5的結果矩陣。然後將該矩陣導入到第二層中訓練好的模型進行預測，就可以得到最終的預測結果。
        參考鏈接：https://blog.csdn.net/data_scientist/article/details/78900265

7.Blending
Blending直接用不相交的數據集用於不同層的訓練。
以兩層的Blending爲例，訓練集劃分爲兩部分（train1，train2），測試集爲test。
第一層：用train1訓練多個模型，將其對train2和test的預測結果作爲第二層的新特徵。
第二層：用train2的新特徵和標籤訓練新的分類器，然後把test的新特徵輸入作爲最終的預測值。
---------------------
作者：伽音
來源：CSDN
原文：https://blog.csdn.net/zh11403070219/article/details/82286429
版權聲明：本文爲博主原創文章，轉載請附上博文鏈接！

機器學習模型融合方法

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

Landsat Fractional Snow Covered Area Product（Landsat雪比例產品，含雲掩膜）

pyinstaller的打包後錯誤（ModuleNotFoundError: No module named ‘tensorflow_core.python及FileNotFoundError:N

OpenVino cmake error

‘pip‘ is not recognized as an internal or external command

【OpenVINO系列之一】Win 10安裝配置OpenVINO指南及踩坑記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器學習 模型融合方法

機器學習模型融合方法