【機器學習】 XGBoost算法梳理

原創

2020-07-02 11:28

前言：XGBoost原理上跟普通GBDT一樣，都屬於集成算法中的boost類。boost的原理可以看我的另外兩篇介紹集成學習的文章，這裏不多贅述。所以這篇文章主要在XGB與普通GBDT不同之處進行討論。

1.損失函數

XGB的損失函數是支持自定義的，只要滿足二階可導即可。

XGB的損失函數除了擬合上一輪殘差部分，還自帶了兩個損失項以減少樹模型複雜度：

先討論簡單的，正則化部分：

係數：這裏的γ和λ，你可以設定它們的值，顯然，γ越大，表示越希望獲得結構簡單的樹，因爲此時對較多葉子節點的樹的懲罰越大。λ越大也是越希望獲得結構簡單的樹。

懲罰內容：是該輪構建樹的葉子結點樹，標識該結點上的值（值指的是迴歸樹，分類樹上則對應類別）。我理解的意義在於，建立新樹過程中，不希望有某個分支突然學到“真理”，學習應該是循序漸進的，突然學得那麼“精確”容易過擬合。比如一男子，50歲，第一個葉節點根據性別就猜對了男子50歲，後面都沒有殘差了，這顯然不夠科學。所以需要加入此正則化部分，1是可以使模型趨於簡單，2可以避免過擬合。

再看頭疼一點的，誤差函數項，

爲了好理解，先以平方誤差（MSE）爲例，和 $\widehat{y}^\left ( {t-1} \right )$ 都是已知項，上式可以轉化爲：

這個函數，是不是熟悉多了？因爲和 $\widehat{y}^\left ( {t-1} \right )$ 都是已知項，所以這就是一個優雅的二次函數了，爲什麼說二次函數比較優雅，後面會提到。但是很多情況下，損失函數並不是平方誤差這麼簡單，那就用泰勒展開，只保留到二次項。泰勒公式就不細說了（反正我也說不通...），泰勒展開後，上式會變成這樣：

其中：

忽略損失函數中的第一個自變量（別忘了上面說的“在第t步，是真實值，即已知”，不影響後續目標函數對的偏導計算），做下一一對應：

● 泰勒二階展開f 裏的x對應目標函數裏的

● f 裏的對應目標函數的

● 從而f 對x求導數時，對應爲目標函數對求偏導

這裏有必要再明確一下，和的含義。怎麼理解呢？現有t-1棵樹是不是？這t-1棵樹組成的模型對第i個訓練樣本有一個預測值 $\widehat{y}_i$ 是不是？這個 $\widehat{y}_i$ 與第i個樣本的真實標籤肯定有差距是不是？這個差距可以用 $L\left ( y_i,\widehat{y}_i \right )$ 這個損失函數來衡量是不是？現在和的含義已經清楚了，而且，更重要的是，和與當前要建立的樹無關啊，可以分佈運行啊，所以速度快啊。所以，上面的式子還可以進一步簡化爲（把常數項去掉）

這時，目標函數只依賴於每個數據點在誤差函數上的一階導數和二階導數。

記住這個式子，再看其中的，雖然知道它是個什麼東西，但是總覺得怪怪的是不是，怎麼去得到這個呢？

下面是決策樹的另一種表達方式：

式中：表示某個葉子結點上的值則是一種映射關係，表示把映射到哪個葉子結點上，這樣一來，我們上面的損失函數就又可以表示成：

直接把，從樣本遍歷轉化爲從葉子結點遍歷了有沒有？這個公式還是有點難懂，那麼如果我們再變換一下呢？

這個公式，問你怎麼求使得損失函數最小？當然是 $-\frac{b}{2a}$ 啊！（初中二次函數知識）

這個表示一個樹的結構的好壞，只與樹結構有關係。下面這張圖，相信大家都在各種介紹XGB的文章裏見到過，這裏不多做介紹，只是輔助理解。

2.尋找最優的結構

以判斷一個人是否喜歡計算機遊戲爲例子。最簡單的樹結構就是一個節點的樹。我們可以算出這棵單節點的樹的好壞程度obj*。假設我們現在想按照年齡將這棵單節點樹進行分叉，我們需要知道：
1、按照年齡分是否有效，也就是是否減少了obj的值
2、如果可分，那麼以哪個年齡值來分。

爲了回答上面兩個問題，我們可以將這一家五口人按照年齡做個排序。如下圖所示：

從左向右遍歷每個年齡，可以得到兩個區域，然後計算：

這個就類似於信息增益，增益越大，那麼就越小，而這個 $\gamma$ 是控制每次分裂的增益最小值的，如果增益小於 $\gamma$ ，就不切分。對每個節點遞歸得調用這個方法，就可以得到一個新的樹。

3.特點

Xgboost可以有效地防止過擬合併且各種支持分佈式/並行，所以一般傳言這種大殺器效果好（集成學習的高配）+訓練效率高（分佈式），與深度學習相比，對樣本量和特徵數據類型要求沒那麼苛刻，適用範圍廣。而且具有深度學習沒有的一些特性比如模型的可解釋性、輸入數據的不變性、更易於調參等。

4.應用場景

XGBoost以其較高的準確率，又可以局部分佈式訓練，可以說能用GBDT的都可以用XGBoost來試試，訓練得比較快，時間省下來多調調參也是好的。

5.調參實踐

https://github.com/zzzzzzhang/Datawhale_learn/blob/master/XGBoost_cloud.py

參考

【1】http://www.julyedu.com/question/big/kp_id/23/ques_id/2590

【2】https://blog.csdn.net/github_38414650/article/details/76061893

【3】https://blog.csdn.net/qq_34562093/article/details/78880975

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

24小時熱門文章

最新文章

最新評論文章