機器學習算法終極對比：樹模型VS神經網絡

原創

瘋耔

2023-04-17 14:05

樹模型和神經網絡，像一枚硬幣的兩面。在某些情況下，樹模型的性能甚至優於神經網絡。

由於神經網絡的複雜性，它們常常被認爲是解決所有機器學習問題的「聖盃」。而另一方面，基於樹的方法並未得到同等重視，主要原因在於這類算法看起來很簡單。然而，這兩種算法看似不同，卻像一枚硬幣的正反面，都很重要。

樹模型 VS 神經網絡

基於樹的方法通常優於神經網絡。本質上，將基於樹的方法和基於神經網絡的方法放在同一個類別中是因爲，它們都通過逐步解構來處理問題，而不像支持向量機或 Logistic 迴歸那樣通過複雜邊界來分割整個數據集。

很明顯，基於樹的方法沿着不同的特徵逐步分割特徵空間，以優化信息增益。不那麼明顯的是，神經網絡也以類似的方式處理任務。每個神經元監視特徵空間的一個特定部分（存在多種重疊）。當輸入進入該空間時，某些神經元就會被激活。

神經網絡以概率的視角看待這種逐段模型擬合 (piece-by-piece model fitting)，而基於樹的方法則採用確定性的視角。不管怎樣，這兩者的性能都依賴於模型的深度，因爲它們的組件與特徵空間的各個部分存在關聯。

包含太多組件的模型（對於樹模型而言是節點，對於神經網絡則是神經元）會過擬合，而組件太少的模型根本無法給出有意義的預測。（二者最開始都是記憶數據點，而不是學習泛化。）

要想更直觀地瞭解神經網絡是如何分割特徵空間的，可閱讀這篇介紹通用近似定理的文章：https://medium.com/analytics-vidhya/you-dont-understand-neural-networks-until-you-understand-the-universal-approximation-theory-85b3e7677126。

雖然決策樹有許多強大的變體，如隨機森林、梯度提升、AdaBoost 和深度森林，但一般來說，基於樹的方法本質上是神經網絡的簡化版本。

基於樹的方法通過垂直線和水平線逐段解決問題，以最小化熵（優化器和損失）。神經網絡通過激活函數來逐段解決問題。
基於樹的方法是確定性的，而不是概率性的。這帶來了一些不錯的簡化，如自動特徵選擇。
決策樹中被激活的條件節點類似於神經網絡中被激活的神經元（信息流）。
神經網絡通過擬合參數對輸入進行變換，間接指導後續神經元的激活。決策樹則顯式地擬合參數來指導信息流。（這是確定性與概率性相對應的結果。）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習算法終極對比：樹模型VS神經網絡

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

DELL 主板11針LEDH1接線方法

stm32 BSRRH BSRRL

真實性——簡歷書寫你不得不注意的至上準則

腔體濾波器原理解析

ubuntu c語言 opencv實現h265 編碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結