從DT到Random Forest、GBDT

原創

2020-07-04 15:28

決策樹

基礎的內容，參考的鏈接：
http://leijun00.github.io/2014/09/decision-tree/

ID3
- 最基礎的決策樹，多叉樹，僅能處理離散型值
- 採用信息增益來處理 g(D,A)=H(D)−H(D|A)
- 會偏向有較多屬性的feature，容易過擬合
C4.5
- 對ID3的改進
- 對於連續值，進行劃分。假設是min，k1，k2，…，max的劃分，依次嘗試劃分的方式，計算最佳劃分
- 採用信息增益比率，避免了偏向較多屬性feature
- 處理缺失值（填充or忽略）
CART
- 用基尼純淨度來衡量
- 二叉樹的形式
迴歸樹
- 採用平方誤差損失求解最優的切分變量和切分點
- 每個葉子節點的輸出就是一個值

Random Forest

類似bagging，然而並不是的。bagging會隨機抽樣若干個樣本（不要求與原樣本的個數一致，每次分裂時考慮所有的特徵）
由多棵CART構成
使用的訓練集是從總的訓練集中有放回採樣出來的，新樣本大小與原樣本大小一樣，有些樣本可能多次出現在一棵樹的訓練集中，也可能從未出現在一棵樹的訓練集中
使用的特徵是從所有特徵中按照一定比例隨機地無放回的抽取的，根據Leo Breiman的建議，假設總的特徵數量爲M，這個比例可以是sqrt(M),1/2sqrt(M),2sqrt(M)
最後，用投票的方式。如果是迴歸問題，就取平均值
參數包括樹的個數，深度等
參考鏈接：

GBDT

迴歸樹
每次擬合的目標，是上一次的殘差，所以最終結果，是將所有樹的結果加起來
既然如此，那應該就沒有數據集的sample了，不然沒得搞（？）
特徵應該還是隨機抽取若干個，來處理每棵樹（？）
參考鏈接：
- http://blog.csdn.net/kunlong0909/article/details/17587101
- http://blog.csdn.net/w28971023/article/details/8240756

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

爲什麼高頻RF電路里面都見不到大封裝的電容？

今天在某某兔視頻裏看到了旁路電容的講解，挺深刻的。電容的封裝尺寸越小，其所包含的等效電感越小，因爲這樣電容裏面的金屬板或導線就越小。電感是阻礙電流的變化，也就是頻率越高，阻抗越大，所以在高頻的世界裏，如果需要電容，就要使用尺寸小的，

清风随我飞

2020-06-16 10:36:02

[轉]你應該掌握的七種迴歸技術

原文鏈接：http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 翻譯鏈接：http://www.csdn.net/article/

2020-07-04 15:28:07

不均衡數據處理

參考文獻： 1. http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

2020-07-04 15:28:07

C++版基本算法3--分塊查找

//分塊查找算法 #include <iostream> using namespace std; struct index //定義一個結構體用來分塊 {int key;int start;int end; }index[4]; i

2020-06-27 16:11:50

C++版基本算法2--折半查找

//折半查找算法 #include <iostream> using namespace std; int search(int a[],int n,int x); //函數聲明 int main() {int i,x,z;int a[

2020-06-27 16:11:50

jenkins+robotFramwork+svn自動化框架集成

第一步在服務器上搭建jenkins參見： https://blog.csdn.net/cindy_jymm/article/details/102700891 第二步集成RF 要想最終跑起來jenkins所在機器下要安裝pytho

2020-07-04 16:55:24

AppiumLibrary 關鍵字學習

Keywords Keyword Arguments Documentation Background App seconds=5 Puts the application in the background on the device

魔都虫师Darcy_chen

2020-06-25 23:32:30

Robot_Framework：基礎_變量

工程、測試套件、測試用例在Robot Framework中創建測試項目和創建單元測試項目一致 Robot Framework unittest(Python) Test Project Test Project Test Suit Te

不怕猫的耗子A

2020-06-16 11:30:30

XGBOOST_航班延誤預測

最近，公司想嘗試一下利用機器學習進行航班的延誤預測，於是將調研任務交給了博主。一開始的傾向是使用GBDT算法，使用了在scikit-learn上的腫瘤數據作爲初步模型測試，使用網格搜索後發現，其預測結果僅僅只有50%不到，還不如K

2020-07-04 21:06:51

小白學習CTR模型：GBDT+LR

前言晚上很多內容講解LGBT+LR的推薦系統，但是很多都講解的都過於自然，很多都省略了，本文從小白角度來慢慢分析。包括代碼分析等等。問題是什麼 CTR全稱是click-through rate，中文名叫點擊率，它是怎麼回事呢？

2020-06-24 02:48:50

樹算法系列之三:GBDT

1.GBDT(Gradient Boosting Decison Tree)梯度提升樹 GBDT與提升樹有非常密切的關係。爲方便閱讀本文，可以先參考提升樹一文。在提升樹一文中，我們提到每一輪迭代，都是去擬合上一輪的"殘差"，如果

2020-06-23 17:25:41

TF（tensorflow）安裝之python

前言：前三步都是狗血淚~~如果僅僅安裝直接跳到第四步！！！第一步：習慣性的google Git源碼，readME發現源碼安裝太複雜；再百度安裝tensorflow安裝非常全面的安裝方法（中文）：https://www.tensorfl

2020-06-23 05:11:12

python機器學習手寫算法系列——梯度提升迴歸

梯度提升（Gradient Boosting）訓練一系列的弱學習器（learners），每個學習器都針對前面的學習器的僞殘差（而不是y），以此提升算法的表現（performance）。維基百科是這樣描述梯度提升的梯度提升（梯

2020-06-22 08:43:23

集成學習算法面試問題彙總

自己救自己系列，越準備資料，越來越發現基礎真的好重要，加油啊莪只是個木得感情的搬運機器，以下內容都附有原鏈接地址，你不想我搬運的話，可以聯繫我刪除好勒。紅色加粗是我見了好多次，感覺經常會考得點。集成學習在《統計學習方法》上只講了

2020-06-16 15:45:38

spark-GBDTs源碼解析(GBDT梯度提升決策樹[迴歸GBTClassifier|分類GBDTRegressor])_(spark_2.2.0)

GBDT算法簡介【概述】 GBDT（全稱梯度下降樹）是集成學習中的其中一種算法。幸運的是spark在MLlib中有相關實現，共有兩種實現GBTClassifier,GBDTRegressor。【spark實現計

2020-06-16 15:30:30

24小時熱門文章

最新文章

最新評論文章