實訓小結(7)

**

3.25 決策樹學習

**
迴歸
(x,y) y是連續的:迴歸問題 y是離散的:分類問題

實踐應用中最廣泛的應用:Logistic迴歸

CART
(Classification &(And) Regression Tree)
決策樹與隨機森林
決策樹(分類樹、迴歸樹)
解決問題:那種切法最優
分類效果的評估:熵(不確定性)
乘機符號變爲加和符號:取對數ln
概率大——>熵小
概率低——>熵大

有些特徵是沒用的
特徵選擇:信息增益最大(不確定性減少)
特徵A和數據集D的互信息最大就選A

當葉節點的熵爲0的時候,分裂完成
讓熵下降的快的切分

決策樹的分裂過程:熵下降的過程(貪心策略)
決策樹選擇哪個屬性作爲分類依據(三種算法:ID3、C4.5、CART)

決策樹:分的太清,容易發生過擬合的現象
如何避免
邊生成邊考慮是否可能擴展,剪枝

bootstraping

隨機森林:有若干個樹組成
可以用在分類,也可以用在迴歸

從樣本集中用Bootstrap採樣選出n個樣本
從所有屬性中隨機選擇k個屬性,選擇最佳分割屬性作爲節點建立CART決策樹
重複m次,即建立了m棵CART決策樹

爲什麼隨機森林的效果會好?
作者:厚德載物lyh
來源:CSDN
原文:https://blog.csdn.net/u010462995/article/details/70312702
版權聲明:本文爲博主原創文章,轉載請附上博文鏈接!

問題一:決策樹的深度如何確定?(經常用四五層)
深度越深,擬合的曲線越圓滑

問題二:隨機森林 n_estimators=?用了多少個決策樹
每個決策樹的深度是多少
如何確定的

**

3.26 隨機森林模型的優點認識

**
什麼是隨機森林迴歸?
爲什麼使用隨機森林迴歸?
(隨機森林相對於其他算法的優點有哪些?)

隨機森林:
樣本是隨機:從樣本集中用bootstrap採樣選出n個樣本,
特徵的隨機:從屬性中隨機選擇k個屬性,選擇最佳屬性作爲節點建立CART決策樹
重複m次,建立m棵CART決策樹

優點:
高度並行化,對於大樣本的訓練速度快
隨機採樣,泛化能力強
對缺失的特徵不明顯

爲什麼使用隨機森林(優點是什麼)
學習的過程很快,可以處理大量的數據
一般迴歸問題都會面臨多元共線性的問題,隨機森林則可以不用考慮變量的獨立性,並且它對離羣值不敏感,穩健性好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章