實訓小結（7）

原創

2019-04-01 01:30

3.25 決策樹學習

**
迴歸
（x,y） y是連續的：迴歸問題 y是離散的：分類問題
略

實踐應用中最廣泛的應用：Logistic迴歸

CART
(Classification &(And) Regression Tree)
決策樹與隨機森林
決策樹（分類樹、迴歸樹）
解決問題：那種切法最優
分類效果的評估：熵（不確定性）
乘機符號變爲加和符號：取對數ln
概率大——>熵小
概率低——>熵大

有些特徵是沒用的
特徵選擇：信息增益最大（不確定性減少）
特徵A和數據集D的互信息最大就選A

當葉節點的熵爲0的時候，分裂完成
讓熵下降的快的切分

決策樹的分裂過程：熵下降的過程（貪心策略）
決策樹選擇哪個屬性作爲分類依據（三種算法：ID3、C4.5、CART）

決策樹：分的太清，容易發生過擬合的現象
如何避免
邊生成邊考慮是否可能擴展，剪枝

bootstraping

隨機森林：有若干個樹組成
可以用在分類，也可以用在迴歸

從樣本集中用Bootstrap採樣選出n個樣本
從所有屬性中隨機選擇k個屬性，選擇最佳分割屬性作爲節點建立CART決策樹
重複m次，即建立了m棵CART決策樹

爲什麼隨機森林的效果會好？
作者：厚德載物lyh
來源：CSDN
原文：https://blog.csdn.net/u010462995/article/details/70312702
版權聲明：本文爲博主原創文章，轉載請附上博文鏈接！

問題一：決策樹的深度如何確定？（經常用四五層）
深度越深，擬合的曲線越圓滑

問題二：隨機森林 n_estimators=？用了多少個決策樹
每個決策樹的深度是多少
如何確定的

**
什麼是隨機森林迴歸？
爲什麼使用隨機森林迴歸?
（隨機森林相對於其他算法的優點有哪些？）

隨機森林：
樣本是隨機：從樣本集中用bootstrap採樣選出n個樣本，
特徵的隨機：從屬性中隨機選擇k個屬性，選擇最佳屬性作爲節點建立CART決策樹
重複m次，建立m棵CART決策樹

優點：
高度並行化，對於大樣本的訓練速度快
隨機採樣，泛化能力強
對缺失的特徵不明顯

爲什麼使用隨機森林（優點是什麼）
學習的過程很快，可以處理大量的數據
一般迴歸問題都會面臨多元共線性的問題，隨機森林則可以不用考慮變量的獨立性，並且它對離羣值不敏感，穩健性好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.