集成學習算法面試問題彙總

原創

是暮涯啊

2020-06-16 15:45

自己救自己系列，越準備資料，越來越發現基礎真的好重要，加油啊

莪只是個木得感情的搬運機器，以下內容都附有原鏈接地址，你不想我搬運的話，可以聯繫我刪除好勒。

紅色加粗是我見了好多次，感覺經常會考得點。

集成學習在《統計學習方法》上只講了Boosting，但內容很詳實易懂。《機器學習》範圍更廣，但比較泛，且公式比較難懂。可以兩本參考來看。

1、集成學習簡單介紹

集成學習通過構建並結合多個學習起來完成學習任務。其旨在通過多個學習器的結合，獲得比單一學習器顯著優異的泛化性能。

根據個體學習器的生成方式，目前集成學習分爲兩大類。1）個體學習器間存在強依賴關係，必須串形生成的序列化方式，代表是Boosting。常考的會有AdaBoost，GBDT，XGBoost； 2）個體學習器不存在強依賴關係，可同時生成的並行化方法，代表是Bagging和隨機森林（RF）。

2、AdaBoost 可以看《統計學習方法》，講的非常詳細。GBDT在《統計學習方法》中也有在 Boost Tree 和梯度提升裏面講，但感覺沒有很清楚，可以網上搜索GBDT結合着看。 XGBoost感覺是因爲對GBDT改進衍生的，因此《統計學習方法》和《機器學習》都沒有介紹。所以可以推薦看一下網絡上資料 https://www.cnblogs.com/zongfa/p/9324684.html 。 Bagging和RF在《機器學習》裏有講，而且公式基本沒有，很容易理解。

3、GBDT 和決策森林的區別？

相同點：
（1）都是由多棵樹組成的，都是集成學習算法
（2）最終的結果都是由多顆樹一起決定

不同點：
(1)組成隨機森林的樹可以是分類樹，也可以是迴歸樹，但是GBDT只能由迴歸樹組成。
(2)組成隨機森林的樹可以並行生成，但是組成GBDT的樹只能串行生成。
(3)對於最終的輸出結果，隨機森林採用多數投票；而GBDT是將所有的結果累加起來，或者加權起來
(4)隨機森林對異常值不敏感，而GBDT對異常值非常敏感
(5)隨機森林通過減小方差來提高性能，GBDT通過減小偏差來提高性能

抄自： https://www.jianshu.com/p/18a400ad47cc

4、gbdt的boosting體現在哪裏。解釋下隨機森林節點的分裂策略，以及它和gbdt做分類有什麼區別？哪個效果更好些？爲什麼？哪個更容易過擬合？爲什麼？問了隨機森林的損失函數，和lr的優缺點對比，爲了防止隨機森林過擬合可以怎麼做，是否用過隨機森林，怎麼用的。

gbdt的boosting體現在：殘差，當前模型通過經驗風險極小化確定下棵決策樹參數。即boost Tree部分的知識（我自己編的答案）

RF節點的分裂策略：對基決策樹的每個節點，從節點的屬性集合（假如含有d個）中隨機選取一個包含k個屬性的子集，然後在子集中選擇最優的屬性用於劃分。其中k控制隨機性引入情況，當k=d，則和決策樹相同；k=1，即隨機選取，一般選擇 .（我自己編的答案，抄《機器學習》的。

GBDT中樹的數目過多會引起過擬合（RF不會）

防止隨機森林過擬合怎麼做？RF不會過擬合啊，如果硬說就是調參？

參考 https://www.zhihu.com/question/271790682/answer/411592053

其他問題我編不出來答案了。。。

5、改變隨機森林的訓練樣本數據量，是否會影響到隨機森林學習到的模型的複雜度

默認參數下模型複雜度是：O(MNlog(N)) ，其中 M 是樹的數目， N 是樣本數。所以會影響

6、隨機森林中的每一棵樹是如何學習的？

1）隨機選取樣本：從原始訓練數據集中，應用bootstrap方法有放回地隨機抽取k個新的自助樣本集，並由此構建k棵分類迴歸樹，每次未被抽到的樣本組成了Ｋ個袋外數據（out-of-bag,BBB）

2）隨機選取特徵：設有n 個特徵，則在每一棵樹的每個節點處隨機抽取mtry 個特徵，通過計算每個特徵蘊含的信息量，特徵中選擇一個最具有分類能力的特徵進行節點分裂。

3）每棵樹最大限度地生長，不做任何剪裁

4）將生成的多棵樹組成隨機森林，用隨機森林對新的數據進行分類，分類結果按樹分類器投票多少而定。

（我自己編的答案）

7、GBDT和XGBoost的區別

https://www.zhihu.com/question/41354392

8、SVM與隨機森林比較

見 https://zhuanlan.zhihu.com/p/29114739 標題三

不行了，看着麼多天回答這些問題還是有點凌亂，以後在更

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

集成學習算法面試問題彙總

高效率使用windows

樸素貝葉斯算法面試問題彙總

鏈表的基本定義與使用方法總結

Alexnet，Vgg, GoogleNet，resnet等常見模型torch版本代碼github地址

C++ 或運算符運行函數問題

沒有程序運行但是顯卡佔用情況---殺死pytorch佔用的殭屍進程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結