集成學習算法面試問題彙總

自己救自己系列,越準備資料,越來越發現基礎真的好重要,加油啊

莪只是個木得感情的搬運機器,以下內容都附有原鏈接地址,你不想我搬運的話,可以聯繫我刪除好勒。

紅色加粗是我見了好多次,感覺經常會考得點。

 

集成學習在《統計學習方法》上只講了Boosting,但內容很詳實易懂。《機器學習》範圍更廣,但比較泛,且公式比較難懂。可以兩本參考來看。

 

1、集成學習簡單介紹

集成學習通過構建並結合多個學習起來完成學習任務。其旨在通過多個學習器的結合,獲得比單一學習器顯著優異的泛化性能。

根據個體學習器的生成方式,目前集成學習分爲兩大類。1)個體學習器間存在強依賴關係,必須串形生成的序列化方式,代表是Boosting。常考的會有AdaBoost,GBDT,XGBoost; 2)個體學習器不存在強依賴關係,可同時生成的並行化方法,代表是Bagging和隨機森林(RF)。

2、AdaBoost 可以看《統計學習方法》,講的非常詳細。GBDT在《統計學習方法》中也有在 Boost Tree 和梯度提升 裏面講,但感覺沒有很清楚,可以網上搜索GBDT結合着看。 XGBoost感覺是因爲對GBDT改進衍生的,因此《統計學習方法》和《機器學習》都沒有介紹。所以可以推薦看一下網絡上資料 https://www.cnblogs.com/zongfa/p/9324684.html 。 Bagging和RF在《機器學習》裏有講,而且公式基本沒有,很容易理解。

3、GBDT 和 決策森林 的區別?

      相同點:
           (1)都是由多棵樹組成的,都是集成學習算法
           (2)最終的結果都是由多顆樹一起決定

      不同點:
              (1)組成隨機森林的樹可以是分類樹,也可以是迴歸樹,但是GBDT只能由迴歸樹組成。
              (2)組成隨機森林的樹可以並行生成,但是組成GBDT的樹只能串行生成。
              (3)對於最終的輸出結果,隨機森林採用多數投票;而GBDT是將所有的結果累加起來,或者加權起來
              (4)隨機森林對異常值不敏感,而GBDT對異常值非常敏感
              (5)隨機森林通過減小方差來提高性能,GBDT通過減小偏差來提高性能

     抄自: https://www.jianshu.com/p/18a400ad47cc

 

4、gbdt的boosting體現在哪裏。解釋下隨機森林節點的分裂策略,以及它和gbdt做分類有什麼區別?哪個效果更好些?爲什麼?哪個更容易過擬合?爲什麼? 問了隨機森林的損失函數,和lr的優缺點對比, 爲了防止隨機森林過擬合可以怎麼做,是否用過隨機森林,怎麼用的。

      gbdt的boosting體現在:殘差,當前模型通過經驗風險極小化確定下棵決策樹參數。即boost Tree部分的知識(我自己編的答案)

      RF節點的分裂策略:對基決策樹的每個節點,從節點的屬性集合(假如含有d個)中隨機選取一個包含k個屬性的子集,然後在子集中選擇最優的屬性用於劃分。其中k控制隨機性引入情況,當k=d,則和決策樹相同;k=1,即隨機選取,一般選擇 k = log_2d.(我自己編的答案,抄《機器學習》的。

    GBDT中樹的數目過多會引起過擬合(RF不會)

    防止隨機森林過擬合怎麼做?RF不會過擬合啊,如果硬說就是調參?

                                                   參考  https://www.zhihu.com/question/271790682/answer/411592053

    其他問題我編不出來答案了。。。

 

5、改變隨機森林的訓練樣本數據量,是否會影響到隨機森林學習到的模型的複雜度

      默認參數下模型複雜度是:O(MNlog(N)) , 其中 M 是樹的數目, N 是樣本數。所以會影響

 

6、隨機森林中的每一棵樹是如何學習的?     

      1)隨機選取樣本:從原始訓練數據集中,應用bootstrap方法有放回地隨機抽取k個新的自助樣本集,並由此構建k棵分類迴歸              樹,每次未被抽到的樣本組成了K個袋外數據(out-of-bag,BBB)

      2)隨機選取特徵:設有n 個特徵,則在每一棵樹的每個節點處隨機抽取mtry 個特徵,通過計算每個特徵蘊含的信息量,特徵中              選擇一個最具有分類能力的特徵進行節點分裂。 

      3)每棵樹最大限度地生長, 不做任何剪裁

      4)將生成的多棵樹組成隨機森林, 用隨機森林對新的數據進行分類, 分類結果按樹分類器投票多少而定。

     (我自己編的答案)

 

7、GBDT和XGBoost的區別

      https://www.zhihu.com/question/41354392

8、SVM與隨機森林比較

     見 https://zhuanlan.zhihu.com/p/29114739 標題三

 

不行了,看着麼多天回答這些問題還是有點凌亂,以後在更   

               

      

      

     

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章