集成學習（筆記）

原創

2019-03-09 13:28

原文：機器學習面試題彙總(集成學習相關)，做了一些筆記。

1.什麼是集成學習算法？

2.集成學習主要有哪幾種框架？

3.簡單介紹一下bagging，常用bagging算法有哪些？

4.簡單介紹一下boosting，常用boosting算法有哪些？

5.boosting思想的數學表達式是什麼？

6.簡單介紹一下stacking，常用stacking算法有哪些？

7.你意識到你的模型受到低偏差和高方差問題的困擾，應該使用哪種算法來解決問題呢？爲什麼？

8.簡述一下隨機森林算法的原理

9.隨機森林的隨機性體現在哪裏？

10.隨機森林爲什麼不容易過擬合？

11.你已經建了一個有10000棵樹的隨機森林模型。在得到0.00的訓練誤差後，你非常高興。但是，驗證錯誤是34.23。到底是怎麼回事？你還沒有訓練好你的模型嗎？

12.如何使用隨機森林去彌補特徵向量中的缺失值

13.如何使用隨機森林對特徵重要性進行評估？

14.隨機森林算法訓練時主要需要調整哪些參數？

15.隨機森林爲什麼不能用全樣本去訓練m棵決策樹？

16.隨機森林算法有哪些優缺點

17.簡述一下Adaboost原理

18.AdaBoost的優點和缺點

19.爲什麼Adaboost對噪聲敏感？

20.Adaboost和隨機森林算法的異同點

21.簡述GBDT原理

22.GBDT常用損失函數有哪些？

23.GBDT中爲什麼要用負梯度來代替殘差計算？

24.GBDT如何用於分類?

25.GBDT中的決策樹是分類樹還是迴歸樹？

26.如何使用GBDT構建特徵？

27.爲什麼GBDT不適合使用高維稀疏特徵?

28.GBDT通過什麼方式減少誤差？

GBDT如何進行正則化？

30.GBDT裏的G代表什麼，體現在哪裏？

31.GBDT需要調試的參數有哪些？

32.GBDT算法的優缺點有哪些？

33.Xgboost/GBDT在調參時爲什麼樹的深度很少就能達到很高的精度，而隨機森林需要的深度相對較高？

34.爲什麼Xgboost要用泰勒展開，優勢在哪裏？

35.Xgboost如何尋找最優特徵？

36.Xgboost採樣是有放回還是無放回的呢？

37.XGBoost訓練通常調整的參數有哪些？

38.XGBoost中的樹是如何剪枝？

39.XGBoost如何解決缺失值問題？

40.XGBoost和GBDT的區別

1.什麼是集成學習算法？

集成弱學習器，提升模型效果。
弱學習器可以是SVM、KNN、決策樹、樸素貝葉斯等。

2.集成學習有哪幾種框架?

Bagging: 並行，對數據做有放回採樣，用投票（分類）和平均值（迴歸）做集成；
Boosting：串行，使用帶樣本權重的樣本訓練弱學習器，更新下一輪的樣本權重（預測錯的樣本權重更高），採用對弱學習器加權（如LR）的方式做集成；
Stacking：並行，弱學習器j對訓練樣本i的預測結果作爲其特徵值j，從而得到新的訓練集和測試集，重新訓練(集成體現在特徵的重組上)。

3.簡單介紹一下bagging，常用bagging算法有哪些？

並行，對數據做有放回採樣，用投票（分類）和平均值（迴歸）做集成。

常用Bagging算法：隨機森林。

4.簡單介紹一下Boosting，常用Boosting算法有哪些？

串行，使用帶樣本權重的樣本訓練弱學習器，更新下一輪的樣本權重（預測錯的樣本權重更高）。

常用Boosting算法：AdaBoost、GBDT、XGBoost。

5.boosting思想的數學表達式是什麼？

對弱學習器加權。

6.簡單介紹一下stacking，常用stacking算法有哪些？

並行，弱學習器j對訓練樣本i的預測結果作爲其特徵值j，從而得到新的訓練集和測試集，重新訓練(集成體現在特徵的重組上)。
常用集成方式：弱學習器一般選KNN、隨機森林、樸素貝葉斯，使用邏輯迴歸做加權的集成。

7.你意識到你的模型受到低偏差和高方差問題的困擾，應該使用哪種算法來解決問題呢？爲什麼？

偏差指的是真實數據和預測之間的差距，方差指的是模型輸出和模型平均輸出的差距，描述了模型的穩定性。

低偏差、高方差即過擬合。

解決方法：

隨機森林，引入隨機屬性選擇對特徵採樣；
對模型參數做正則化處理，降低模型複雜度。

8.簡述一下隨機森林算法的原理

基學習器是決策樹，在Bagging的基礎上引入了隨機屬性選擇。

解釋隨機屬性選擇：傳統決策樹在屬性劃分時，在屬性全集(d個屬性)中選擇一個最優屬性；而RF在屬性全集中隨機選擇一個屬性子集(k個屬性)，再選擇一個最優屬性，從列採樣上引入了隨機性，推薦值k = log2d(k<d)。

9.隨機森林的隨機性體現在哪裏？

樣本上，隨機森林是Bagging的變體，Bagging對樣本做隨機有放回採樣；
特徵上，隨機森林引入隨機屬性選擇，在特徵選擇的時候隨機採樣特徵子集。

10.隨機森林爲什麼不容易過擬合？

引入樣本和特徵上的隨機性，使模型多樣性增加。

11.你已經建了一個有10000棵樹的隨機森林模型。在得到0.00的訓練誤差後，你非常高興。但是，驗證錯誤是34.23。到底是怎麼回事？你還沒有訓練好你的模型嗎？

過擬合。使用交叉驗證法。

12.如何使用隨機森林去彌補特徵向量中的缺失值

如果是離散型變量，用衆數填充；如果是連續型變量，用中位數填充。

13.如何使用隨機森林對特徵重要性進行評估？

參考博客：隨機森林 OOB理解、如何理解無偏估計、爲什麼樣本方差（sample variance）的分母是 n-1

對於袋外數據OOB理解

根據概率論,可知數據集中有大約1/3的數據是沒有被選取的(稱爲Out of bag),所以就是這沒被選取的部分作爲小樹的測試集。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

JVM內存N個問題的最全解析

推薦閱讀：爲了阿里巴巴的P7offer，我籌備了半年，四面之後終於成功拿下面試阿里（P8）竟被MySQL難倒，奮發圖強二次面試斬獲阿里offer 爲面阿里P8，我肝

2020-07-08 10:00:46

面試，JVM總掛？阿里架構大牛：爭氣點，“路”都給你指出來了

Java後端，三年經驗，剛面完一波大廠，明顯感覺要求跟往年不同，尤其是在JVM方面。往年面試，圍繞JVM的一般都以理論問題居多，譬如：畫圖解釋一下，一個對象在JVM中是如何分配，如何流轉的？什麼情況下JVM內存中的一個對象會被垃圾回

2020-07-08 10:00:46

想要職級到P7，啃完這946頁阿里P8面試官都說詳細的神仙文檔足矣

前言應廣大粉絲要求，網上太多資料不夠詳細，不夠全面，花了很多心思去收集，到頭來發現並不全面，於是出現了本文，筆者在GitHub上找了很久終於找到了三份最全的Java學習筆記，總頁數946頁！涵蓋知識：面試必問的：Java基礎、高併發

2020-07-08 10:00:46

太狠了,Spring全家桶筆記,一站式通關全攻略,已入職某廠漲薪18K

Spring 早已成爲 Java 後端開發事實上的行業標準，無數的公司選擇 Spring 作爲基礎的開發框架，大部分Java 後端程序員在日常工作中也會接觸到 Spring ，因此，如何用好 Spring ，也就成爲 Java

毛发旺盛的程序员

2020-07-08 12:27:20

微軟超級變態的面試題及答案

第一組　　1.燒一根不均勻的繩，從頭燒到尾總共需要1個小時。現在有若干條材質相同的繩子，問如何用燒繩的方法來計時一個小時十五分鐘呢? 　　2.你有一桶果凍，其中有黃色、綠色、紅色三種，閉上眼睛抓取同種顏色的兩個。抓取多少個就可以

2020-07-08 11:06:41

100個網絡基礎知識，看完成半個網絡高手

本文來自網絡，相關著作權歸原作者所有 1)什麼是鏈接? 鏈接是指兩個設備之間的連接。它包括用於一個設備能夠與另一個設備通信的電纜類型和協議。 2)OSI 參考模型的層次是什麼? 有 7 個 OSI 層：物理層，數據鏈路層，網絡層，傳

时光有伱记忆成花

2020-07-08 10:44:52

考研還是不考？

很多同學聽說過類似的傳言：現在找工作的時候大部分公司都要求碩士以上學歷，哪怕只要求本科學歷的門前也會有好多碩士生來求職，我們“小本”在他們面前沒有任何的自信，不讀研怎麼行。 “大部分公司都要求碩士以上學歷”這

2020-07-08 10:42:48

阿里十年大數據專家談“雲上數據中臺之道”含內部PP

前言從大數據的概念被正式提出，到馬雲老師預言人類正從IT時代走向DT時代，大數據浪潮迭起。大數據同仁共同認知的一點是，大數據會對社會創新、產業變革、業務創新及每個人的角色定位產生近乎決定性的影響。今天的阿里巴巴，幾乎所有業務都運行在大

2020-07-08 10:00:46

一起來看看那幾個SpringCloud常見卻又不會的面試題（含答案）

推薦閱讀：爲了阿里巴巴的P7offer，我籌備了半年，四面之後終於成功拿下面試阿里（P8）竟被MySQL難倒，奮發圖強二次面試斬獲阿里offer 爲面阿里P8，我肝

2020-07-08 10:00:46

做Java還不知道的MySQL常用函數，那你真得看看，建議收藏

概念：相當於java中的方法，將一組邏輯語句封裝在方法體中，對外暴露方法名隱藏了實現細節提高代碼的可重用性使用： select 函數名(實參列表)【from 表】【】中內容可省略正文：字符函數： length：獲取字節個數（

2020-07-08 10:00:46

RabbitMQ的可複用的事務消息全乾貨超實用案例

推薦閱讀：爲了阿里巴巴的P7offer，我籌備了半年，四面之後終於成功拿下面試阿里（P8）竟被MySQL難倒，奮發圖強二次面試斬獲阿里offer 爲面阿里P8，我肝

2020-07-08 10:00:46

就業與擇業

又是一年大學應廟生找工作時，遇上一個經濟危機，找個合適的工作不容易啊。今天在學校論壇上回復了一個“我們民大就業工作”帖子時，不小心說出了 “用人單位先選西大，後選民大，這是肯定的，西大怎麼說都是211 ”，還開玩笑地說了

2020-07-08 09:21:00

Android研發從小廠跳到大廠，我是如何拿到騰訊、頭條、美團、小米的Offer的？

作者：XiaolongTu 本文結構今年的Android開發的招聘市場如何Android開發面試的幾部分基礎知識重點項目經歷開放式設計思路技術以外的東西與面試官聊天的收穫1、大廠和小廠的選擇2、5年左右的開發的標準3、關於成長

2020-07-08 09:20:10

C++面試題之螺旋隊列

//螺旋隊列.cpp// 21 22 ... ...// 20 7 8 9 10// 19 6 1 2 11// 18 5 4 3 12// 17 16 15 14 13//看

2020-07-08 08:35:09

ReentrantReadWriteLock——讀寫鎖如何升級，爲何讀寫鎖不能插隊？

我們主要探討讀鎖應該插隊嗎?以及什麼是讀寫鎖的升降級。讀鎖插隊策略：首先，我們來看一下讀鎖的插隊策略，在這裏先快速回顧一下在 24 課時公平與非公平鎖中講到的 ReentrantLock，如果鎖被設置爲非公平，那麼它是可以在前

zhangkaixuan456

2020-07-08 07:49:43

24小時熱門文章

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

最新文章

最新評論文章