【機器學習8問】

原創

2020-07-04 01:43

1、BoostingTree

什麼是提升樹（boostingTree）？
答：若干顆決策樹構成了一個弱分類器模型，並給予每一次分錯的樣本更大的權重。

2、GBDT

什麼是 GBDT，與提升樹有什麼關係？ GBDT如何做迴歸問題？如何做分類問題？在迴歸問題中的loss函數如何定義？在分類問題中loss函數如何定義？爲什麼這麼定義loss函數？迴歸問題中，
用什麼loss函數去定義的，對於這個loss函數怎麼去優化？還有改進方法嗎？這個優化方式是用什麼框架去做的？調用了什麼函數？有哪一些重要參數去調整？

3、正則化

L1 ， L2 正則化爲什麼可以減弱過擬合？L1、L2有什麼區別，在sklearn和xgboost中是怎麼調用的？

4、KNN 和邏輯迴歸有什麼本質的區別？

答：KNN 是線性的，Logistic Regression 是非線性的

5、隨機森林

爲什麼隨機森林具有特徵選擇的功能？隨機森林有哪些重要的參數，分別代表什麼含義，怎麼去調參？

答：隨機森林的特徵選擇目的是使模型具有更強的泛化性和魯棒性。
隨機森林中的重要參數主要有：
max_depth，控制樹的深度，一般深度不超過 int(log2(n))+1，其中n爲 n_features（特徵數量），在進行特徵選擇後，深度會小於這個值。當特徵規模很大時，給定 max_depth，可以防止模型過擬合。
n_features：進行特徵選擇，根據數據規模進行參數調整。當 dataset 中有大量的無關 features，可以視這些 features 爲噪聲，那麼可以對每一批數據取適量特徵，可以提高模型的泛化性。

6、過擬合

怎麼判斷一個項目過擬合？如果過擬合怎麼處理？
答：當模型在 training set 中對擬合結果的正確率趨近於100%，而在不同的 testing set 中反應的正確率很低，則確定爲過擬合。

7、優化算法

詳細的說一個你特別瞭解的優化算法。另外還有哪些優化算法，1階優化算法有哪些？2階優化算法有哪些？他們之間有哪些聯繫關係？

答：

8、樣本不均衡

如何解決樣本不均衡的問題，在所有的算法裏面，哪一種算法對於樣本不均衡的問題可以忽略掉？

9、調用python API，調換一個三維或四維數據的維度順序。

.transform

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【機器學習8問】

1、BoostingTree

2、GBDT

3、正則化

4、KNN 和邏輯迴歸有什麼本質的區別？

5、隨機森林

6、過擬合

7、優化算法

8、樣本不均衡

9、調用python API，調換一個三維或四維數據的維度順序。

【機器學習 3】KNN算法實現梳理- Be based on“約會對象”、“手寫識別”

【機器學習8問】

【IDEA異常】【MAC】Expecting: /Applications/IntelliJ IDEA.app/Contents/jdk/Contents/Home but was: ……

【從零開始學習Tensorflow】（三）第5章 MNIST數字識別問題

Kafka Consumer 執行 poll 操作時獲取空數據的原因分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【機器學習8問】

1、BoostingTree

2、GBDT

3、正則化

4、KNN 和 邏輯迴歸有什麼本質的區別？

5、隨機森林

6、過擬合

7、優化算法

8、樣本不均衡

9、調用python API，調換一個三維或四維數據的維度順序。

4、KNN 和邏輯迴歸有什麼本質的區別？