【機器學習8問】

1、BoostingTree

什麼是提升樹(boostingTree)?
答:若干顆決策樹構成了一個弱分類器模型,並給予每一次分錯的樣本更大的權重。

2、GBDT

什麼是 GBDT,與提升樹有什麼關係? GBDT如何做迴歸問題?如何做分類問題?在迴歸問題中的loss函數如何定義?在分類問題中loss函數如何定義?爲什麼這麼定義loss函數?迴歸問題中,
用什麼loss函數去定義的,對於這個loss函數怎麼去優化?還有改進方法嗎?這個優化方式是用什麼框架去做的?調用了什麼函數?有哪一些重要參數去調整?

3、正則化

L1 , L2 正則化爲什麼可以減弱過擬合?L1、L2有什麼區別, 在sklearn和xgboost中是怎麼調用的?

4、KNN 和 邏輯迴歸有什麼本質的區別?

答:KNN 是線性的,Logistic Regression 是非線性的

5、隨機森林

爲什麼隨機森林具有特徵選擇的功能?隨機森林有哪些重要的參數,分別代表什麼含義,怎麼去調參?

答:隨機森林的特徵選擇目的是使模型具有更強的泛化性和魯棒性。
隨機森林中的重要參數主要有:
max_depth,控制樹的深度,一般深度不超過 int(log2(n))+1,其中n爲 n_features(特徵數量),在進行特徵選擇後,深度會小於這個值。當特徵規模很大時,給定 max_depth,可以防止模型過擬合。
n_features:進行特徵選擇,根據數據規模進行參數調整。當 dataset 中有大量的無關 features,可以視這些 features 爲噪聲,那麼可以對每一批數據取適量特徵,可以提高模型的泛化性。

6、過擬合

怎麼判斷一個項目過擬合?如果過擬合怎麼處理?
答:當模型在 training set 中對擬合結果的正確率趨近於100%,而在不同的 testing set 中反應的正確率很低,則確定爲過擬合。

7、優化算法

詳細的說一個你特別瞭解的優化算法。另外還有哪些優化算法,1階優化算法有哪些?2階優化算法有哪些?他們之間有哪些聯繫關係?

答:

8、樣本不均衡

如何解決樣本不均衡的問題,在所有的算法裏面,哪一種算法對於樣本不均衡的問題可以忽略掉?

9、調用python API,調換一個三維或四維數據的維度順序。

.transform

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章