算法刷題(2)

題目一:

對應GradientBoosting tree算法, 以下說法正確的是:
1. 當增加最小樣本分裂個數,我們可以抵制過擬合
2. 當增加最小樣本分裂個數,會導致過擬合
3. 當我們減少訓練單個學習器的樣本個數,我們可以降低variance
4. 當我們減少訓練單個學習器的樣本個數,我們可以降低bias
A
2 和 4
B
2 和 3
C
1 和 3
D
1 和 4

解析:答案: C
最小樣本分裂個數是用來控制“過擬合”參數。太高的值會導致“欠擬合”,這個參數應該用交叉驗證來調節。

偏差:這裏的偏指的是 偏離 , 那麼它偏離了什麼到導致了誤差? 潛意識上, 當談到這個詞時, 我們可能會認爲它是偏離了某個潛在的 “標準”, 而這裏這個 “標準” 也就是真實情況 (ground truth). 在分類任務中, 這個 “標準” 就是真實標籤 (label).

方差:一個隨機變量的方差描述的是它的離散程度, 也就是該隨機變量在其期望值附近的 波動程度 . 

 

題目二:

以下哪個圖是KNN算法的訓練邊界

A

B

B

A

C

D

D

C

E

都不是

解析:答案: B

KNN算法肯定不是線性的邊界, 所以直的邊界就不用考慮了。另外這個算法是看周圍最近的k個樣本的分類用以確定分類,所以邊界一定是坑坑窪窪的。

 

題目三:

變量選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應該做哪些變量選擇的考慮?
1. 多個變量其實有相同的用處
2. 變量對於模型的解釋有多大作用
3. 特徵攜帶的信息
4. 交叉驗證

A

1 和 4

B

1, 2 和 3

C

1,3 和 4

D

以上所有

解析:答案: C

注意, 這題的題眼是考慮模型效率,所以不要考慮選項2.

 

題目四:

對於線性迴歸模型,包括附加變量在內,以下的可能正確的是 :
1. R-Squared 和 Adjusted R-squared都是遞增的
2. R-Squared 是常量的,Adjusted R-squared是遞增的
3. R-Squared 是遞減的, Adjusted R-squared 也是遞減的
4. R-Squared 是遞減的, Adjusted R-squared是遞增的

A

1 和 2

B

1 和 3

C

2 和 4

D

以上都不是

解析:答案: D

R-squared不能決定係數估計和預測偏差,這就是爲什麼我們要估計殘差圖。但是,R-squared有R-squared 和 predicted R-squared 所沒有的問題。 每次你爲模型加入預測器,R-squared遞增或不變.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章