題目一:
對應GradientBoosting tree算法, 以下說法正確的是:
1. 當增加最小樣本分裂個數,我們可以抵制過擬合
2. 當增加最小樣本分裂個數,會導致過擬合
3. 當我們減少訓練單個學習器的樣本個數,我們可以降低variance
4. 當我們減少訓練單個學習器的樣本個數,我們可以降低bias
A
2 和 4
B
2 和 3
C
1 和 3
D
1 和 4
解析:答案: C
最小樣本分裂個數是用來控制“過擬合”參數。太高的值會導致“欠擬合”,這個參數應該用交叉驗證來調節。
偏差:這裏的偏指的是 偏離 , 那麼它偏離了什麼到導致了誤差? 潛意識上, 當談到這個詞時, 我們可能會認爲它是偏離了某個潛在的 “標準”, 而這裏這個 “標準” 也就是真實情況 (ground truth). 在分類任務中, 這個 “標準” 就是真實標籤 (label).
方差:一個隨機變量的方差描述的是它的離散程度, 也就是該隨機變量在其期望值附近的 波動程度 .
題目二:
以下哪個圖是KNN算法的訓練邊界
A
B
B
A
C
D
D
C
E
都不是
解析:答案: B
KNN算法肯定不是線性的邊界, 所以直的邊界就不用考慮了。另外這個算法是看周圍最近的k個樣本的分類用以確定分類,所以邊界一定是坑坑窪窪的。
題目三:
變量選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應該做哪些變量選擇的考慮? 1. 多個變量其實有相同的用處 2. 變量對於模型的解釋有多大作用 3. 特徵攜帶的信息 4. 交叉驗證
A
1 和 4
B
1, 2 和 3
C
1,3 和 4
D
以上所有
解析:答案: C
注意, 這題的題眼是考慮模型效率,所以不要考慮選項2.
題目四:
對於線性迴歸模型,包括附加變量在內,以下的可能正確的是 : 1. R-Squared 和 Adjusted R-squared都是遞增的 2. R-Squared 是常量的,Adjusted R-squared是遞增的 3. R-Squared 是遞減的, Adjusted R-squared 也是遞減的 4. R-Squared 是遞減的, Adjusted R-squared是遞增的
A
1 和 2
B
1 和 3
C
2 和 4
D
以上都不是
解析:答案: D
R-squared不能決定係數估計和預測偏差,這就是爲什麼我們要估計殘差圖。但是,R-squared有R-squared 和 predicted R-squared 所沒有的問題。 每次你爲模型加入預測器,R-squared遞增或不變.