算法刷題（2）

原創

2019-02-08 13:08

題目一：

對應GradientBoosting tree算法，以下說法正確的是:
1. 當增加最小樣本分裂個數，我們可以抵制過擬合
2. 當增加最小樣本分裂個數，會導致過擬合
3. 當我們減少訓練單個學習器的樣本個數，我們可以降低variance
4. 當我們減少訓練單個學習器的樣本個數，我們可以降低bias
A
2 和 4
B
2 和 3
C
1 和 3
D
1 和 4

解析：答案: C
最小樣本分裂個數是用來控制“過擬合”參數。太高的值會導致“欠擬合”，這個參數應該用交叉驗證來調節。

偏差：這裏的偏指的是偏離 , 那麼它偏離了什麼到導致了誤差? 潛意識上, 當談到這個詞時, 我們可能會認爲它是偏離了某個潛在的 “標準”, 而這裏這個 “標準” 也就是真實情況 (ground truth). 在分類任務中, 這個 “標準” 就是真實標籤 (label).

方差：一個隨機變量的方差描述的是它的離散程度, 也就是該隨機變量在其期望值附近的波動程度 .

題目二：

以下哪個圖是KNN算法的訓練邊界

都不是

解析：答案: B

KNN算法肯定不是線性的邊界，所以直的邊界就不用考慮了。另外這個算法是看周圍最近的k個樣本的分類用以確定分類，所以邊界一定是坑坑窪窪的。

題目三：

變量選擇是用來選擇最好的判別器子集， 如果要考慮模型效率，我們應該做哪些變量選擇的考慮？
1. 多個變量其實有相同的用處
2. 變量對於模型的解釋有多大作用
3. 特徵攜帶的信息
4. 交叉驗證

1 和 4

1, 2 和 3

1,3 和 4

以上所有

解析：答案: C

注意，這題的題眼是考慮模型效率，所以不要考慮選項2.

題目四：

對於線性迴歸模型，包括附加變量在內，以下的可能正確的是 :
1. R-Squared 和 Adjusted R-squared都是遞增的
2. R-Squared 是常量的，Adjusted R-squared是遞增的
3. R-Squared 是遞減的， Adjusted R-squared 也是遞減的
4. R-Squared 是遞減的， Adjusted R-squared是遞增的

1 和 2

1 和 3

2 和 4

以上都不是

解析：答案: D

R-squared不能決定係數估計和預測偏差，這就是爲什麼我們要估計殘差圖。但是，R-squared有R-squared 和 predicted R-squared 所沒有的問題。每次你爲模型加入預測器，R-squared遞增或不變.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

算法刷題（2）

pytorch入門（一）深度學習入門及pytorch相關demo

量化小白成長記（一）：量化交易基礎

nlp paper：【第3篇】句和文檔的分佈式表示學習（Distributed Representations of Sentences and Documents)

Mongodb安裝及使用命令

nlp paper：【第2篇】基於神經網絡的詞向量（Efﬁcient Estimation of Word Representations in Vector Space）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結