算法刷題（3）

原創

张楚岚

2019-02-10 17:54

問題一：對於線性迴歸，我們應該有以下哪些假設？

1. 找到離羣點很重要, 因爲線性迴歸對離羣點很敏感

2. 線性迴歸要求所有變量必須符合正態分佈

3. 線性迴歸假設數據沒有多重線性相關性

1 和 2

2 和 3

1,2 和 3

以上都不是

解析：

答案: D
第1個假設, 離羣點要着重考慮, 第一點是對的
第2個假設, 正態分佈不是必須的. 當然, 如果是正態分佈, 訓練效果會更好
第3個假設, 有少量的多重線性相關性也是可以的, 但是我們要儘量避免

問題二：下面對集成學習模型中的弱學習者描述錯誤的是？

他們經常不會過擬合

他們通常帶有高偏差，所以其並不能解決複雜學習問題

他們通常會過擬合

解析：

答案：C，弱學習者是問題的特定部分。所以他們通常不會過擬合，這也就意味着弱學習者通常擁有低方差和高偏差。

問題三：下面哪個/些選項對 K 折交叉驗證的描述是正確的？

1.增大 K 將導致交叉驗證結果時需要更多的時間

2.更大的 K 值相比於小 K 值將對交叉驗證結構有更高的信心

3.如果 K=N，那麼其稱爲留一交叉驗證，其中 N 爲驗證集中的樣本數量

1 和 2

2 和 3

1 和 3

1、2 和 3

解析：

答案（D)：大 K 值意味着對過高估計真實預期誤差（訓練的折數將更接近於整個驗證集樣本數）擁有更小的偏差和更多的運行時間（並隨着越來越接近極限情況：留一交叉驗證）。我們同樣在選擇 K 值時需要考慮 K 折準確度和方差間的均衡。

問題四：最出名的降維算法是 PCA 和 t-SNE。將這兩個算法分別應用到數據「X」上，並得到數據集「X_projected_PCA」，「X_projected_tSNE」。下面哪一項對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的？

X_projected_PCA 在最近鄰空間能得到解釋

X_projected_tSNE 在最近鄰空間能得到解釋

兩個都在最近鄰空間能得到解釋

兩個都不能在最近鄰空間得到解釋

解析：

答案（B）：t-SNE 算法考慮最近鄰點而減少數據維度。所以在使用 t-SNE 之後，所降的維可以在最近鄰空間得到解釋。但 PCA 不能。

PCA是一種線性算法。它不能解釋特徵之間的複雜多項式關係。主要利用皮爾遜相關係數對高維數組進行投影：參考；
t-SNE是基於在鄰域圖上隨機遊走的概率分佈，可以在數據中找到其結構關係，因此可以通過最近鄰聚類。：參考；

問題五：給定三個變量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關性係數分別爲 C1、C2 和 C3。現在 X 的所有值加 2（即 X+2），Y 的全部值減 2（即 Y-2），Z 保持不變。那麼運算之後的 (X, Y)、(Y, Z) 和 (X, Z) 相關性係數分別爲 D1、D2 和 D3。現在試問 D1、D2、D3 和 C1、C2、C3 之間的關係是什麼？

D1= C1, D2 < C2, D3 > C3

D1 = C1, D2 > C2, D3 > C3

D1 = C1, D2 > C2, D3 < C3

D1 = C1, D2 < C2, D3 < C3

D1 = C1, D2 = C2, D3 = C3

解析：

答案（E）：特徵之間的相關性係數不會因爲特徵加或減去一個數而改變。

問題六：爲了得到和 SVD 一樣的投射（projection），你需要在 PCA 中怎樣做？

將數據轉換成零均值

將數據轉換成零中位數

無法做到

解析：答案（A）：當數據有一個 0 均值向量時，PCA 有與 SVD 一樣的投射，否則在使用 SVD 之前，你必須將數據均值歸 0。

問題七：假設我們有一個數據集，在一個深度爲 6 的決策樹的幫助下，它可以使用 100% 的精確度被訓練。現在考慮一下兩點，並基於這兩點選擇正確的選項。注意：所有其他超參數是相同的，所有其他因子不受影響。

1.深度爲 4 時將有高偏差和低方差

2.深度爲 4 時將有低偏差和低方差

只有 1

只有 2

1 和 2

沒有一個

解析：答案（A)：如果在這樣的數據中你擬合深度爲 4 的決策樹，這意味着其更有可能與數據欠擬合。因此，在欠擬合的情況下，你將獲得高偏差和低方差。

To be continue......

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

算法刷題（3）

pytorch入門（一）深度學習入門及pytorch相關demo

量化小白成長記（一）：量化交易基礎

nlp paper：【第3篇】句和文檔的分佈式表示學習（Distributed Representations of Sentences and Documents)

Mongodb安裝及使用命令

nlp paper：【第2篇】基於神經網絡的詞向量（Efﬁcient Estimation of Word Representations in Vector Space）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結