算法刷題(3)

問題一:對於線性迴歸,我們應該有以下哪些假設?

1. 找到離羣點很重要, 因爲線性迴歸對離羣點很敏感

2. 線性迴歸要求所有變量必須符合正態分佈

3. 線性迴歸假設數據沒有多重線性相關性

A

1 和 2

B

2 和 3

C

1,2 和 3

D

以上都不是

解析:

答案: D
第1個假設, 離羣點要着重考慮, 第一點是對的
第2個假設, 正態分佈不是必須的. 當然, 如果是正態分佈, 訓練效果會更好
第3個假設, 有少量的多重線性相關性也是可以的, 但是我們要儘量避免

問題二:下面對集成學習模型中的弱學習者描述錯誤的是?

A

他們經常不會過擬合

B

他們通常帶有高偏差,所以其並不能解決複雜學習問題

C

他們通常會過擬合

解析:

答案:C,弱學習者是問題的特定部分。所以他們通常不會過擬合,這也就意味着弱學習者通常擁有低方差和高偏差

問題三:下面哪個/些選項對 K 折交叉驗證的描述是正確的?

1.增大 K 將導致交叉驗證結果時需要更多的時間

2.更大的 K 值相比於小 K 值將對交叉驗證結構有更高的信心

3.如果 K=N,那麼其稱爲留一交叉驗證,其中 N 爲驗證集中的樣本數量

A

1 和 2

B

2 和 3

C

1 和 3

D

1、2 和 3

解析:

答案(D):大 K 值意味着對過高估計真實預期誤差(訓練的折數將更接近於整個驗證集樣本數)擁有更小的偏差和更多的運行時間(並隨着越來越接近極限情況:留一交叉驗證)。我們同樣在選擇 K 值時需要考慮 K 折準確度和方差間的均衡。

問題四:最出名的降維算法是 PCA 和 t-SNE。將這兩個算法分別應用到數據「X」上,並得到數據集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?

A

X_projected_PCA 在最近鄰空間能得到解釋

B

X_projected_tSNE 在最近鄰空間能得到解釋

C

兩個都在最近鄰空間能得到解釋

D

兩個都不能在最近鄰空間得到解釋

解析:

答案(B):t-SNE 算法考慮最近鄰點而減少數據維度。所以在使用 t-SNE 之後,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。

  • PCA是一種線性算法。 它不能解釋特徵之間的複雜多項式關係。主要利用皮爾遜相關係數對高維數組進行投影:參考
  • t-SNE是基於在鄰域圖上隨機遊走的概率分佈,可以在數據中找到其結構關係,因此可以通過最近鄰聚類。:參考

問題五:給定三個變量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關性係數分別爲 C1、C2 和 C3。現在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那麼運算之後的 (X, Y)、(Y, Z) 和 (X, Z) 相關性係數分別爲 D1、D2 和 D3。現在試問 D1、D2、D3 和 C1、C2、C3 之間的關係是什麼?

A

D1= C1, D2 < C2, D3 > C3

B

D1 = C1, D2 > C2, D3 > C3

C

D1 = C1, D2 > C2, D3 < C3

D

D1 = C1, D2 < C2, D3 < C3

E

D1 = C1, D2 = C2, D3 = C3

解析:

答案(E):特徵之間的相關性係數不會因爲特徵加或減去一個數而改變。

問題六:爲了得到和 SVD 一樣的投射(projection),你需要在 PCA 中怎樣做?

A

將數據轉換成零均值

B

將數據轉換成零中位數

C

無法做到

解析:答案(A):當數據有一個 0 均值向量時,PCA 有與 SVD 一樣的投射,否則在使用 SVD 之前,你必須將數據均值歸 0。

問題七:假設我們有一個數據集,在一個深度爲 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓練。現在考慮一下兩點,並基於這兩點選擇正確的選項。 注意:所有其他超參數是相同的,所有其他因子不受影響。

1.深度爲 4 時將有高偏差和低方差

2.深度爲 4 時將有低偏差和低方差

A

只有 1

B

只有 2

C

1 和 2

D

沒有一個

解析:答案(A):如果在這樣的數據中你擬合深度爲 4 的決策樹,這意味着其更有可能與數據欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。


To be continue......

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章