問題一:對於線性迴歸,我們應該有以下哪些假設?
1. 找到離羣點很重要, 因爲線性迴歸對離羣點很敏感
2. 線性迴歸要求所有變量必須符合正態分佈
3. 線性迴歸假設數據沒有多重線性相關性
A
1 和 2
B
2 和 3
C
1,2 和 3
D
以上都不是
解析:
答案: D 第1個假設, 離羣點要着重考慮, 第一點是對的 第2個假設, 正態分佈不是必須的. 當然, 如果是正態分佈, 訓練效果會更好 第3個假設, 有少量的多重線性相關性也是可以的, 但是我們要儘量避免
問題二:下面對集成學習模型中的弱學習者描述錯誤的是?
A
他們經常不會過擬合
B
他們通常帶有高偏差,所以其並不能解決複雜學習問題
C
他們通常會過擬合
解析:
答案:C,弱學習者是問題的特定部分。所以他們通常不會過擬合,這也就意味着弱學習者通常擁有低方差和高偏差。
問題三:下面哪個/些選項對 K 折交叉驗證的描述是正確的?
1.增大 K 將導致交叉驗證結果時需要更多的時間
2.更大的 K 值相比於小 K 值將對交叉驗證結構有更高的信心
3.如果 K=N,那麼其稱爲留一交叉驗證,其中 N 爲驗證集中的樣本數量
A
1 和 2
B
2 和 3
C
1 和 3
D
1、2 和 3
解析:
答案(D):大 K 值意味着對過高估計真實預期誤差(訓練的折數將更接近於整個驗證集樣本數)擁有更小的偏差和更多的運行時間(並隨着越來越接近極限情況:留一交叉驗證)。我們同樣在選擇 K 值時需要考慮 K 折準確度和方差間的均衡。
問題四:最出名的降維算法是 PCA 和 t-SNE。將這兩個算法分別應用到數據「X」上,並得到數據集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?
A
X_projected_PCA 在最近鄰空間能得到解釋
B
X_projected_tSNE 在最近鄰空間能得到解釋
C
兩個都在最近鄰空間能得到解釋
D
兩個都不能在最近鄰空間得到解釋
解析:
答案(B):t-SNE 算法考慮最近鄰點而減少數據維度。所以在使用 t-SNE 之後,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。
- PCA是一種線性算法。 它不能解釋特徵之間的複雜多項式關係。主要利用皮爾遜相關係數對高維數組進行投影:參考;
- t-SNE是基於在鄰域圖上隨機遊走的概率分佈,可以在數據中找到其結構關係,因此可以通過最近鄰聚類。:參考;
問題五:給定三個變量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關性係數分別爲 C1、C2 和 C3。現在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那麼運算之後的 (X, Y)、(Y, Z) 和 (X, Z) 相關性係數分別爲 D1、D2 和 D3。現在試問 D1、D2、D3 和 C1、C2、C3 之間的關係是什麼?
A
D1= C1, D2 < C2, D3 > C3
B
D1 = C1, D2 > C2, D3 > C3
C
D1 = C1, D2 > C2, D3 < C3
D
D1 = C1, D2 < C2, D3 < C3
E
D1 = C1, D2 = C2, D3 = C3
解析:
答案(E):特徵之間的相關性係數不會因爲特徵加或減去一個數而改變。
問題六:爲了得到和 SVD 一樣的投射(projection),你需要在 PCA 中怎樣做?
A
將數據轉換成零均值
B
將數據轉換成零中位數
C
無法做到
解析:答案(A):當數據有一個 0 均值向量時,PCA 有與 SVD 一樣的投射,否則在使用 SVD 之前,你必須將數據均值歸 0。
問題七:假設我們有一個數據集,在一個深度爲 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓練。現在考慮一下兩點,並基於這兩點選擇正確的選項。 注意:所有其他超參數是相同的,所有其他因子不受影響。
1.深度爲 4 時將有高偏差和低方差
2.深度爲 4 時將有低偏差和低方差
A
只有 1
B
只有 2
C
1 和 2
D
沒有一個
解析:答案(A):如果在這樣的數據中你擬合深度爲 4 的決策樹,這意味着其更有可能與數據欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。
To be continue......