數據分析和挖掘試題

題型

題幹

正確答案

A

B

C

D

單選題

評估完模型之後,發現模型存在高偏差(high bias),應該如何解決

B

減少模型的特徵數量

增加模型的特徵數量

增加樣本數量

以上說法都正確

單選題

下面哪句話是正確的?

C

機器學習模型的精準度越高,則模型的性能越好

增加模型的複雜度,總能減小測試樣本誤差

增加模型的複雜度,總能減小訓練樣本誤差

以上說法都不對

單選題

如果使用線性迴歸模型,下列說法正確的是?

A

檢查異常值是很重要的,因爲線性迴歸對離羣效應很敏感

線性迴歸分析要求所有變量特徵都必須具有正態分佈

線性迴歸假設數據中基本沒有多重共線性

以上說法都不對

單選題

關於 L1、L2 正則化下列說法正確的是

C

L2 正則化能防止過擬合,提升模型的泛化能力,但 L1 做不到這點

L2 正則化技術又稱爲 Lasso Regularization

L1 正則化得到的解更加稀疏

L2 正則化得到的解更加稀疏

單選題

爲了觀察測試 Y 與 X 之間的線性關係,X 是連續變量,使用下列哪種圖形比較適合

A

散點圖

柱形圖

直方圖

以上都不對

單選題

下列正則表達式中,()用於匹配除換行符外的任意字符

A

.

^

$

?

單選題

找到a的最大值b的程序語句是(      ),其中a=np.random.random(30)

A

b = a.max()

b = a.min()

b = a.sum()

b = a.mean()

填空題

向量 X=[1,2,3,4,-9,0] 的 L1 範數爲

A

19

 

 

 

填空題

有 N 個樣本,一般用於訓練,一般用於測試。若增大 N 值,則訓練誤差和測試誤差之間的差距會

A

減小

 

 

 

填空題

導入numpy庫並簡寫爲 np的代碼是

A

import numpy as np

 

 

 

填空題

是將所有數據歸一到均值爲0方差爲1的分佈中

A

均值方差歸一化

 

 

 

填空題

PCA                             來衡量樣本間的間距

A

方差

 

 

 

填空題

的功能是查看DataFrame變量df前10行內容

A

df.head(10)

 

 

 

填空題

___               ____的功能是創建一個長度爲10,數值爲0的一維numpy數組 a

A

a = np.zeros(10)

 

 

 

填空題

Python的正則表達式模塊名稱爲

A

Re

 

 

 

填空題

Pandas包含的兩種主要數據類型是               

AB

Series

DataFrame

 

 

填空題

precision=

A

TP/(FP+TP)

 

 

 

填空題

recall=

A

TP/(FN+TP)

 

 

 

填空題

F1=

A

2*Precision*Recall / (Precision + Recall)

 

 

 

判斷題

np.random.randint(5,size=(2,3))的功能是生成 2x3 數組,其中元素是0-5之間的隨機整數。

A

正確

錯誤

 

 

判斷題

arr[0:3,4]表示獲取第0,1,2行第4列的元素

A

正確

錯誤

 

 

判斷題

pandas中,df.to_csv(filename) 表示從filename中讀取數據

B

正確

錯誤

 

 

判斷題

pandas中,df1.dropna(how='any') 表示去掉包含缺失值的行

A

正確

錯誤

 

 

判斷題

迴歸和分類都是有監督學習問題

A

正確

錯誤

 

 

判斷題

有監督學習是從標籤化訓練數據集中推斷出函數的機器學習任務

A

正確

錯誤

 

 

判斷題

在迴歸問題中,標籤是連續值;在分類問題中,標籤是離散值。

A

正確

錯誤

 

 

判斷題

如果一個經過訓練的機器學習模型在測試集上達到 100% 的準確率,這意味着該模型將在另外一個新的測試集上也能得到 100% 的準確率

B

正確

錯誤

 

 

判斷題

當目標函數是凸函數時,梯度下降算法的解一般就是全局最優解

B

正確

錯誤

 

 

單選題

欠擬合的原因是

A

模型複雜度過低,不能很好的擬合所有的數據,訓練誤差大

增加模型複雜度,如採用高階模型(預測)或者引入更多特徵(分類)等

模型複雜度過高,訓練數據過少,訓練誤差小,測試誤差大

降低模型複雜度,如加上正則懲罰項,如L1,L2,增加訓練數據等

單選題

過擬合的原因是

C

模型複雜度過低,不能很好的擬合所有的數據,訓練誤差大

增加模型複雜度,如採用高階模型(預測)或者引入更多特徵(分類)等

模型複雜度過高,訓練數據過少,訓練誤差小,測試誤差大

降低模型複雜度,如加上正則懲罰項,如L1,L3,增加訓練數據等

單選題

避免欠擬合的方法是

B

模型複雜度過低,不能很好的擬合所有的數據,訓練誤差大

增加模型複雜度,如採用高階模型(預測)或者引入更多特徵(分類)等

模型複雜度過高,訓練數據過少,訓練誤差小,測試誤差大

降低模型複雜度,如加上正則懲罰項,如L1,L4,增加訓練數據等

單選題

避免過擬合的方法是

D

模型複雜度過低,不能很好的擬合所有的數據,訓練誤差大

增加模型複雜度,如採用高階模型(預測)或者引入更多特徵(分類)等

模型複雜度過高,訓練數據過少,訓練誤差小,測試誤差大

降低模型複雜度,如加上正則懲罰項,如L1,L5,增加訓練數據等

判斷題

對迴歸問題和分類問題的評價最常用的指標都是準確率和召回率

A

正確

錯誤

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章