数据分析和挖掘试题

题型

题干

正确答案

A

B

C

D

单选题

评估完模型之后,发现模型存在高偏差(high bias),应该如何解决

B

减少模型的特征数量

增加模型的特征数量

增加样本数量

以上说法都正确

单选题

下面哪句话是正确的?

C

机器学习模型的精准度越高,则模型的性能越好

增加模型的复杂度,总能减小测试样本误差

增加模型的复杂度,总能减小训练样本误差

以上说法都不对

单选题

如果使用线性回归模型,下列说法正确的是?

A

检查异常值是很重要的,因为线性回归对离群效应很敏感

线性回归分析要求所有变量特征都必须具有正态分布

线性回归假设数据中基本没有多重共线性

以上说法都不对

单选题

关于 L1、L2 正则化下列说法正确的是

C

L2 正则化能防止过拟合,提升模型的泛化能力,但 L1 做不到这点

L2 正则化技术又称为 Lasso Regularization

L1 正则化得到的解更加稀疏

L2 正则化得到的解更加稀疏

单选题

为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合

A

散点图

柱形图

直方图

以上都不对

单选题

下列正则表达式中,()用于匹配除换行符外的任意字符

A

.

^

$

?

单选题

找到a的最大值b的程序语句是(      ),其中a=np.random.random(30)

A

b = a.max()

b = a.min()

b = a.sum()

b = a.mean()

填空题

向量 X=[1,2,3,4,-9,0] 的 L1 范数为

A

19

 

 

 

填空题

有 N 个样本,一般用于训练,一般用于测试。若增大 N 值,则训练误差和测试误差之间的差距会

A

减小

 

 

 

填空题

导入numpy库并简写为 np的代码是

A

import numpy as np

 

 

 

填空题

是将所有数据归一到均值为0方差为1的分布中

A

均值方差归一化

 

 

 

填空题

PCA                             来衡量样本间的间距

A

方差

 

 

 

填空题

的功能是查看DataFrame变量df前10行内容

A

df.head(10)

 

 

 

填空题

___               ____的功能是创建一个长度为10,数值为0的一维numpy数组 a

A

a = np.zeros(10)

 

 

 

填空题

Python的正则表达式模块名称为

A

Re

 

 

 

填空题

Pandas包含的两种主要数据类型是               

AB

Series

DataFrame

 

 

填空题

precision=

A

TP/(FP+TP)

 

 

 

填空题

recall=

A

TP/(FN+TP)

 

 

 

填空题

F1=

A

2*Precision*Recall / (Precision + Recall)

 

 

 

判断题

np.random.randint(5,size=(2,3))的功能是生成 2x3 数组,其中元素是0-5之间的随机整数。

A

正确

错误

 

 

判断题

arr[0:3,4]表示获取第0,1,2行第4列的元素

A

正确

错误

 

 

判断题

pandas中,df.to_csv(filename) 表示从filename中读取数据

B

正确

错误

 

 

判断题

pandas中,df1.dropna(how='any') 表示去掉包含缺失值的行

A

正确

错误

 

 

判断题

回归和分类都是有监督学习问题

A

正确

错误

 

 

判断题

有监督学习是从标签化训练数据集中推断出函数的机器学习任务

A

正确

错误

 

 

判断题

在回归问题中,标签是连续值;在分类问题中,标签是离散值。

A

正确

错误

 

 

判断题

如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率

B

正确

错误

 

 

判断题

当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解

B

正确

错误

 

 

单选题

欠拟合的原因是

A

模型复杂度过低,不能很好的拟合所有的数据,训练误差大

增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等

模型复杂度过高,训练数据过少,训练误差小,测试误差大

降低模型复杂度,如加上正则惩罚项,如L1,L2,增加训练数据等

单选题

过拟合的原因是

C

模型复杂度过低,不能很好的拟合所有的数据,训练误差大

增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等

模型复杂度过高,训练数据过少,训练误差小,测试误差大

降低模型复杂度,如加上正则惩罚项,如L1,L3,增加训练数据等

单选题

避免欠拟合的方法是

B

模型复杂度过低,不能很好的拟合所有的数据,训练误差大

增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等

模型复杂度过高,训练数据过少,训练误差小,测试误差大

降低模型复杂度,如加上正则惩罚项,如L1,L4,增加训练数据等

单选题

避免过拟合的方法是

D

模型复杂度过低,不能很好的拟合所有的数据,训练误差大

增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等

模型复杂度过高,训练数据过少,训练误差小,测试误差大

降低模型复杂度,如加上正则惩罚项,如L1,L5,增加训练数据等

判断题

对回归问题和分类问题的评价最常用的指标都是准确率和召回率

A

正确

错误

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章