数据分析和挖掘试题

题型	题干	正确答案	A	B	C	D
单选题	评估完模型之后，发现模型存在高偏差（high bias），应该如何解决	B	减少模型的特征数量	增加模型的特征数量	增加样本数量	以上说法都正确
单选题	下面哪句话是正确的？	C	机器学习模型的精准度越高，则模型的性能越好	增加模型的复杂度，总能减小测试样本误差	增加模型的复杂度，总能减小训练样本误差	以上说法都不对
单选题	如果使用线性回归模型，下列说法正确的是？	A	检查异常值是很重要的，因为线性回归对离群效应很敏感	线性回归分析要求所有变量特征都必须具有正态分布	线性回归假设数据中基本没有多重共线性	以上说法都不对
单选题	关于 L1、L2 正则化下列说法正确的是	C	L2 正则化能防止过拟合，提升模型的泛化能力，但 L1 做不到这点	L2 正则化技术又称为 Lasso Regularization	L1 正则化得到的解更加稀疏	L2 正则化得到的解更加稀疏
单选题	为了观察测试 Y 与 X 之间的线性关系，X 是连续变量，使用下列哪种图形比较适合	A	散点图	柱形图	直方图	以上都不对
单选题	下列正则表达式中，（）用于匹配除换行符外的任意字符	A	.	^	$	?
单选题	找到a的最大值b的程序语句是（）,其中a=np.random.random(30)	A	b = a.max()	b = a.min()	b = a.sum()	b = a.mean()
填空题	向量 X=[1,2,3,4,-9,0] 的 L1 范数为	A	19
填空题	有 N 个样本，一般用于训练，一般用于测试。若增大 N 值，则训练误差和测试误差之间的差距会	A	减小
填空题	导入numpy库并简写为 np的代码是	A	import numpy as np
填空题	是将所有数据归一到均值为0方差为1的分布中	A	均值方差归一化
填空题	PCA用来衡量样本间的间距	A	方差
填空题	的功能是查看DataFrame变量df前10行内容	A	df.head(10)
填空题	___ ____的功能是创建一个长度为10，数值为0的一维numpy数组 a	A	a = np.zeros(10)
填空题	Python的正则表达式模块名称为	A	Re
填空题	Pandas包含的两种主要数据类型是和	AB	Series	DataFrame
填空题	precision=	A	TP/(FP+TP)
填空题	recall=	A	TP/(FN+TP)
填空题	F1=	A	2PrecisionRecall / (Precision + Recall)
判断题	np.random.randint(5,size=(2,3))的功能是生成 2x3 数组，其中元素是0-5之间的随机整数。	A	正确	错误
判断题	arr[0:3,4]表示获取第0，1，2行第4列的元素	A	正确	错误
判断题	pandas中，df.to_csv(filename) 表示从filename中读取数据	B	正确	错误
判断题	pandas中，df1.dropna(how='any') 表示去掉包含缺失值的行	A	正确	错误
判断题	回归和分类都是有监督学习问题	A	正确	错误
判断题	有监督学习是从标签化训练数据集中推断出函数的机器学习任务	A	正确	错误
判断题	在回归问题中，标签是连续值；在分类问题中，标签是离散值。	A	正确	错误
判断题	如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率，这意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率	B	正确	错误
判断题	当目标函数是凸函数时，梯度下降算法的解一般就是全局最优解	B	正确	错误
单选题	欠拟合的原因是	A	模型复杂度过低，不能很好的拟合所有的数据，训练误差大	增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等	模型复杂度过高，训练数据过少，训练误差小，测试误差大	降低模型复杂度，如加上正则惩罚项，如L1，L2，增加训练数据等
单选题	过拟合的原因是	C	模型复杂度过低，不能很好的拟合所有的数据，训练误差大	增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等	模型复杂度过高，训练数据过少，训练误差小，测试误差大	降低模型复杂度，如加上正则惩罚项，如L1，L3，增加训练数据等
单选题	避免欠拟合的方法是	B	模型复杂度过低，不能很好的拟合所有的数据，训练误差大	增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等	模型复杂度过高，训练数据过少，训练误差小，测试误差大	降低模型复杂度，如加上正则惩罚项，如L1，L4，增加训练数据等
单选题	避免过拟合的方法是	D	模型复杂度过低，不能很好的拟合所有的数据，训练误差大	增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等	模型复杂度过高，训练数据过少，训练误差小，测试误差大	降低模型复杂度，如加上正则惩罚项，如L1，L5，增加训练数据等
判断题	对回归问题和分类问题的评价最常用的指标都是准确率和召回率	A	正确	错误

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

数据分析和挖掘试题

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

數據的分析基本知識2

數據分析和挖掘試題

數據結構之概念與線性表

Java的常考問題

數據挖掘基本知識1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結