(ISLR)关于统计学习面试可能会问到的知识点

1.什么是统计学习
统计学习是基于数据构建概率模型,并运用模型对数据进行预测与分析。

2.衡量预测函数在何种程度接近观测值,用均方误差MSE

3.如何估计f
分为两类方法:参数方法 和 非参数方法。
参数方法: 一般用在回归问题
先 对函数f的形式事先做明确的假设,并选择模型,最常用的是参数模型;
再 用最小二乘法 拟合参数
非参数法: 一般用在分类问题
相较于参数法,需要较多的观测数据

4.欠拟合与过拟合:
欠拟合:
原因:模型过于简单,例如对于非线性的数据,用线性的模型去拟合。
结论:欠拟合对训练数据及测试数据的拟合度都不高

过拟合:
原因:模型过于复杂,拟合了错误或噪声
结论:过拟合对训练数据拟合度较高,测试数据拟合度较低

5.偏差与方差权衡:
期望测试均方误差 = 偏差 + 方差 + 误差项
方差:
方差是用一个不同的训练数据集估计f,估计函数f的改变量。理想情况是,用不同的训练集拟合f,f的改变量是较小的。
偏差:
估计函数f与观测值的差距。
结论:
一般而言,光滑度越高,偏差越小,方差越大。

6.分类模型
贝叶斯分类器:
将每个观测值分配到它最可能所在的类别中
KNN模型:
K越小,偏差小方差大;K越大,偏差大方差小;K的取指一般取3,5,7

7.评价模型的准确性
量化模型拟合数据的程度:RSE(残差标准误) 和 R^2统计量。
RSE:
RSE越小,说明拟合得越好
R^2统计量:
其值介于0-1

8.p值与置信区间
置信区间:95%
p值小于0.05,即预测变量与响应变量的显著关系是偶然观测的概率小于0.05。

9.高杠杆点与离群点
离群点:
观测值yi远离模型预测值的点
高杠杆点:
观测点xi是异常的

10.LDA
LDA的原理是将带上标签的点,通过投影的方法,投影到维度更低的空间,使得投影后的点,会形成类别区分。同类之间的点方差最小,不同类之间的方差最大。

11.支持向量机

—使用分割超平面分类
—最大间隔超平面(最优分离超平面)
—支持向量:
有3个训练观测到最大间隔超平面的距离是一样的,并且落到虚线上,虚线表明了间隔的宽度。这3个训练观测就叫做 支持向量,它们是p(此处p=2)维空间的向量,并且它们“支持”最大间隔超平面。因为从某种意义说,只要这3个点的位置稍微地改变,最大间隔超平面也会随之移动。

—支持向量分类器(软间隔分类器)————允许有些观测点越过间隔,故称为“软”:
允许一些观测落在间隔错误的一侧,甚至超平面错误的一侧。[而不是寻找可能的最大间隔,要求每个观测不仅落在超平面外正确的一侧,而且必须满足正确地落在某一间隔之外]

—支持向量机:
是支持向量分类器的一个扩展,扩展的结果是支持向量机使用核函数来扩大特征空间。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章