(ISLR)关于统计学习面试可能会问到的知识点

1.什么是统计学习
统计学习是基于数据构建概率模型，并运用模型对数据进行预测与分析。

2.衡量预测函数在何种程度接近观测值，用均方误差MSE

3.如何估计f
分为两类方法：参数方法和非参数方法。
参数方法：一般用在回归问题
先对函数f的形式事先做明确的假设，并选择模型，最常用的是参数模型；
再用最小二乘法拟合参数
非参数法：一般用在分类问题
相较于参数法，需要较多的观测数据

4.欠拟合与过拟合：
欠拟合：
原因：模型过于简单，例如对于非线性的数据，用线性的模型去拟合。
结论：欠拟合对训练数据及测试数据的拟合度都不高

过拟合：
原因：模型过于复杂，拟合了错误或噪声
结论：过拟合对训练数据拟合度较高，测试数据拟合度较低

5.偏差与方差权衡：
期望测试均方误差 = 偏差 + 方差 + 误差项
方差：
方差是用一个不同的训练数据集估计f，估计函数f的改变量。理想情况是，用不同的训练集拟合f，f的改变量是较小的。
偏差：
估计函数f与观测值的差距。
结论：
一般而言，光滑度越高，偏差越小，方差越大。

6.分类模型
贝叶斯分类器：
将每个观测值分配到它最可能所在的类别中
KNN模型：
K越小，偏差小方差大；K越大，偏差大方差小；K的取指一般取3，5，7

7.评价模型的准确性
量化模型拟合数据的程度：RSE(残差标准误) 和 R^2统计量。
RSE：
RSE越小，说明拟合得越好
R^2统计量：
其值介于0-1

8.p值与置信区间
置信区间：95%
p值小于0.05，即预测变量与响应变量的显著关系是偶然观测的概率小于0.05。

9.高杠杆点与离群点
离群点：
观测值yi远离模型预测值的点
高杠杆点：
观测点xi是异常的

10.LDA
LDA的原理是将带上标签的点，通过投影的方法，投影到维度更低的空间，使得投影后的点，会形成类别区分。同类之间的点方差最小，不同类之间的方差最大。

11.支持向量机

—使用分割超平面分类
—最大间隔超平面(最优分离超平面)
—支持向量：
有3个训练观测到最大间隔超平面的距离是一样的，并且落到虚线上，虚线表明了间隔的宽度。这3个训练观测就叫做支持向量，它们是p(此处p=2)维空间的向量，并且它们“支持”最大间隔超平面。因为从某种意义说，只要这3个点的位置稍微地改变，最大间隔超平面也会随之移动。

—支持向量分类器（软间隔分类器）————允许有些观测点越过间隔，故称为“软”：
允许一些观测落在间隔错误的一侧，甚至超平面错误的一侧。[而不是寻找可能的最大间隔，要求每个观测不仅落在超平面外正确的一侧，而且必须满足正确地落在某一间隔之外]

—支持向量机：
是支持向量分类器的一个扩展，扩展的结果是支持向量机使用核函数来扩大特征空间。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

(ISLR)关于统计学习面试可能会问到的知识点

leetcode刷題筆記-MySQL

leetcode刷題筆記[Easy26-43題]

leetcode刷題筆記[Easy1-25題]

兩種U盤重裝Win10系統的方法

(ISLR-note)Chapter3-1簡單線性迴歸

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結