(ISLR)關於統計學習面試可能會問到的知識點

1.什麼是統計學習
統計學習是基於數據構建概率模型，並運用模型對數據進行預測與分析。

2.衡量預測函數在何種程度接近觀測值，用均方誤差MSE

3.如何估計f
分爲兩類方法：參數方法和非參數方法。
參數方法：一般用在迴歸問題
先對函數f的形式事先做明確的假設，並選擇模型，最常用的是參數模型；
再用最小二乘法擬合參數
非參數法：一般用在分類問題
相較於參數法，需要較多的觀測數據

4.欠擬合與過擬合：
欠擬合：
原因：模型過於簡單，例如對於非線性的數據，用線性的模型去擬合。
結論：欠擬合對訓練數據及測試數據的擬合度都不高

過擬合：
原因：模型過於複雜，擬合了錯誤或噪聲
結論：過擬合對訓練數據擬合度較高，測試數據擬合度較低

5.偏差與方差權衡：
期望測試均方誤差 = 偏差 + 方差 + 誤差項
方差：
方差是用一個不同的訓練數據集估計f，估計函數f的改變量。理想情況是，用不同的訓練集擬合f，f的改變量是較小的。
偏差：
估計函數f與觀測值的差距。
結論：
一般而言，光滑度越高，偏差越小，方差越大。

6.分類模型
貝葉斯分類器：
將每個觀測值分配到它最可能所在的類別中
KNN模型：
K越小，偏差小方差大；K越大，偏差大方差小；K的取指一般取3，5，7

7.評價模型的準確性
量化模型擬合數據的程度：RSE(殘差標準誤) 和 R^2統計量。
RSE：
RSE越小，說明擬合得越好
R^2統計量：
其值介於0-1

8.p值與置信區間
置信區間：95%
p值小於0.05，即預測變量與響應變量的顯著關係是偶然觀測的概率小於0.05。

9.高槓杆點與離羣點
離羣點：
觀測值yi遠離模型預測值的點
高槓杆點：
觀測點xi是異常的

10.LDA
LDA的原理是將帶上標籤的點，通過投影的方法，投影到維度更低的空間，使得投影后的點，會形成類別區分。同類之間的點方差最小，不同類之間的方差最大。

11.支持向量機

—使用分割超平面分類
—最大間隔超平面(最優分離超平面)
—支持向量：
有3個訓練觀測到最大間隔超平面的距離是一樣的，並且落到虛線上，虛線表明了間隔的寬度。這3個訓練觀測就叫做支持向量，它們是p(此處p=2)維空間的向量，並且它們“支持”最大間隔超平面。因爲從某種意義說，只要這3個點的位置稍微地改變，最大間隔超平面也會隨之移動。

—支持向量分類器（軟間隔分類器）————允許有些觀測點越過間隔，故稱爲“軟”：
允許一些觀測落在間隔錯誤的一側，甚至超平面錯誤的一側。[而不是尋找可能的最大間隔，要求每個觀測不僅落在超平面外正確的一側，而且必須滿足正確地落在某一間隔之外]

—支持向量機：
是支持向量分類器的一個擴展，擴展的結果是支持向量機使用核函數來擴大特徵空間。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

(ISLR)關於統計學習面試可能會問到的知識點

leetcode刷題筆記-MySQL

leetcode刷題筆記[Easy26-43題]

leetcode刷題筆記[Easy1-25題]

兩種U盤重裝Win10系統的方法

(ISLR-note)Chapter3-1簡單線性迴歸

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結