(ISLR)關於統計學習面試可能會問到的知識點

1.什麼是統計學習
統計學習是基於數據構建概率模型,並運用模型對數據進行預測與分析。

2.衡量預測函數在何種程度接近觀測值,用均方誤差MSE

3.如何估計f
分爲兩類方法:參數方法 和 非參數方法。
參數方法: 一般用在迴歸問題
先 對函數f的形式事先做明確的假設,並選擇模型,最常用的是參數模型;
再 用最小二乘法 擬合參數
非參數法: 一般用在分類問題
相較於參數法,需要較多的觀測數據

4.欠擬合與過擬合:
欠擬合:
原因:模型過於簡單,例如對於非線性的數據,用線性的模型去擬合。
結論:欠擬合對訓練數據及測試數據的擬合度都不高

過擬合:
原因:模型過於複雜,擬合了錯誤或噪聲
結論:過擬合對訓練數據擬合度較高,測試數據擬合度較低

5.偏差與方差權衡:
期望測試均方誤差 = 偏差 + 方差 + 誤差項
方差:
方差是用一個不同的訓練數據集估計f,估計函數f的改變量。理想情況是,用不同的訓練集擬合f,f的改變量是較小的。
偏差:
估計函數f與觀測值的差距。
結論:
一般而言,光滑度越高,偏差越小,方差越大。

6.分類模型
貝葉斯分類器:
將每個觀測值分配到它最可能所在的類別中
KNN模型:
K越小,偏差小方差大;K越大,偏差大方差小;K的取指一般取3,5,7

7.評價模型的準確性
量化模型擬合數據的程度:RSE(殘差標準誤) 和 R^2統計量。
RSE:
RSE越小,說明擬合得越好
R^2統計量:
其值介於0-1

8.p值與置信區間
置信區間:95%
p值小於0.05,即預測變量與響應變量的顯著關係是偶然觀測的概率小於0.05。

9.高槓杆點與離羣點
離羣點:
觀測值yi遠離模型預測值的點
高槓杆點:
觀測點xi是異常的

10.LDA
LDA的原理是將帶上標籤的點,通過投影的方法,投影到維度更低的空間,使得投影后的點,會形成類別區分。同類之間的點方差最小,不同類之間的方差最大。

11.支持向量機

—使用分割超平面分類
—最大間隔超平面(最優分離超平面)
—支持向量:
有3個訓練觀測到最大間隔超平面的距離是一樣的,並且落到虛線上,虛線表明了間隔的寬度。這3個訓練觀測就叫做 支持向量,它們是p(此處p=2)維空間的向量,並且它們“支持”最大間隔超平面。因爲從某種意義說,只要這3個點的位置稍微地改變,最大間隔超平面也會隨之移動。

—支持向量分類器(軟間隔分類器)————允許有些觀測點越過間隔,故稱爲“軟”:
允許一些觀測落在間隔錯誤的一側,甚至超平面錯誤的一側。[而不是尋找可能的最大間隔,要求每個觀測不僅落在超平面外正確的一側,而且必須滿足正確地落在某一間隔之外]

—支持向量機:
是支持向量分類器的一個擴展,擴展的結果是支持向量機使用核函數來擴大特徵空間。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章