統計學習方法筆記，第一章，統計學系方法概論

這個博客系列是我複習李航博士的《統計學習方法》所做的筆記，其中一部分是筆記，一部分是自己的感悟和理解，可能有些理解不夠準確，歡迎指正！

1.1 統計學習

(1)統計學習方法的三要素：模型、策略和算法，之後的章節對於每一種模型都是按照這三個角度進行分析

(2)學習的定義：通過執行某個過程改進性能，而統計學習則是運用數據和統計的方法進行改進，通過統計方法對數據進行學習，改進模型的性能。

(3)統計學習的基本假設：同類數據具有一定的統計規律性。我們通常用於建模的數據都是具有相同性質的同類數據，如人的身高體重等。我們一般默認數據是獨立同分布的。

(4)統計學習的目標：

<1>學習什麼樣的模型（模型選擇）

<2>如何學習模型（優化目標，損失函數，策略）

(5)對應關係

模型 —— 假設空間的集合

策略 —— 模型的評價標準，優化目標，損失函數，代價函數

算法 —— 達到優化目標的方法，如梯度下降等

1.2 監督學習

1.監督學習的假設：輸入變量X與輸出變量Y遵循聯合概率分佈P（X，Y），且概率分佈一定存在，是我們學習的對象。我們假設數據都是由這個概率分佈P（X，Y）獨立同分布產生的。

1.3 統計學習三要素

1.3.1模型

模型決定了假設空間，假設空間包含了所有可能的條件分佈。比如我們假設模型爲一元線性函數，則所有滿足y = ax + b (a,b屬於R)就是假設空間。

1.3.2策略

1.策略是對於模型的評價標準，依照什麼樣的標準從假設空間中選擇最合適的模型。舉個不恰當的例子，，如果策略選擇是讓y最小，那就是讓x = 0，當然實際情況不可能這麼簡單，哈哈。

2.損失函數度量了預測錯誤的程度，即預測值和真實值的不一致性。

3.風險函數是損失函數對整個樣本空間的期望值，即

但是聯合分佈顯然是未知的，是我們想要得到的。但是我們風險函數是我們的策略，也就是優化目標，既然其中的未知，那麼就無法求了，怎麼辦呢？於是我們通常用經驗風險代替風險函數，如下所示：

其中是所有樣本點。

總言之，風險函數是關於聯合分佈的期望損失，經驗風險是訓練集上的平均損失。

那麼爲什麼可以這樣替代呢？因爲根據大數定律，當樣本量N趨近於無窮大時，經驗風險趨近於風險函數。

但是，N趨近於無窮大這個條件一般不成立，所以需要矯正。

4.經驗風險最小化和結構風險最小化

經驗風險最小化就是使得經驗風險最小，即

但是我們上面就提到了，N趨近於無窮大這個條件一般不成立，因此會產生過擬合，於是我們要採取結構風險最小化。

結構風險最小化就是正則化，目的就是爲了防止過擬合而加入懲罰項。

因爲從理論上來說，模型結構越複雜，就越容易降低經驗經驗風險，比如一元10次函數對於數據的擬合能力一定比一元一次強（很好理解，一元10次前9項爲0就是一元一次，所以它包含了一元一次）。這樣爲了降低經驗風險，我們會傾向於選擇複雜的模型，但是複雜的模型通常泛化能力不好，因此我們要通過加入懲罰項來讓模型傾向於選擇簡單的模型。

結構風險的定義：

其中是模型的複雜度，》=0是係數，我們最小化就是選擇結構風險最小化策略。

1.3.3算法

算法是根據學習策略，從假設空間中選擇最優模型的方法。

通常都不會有解析解，因此採用數值方法求全局最優解。一般有梯度下降，牛頓法等。

1.4模型評估與模型選擇

1.4.1 訓練誤差與測試誤差

我們的學習更側重測試誤差，它反映了對於未知數據的預測能力，即泛化能力。

1.4.2過擬合與模型選擇

一般來說，模型複雜度越高，對於訓練集的擬合能力就越強，因此如果一味追求對訓練集的擬合，就會傾向於選擇非常複雜的模型，從而可能學習到了一些噪聲信息。模型的訓練誤差很小，但是測試誤差很大，但是我們之前說過，測試誤差纔是更重要的，因爲它反映了模型的泛化能力。

因此，在學習時要防止過擬合，就要選擇複雜度適當的模型，有兩種方法：正則化和交叉驗證。

1.5正則化與交叉驗證

1.5.1正則化

正則化就是結構風險最小化，即最小化

通常採用L1和L2範數。

帶L2範數的結構風險爲

帶L1範數的結構風險爲

因此當w的參數較大的時候，後一項變大，那麼爲了使L（w）最小，模型傾向於選擇較小的參數w，這樣就降低了複雜度。

1.7生成模型與判別模型

生成模型：通過聯合概率分佈

，求出條件概率分佈

典型的有：樸素貝葉斯和隱馬爾可夫模型

特點：收斂快，可以解決隱變量問題，容量大時可以更快收斂於真實模型

判別模型：直接學習條件概率分佈

典型有：knn，LR，SVM，神經網絡等

特點：學習準確率高，可以直接定義特徵，可以簡化學習問題。

區別：是否是通過聯合概率分佈求模型

1.8 分類問題

評價指標：準確率（Accura），精確率（precision），召回率（recall）

TP ——將正類預測爲正類數

FN —— 將正類預測成負類數

FP —— 將負類預測成正類數

TN —— 將負類預測成正類數

記憶：第二個字母是預測結果，第一個字母是正確還是錯誤。

精確率（precision）

即預測爲正的裏面有多少是正的

信息檢索裏也稱爲查準率

查準率＝檢索出的相關信息量 / 檢索出的信息總量

召回率（recall）

即樣本所有的正的裏面有多少被預測出來了

信息檢索裏也稱爲查全率

查全率＝檢索出的相關信息量 / 系統中的相關信息總量

1.9 標註問題

標註問題是分類問題的推廣，它的輸入和輸出都是序列，因此它的輸入具有上下文關係，比如文本。

常用方法：隱馬爾科夫，條件隨機場

1.10 迴歸問題

迴歸問題的輸出都是連續值，而分類是離散值。迴歸問題等價於函數擬合：選擇一條函數曲線使其能很好地擬合已知數據和預測未知數據。

迴歸學習最常用的損失函數：平方損失函數，此時可以用最小二乘法求解。

迴歸學習很多時候可以轉化爲分類問題，比如對電影評分，我們可以用評星代替評分，通常分類的效果更好。

統計學習方法筆記，第一章，統計學系方法概論

1.1 統計學習

1.2 監督學習

1.3 統計學習三要素

1.4模型評估與模型選擇

1.7生成模型與判別模型

1.8 分類問題

1.9 標註問題

1.10 迴歸問題

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

POJ 1338 & UVA 136

POJ 1005 & ZOJ 1049 & UVA 2363

ZOJ 2739 & UVA 3399

ubuntu 16.04 安裝 xgboost python運行環境

統計學習方法筆記，第一章，統計學系方法概論

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結