1. 統計學習方法概論

統計學習方法

定義
如果一個系統能夠通過執行某個過程改進它的性能, 這就是學習

對象
數據(data), 從數據出發, 提取數據的特徵, 抽象出數據的模型, 發現數據中的知識, 最終回到對數據的分析與預測中去.

前提
具有某種共同性質的數據, 其具有一定的統計規律性

分類
監督學習, 非監督學習, 半監督學習, 強化學習

基本概念

輸入空間: 輸入所有可能的取值集合
輸出空間: 輸出所有可能的取值集合
特徵空間: 每個具體的輸入是一個實例, 通常由特徵向量表示. 所有特徵向量存在的空間

監督學習產生的最終模型可以是概率模型或非概率模型
概率模型由條件概率分佈P(Y|X)表示
非概率模型由決策函數Y=f(X)表示

常用損失函數

0-1損失函數 $L (Y, f (X)) = 1 (Y \neq f (X)), 0 (Y = f (X))$
平方損失函數 $L (Y, f (X)) = (Y - f (X))^{2}$
絕對損失函數 $L (Y, f (X)) = | Y - f (X) |$
對數損失函數 $L (Y, P (Y | X)) = - l o g P (Y | X)$

對數損失函數用於概率模型中
損失函數值越小, 模型就越好. 模型輸入輸出(X,Y)都是隨機變量, 遵循聯合分佈P(X,Y)
損失函數的期望:

$R_{e x p} (f) = E [L (Y, f (X))] = \int_{(x, y)} L (Y, f (x)) P (x, y) d x d y$
或者 $\sum_{x = 1} \sum_{y = 1} (L (y, f (x)) * P (x, y))$
以上損失也稱爲期望損失, 記爲 $R_{e x p}$

給定一個訓練數據集, 模型f(X)關於訓練數據集的平均損失稱爲經驗損失, 記爲 $R_{e m p}$

期望風險是模型關於聯合分佈的期望損失, 經驗風險是模型關於訓練樣本集的平均損失.
當樣本容量N趨於無窮時, 經驗風險趨於期望風險.

監督學習的基本策略

經驗風險最小化ERM

經驗風險最小的模型就是最優模型, 經驗風險最小化求最優模型就是求解最優化問題
當樣本容量小時, 容易產生過擬合現象

結構風險最小化SRM

正則化. 在經驗風險上加上表示模型複雜度的正則化項.

R_{s r m} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i})) + λ J (f)

J(f)表示模型的複雜度, 模型f越複雜, J(f)就越大; f越簡單, J(f)就越小. 複雜度表示了對複雜模型的懲罰.

λ \geq 0

是係數, 用以權衡經驗風險和模型複雜度.

過擬合

當模型的複雜度增大時, 訓練誤差會逐漸減小並趨於0; 而測試誤差會先減小, 達到最小值後又增大.
當選擇的模型複雜度過大時, 過擬合現象就會發生.

正則化

正則化等價於結構風險最小化策略的實現, 在經驗風險上加一個正則化項或罰項.
正則化項一般是模型複雜度的單調遞增函數

交叉驗證

簡單交叉驗證

隨機的將數據分爲兩部分, 訓練集和測試集. 用訓練集在各種條件下訓練模型, 在測試集上評估各個模型的測試誤差

S折交叉驗證

隨機的將數據集切分爲S個互不相交的大小相同的子集, 其中的S-1個子集作爲訓練集, 餘下的作爲測試集; 將這一過程對可能的S種選擇重複進行.

留一交叉驗證

S折的特殊情況, 取S=N(數據集的容量)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

1. 統計學習方法概論

統計學習方法

基本概念

常用損失函數

監督學習的基本策略

經驗風險最小化ERM

結構風險最小化SRM

過擬合

正則化

交叉驗證

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

4. 樸素貝葉斯

2. 感知機

3. k近鄰學習

1. 統計學習方法概論

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結