統計學習方法概括

原創

2018-08-23 07:03

一、基本概念

統計學習由監督學習、非監督學習、半監督學習、和強化學習組成。

監督學習：從給定的、有限的、用於學習的訓練數據集合出發，假設數據是獨立同分布產生的；並且這種假設要學習的模型屬於某個函數的集合，成爲假設空間；應用某個評價準則，從假設空間中選取一個最優的模型，是它對已知的訓練數據及未知的測試數據在給定的評價準則下有最優的預測；最有模型的選取由算法實現。這樣，統計學習方法包括模型的假設空間、模型的選擇準則以及模型的學習算法，稱其爲統計學習方法的三要素，簡稱爲模型、策略和算法。

二、統計學習步驟

統計學習方法的步驟如下：

（1）得到一個有限的訓練數據集；

（2）確定包含所有可能的模型的假設空間，即學習模型的集合；

（3）確定模型選擇的準則，即學習的策略；

（4）實現求解最優模型的算法，即學習的算法；

（5）通過學習方法選擇最優模型；

（6）利用學習的最優模型對新數據進行預測或分析；

三、統計學習要素

3.1模型：

統計學習首先要考慮的問題就是學習什麼樣的模型。在監督學習過程中，模型就是所要學習的條件概率吩咐和決策函數。模型的假設空間包括所有可能的條件概率或決策函數。

由條件概率表示的模型爲概率模型，由決策函數表示的模型爲非概率模型。

3.2策略：

有了模型的假設空間，接着就要考慮按照什麼樣的準則學習或選擇最優的模型。統計學習的目標在於從假設空間中選擇最優模型。

可以用損失函數和風險函數來評判模型的好壞。

損失函數度量模型一次預測的好壞，風險函數度量平均意義下模型預測的好壞。

損失函數：

統計學習常用的損失函數有以下四種：

（1）0-1損失函數

(2)平方損失函數

(3)絕對損失函數

(4)對數損失函數

風險函數：

損失函數越小，模型就越好。由於模型的輸入、輸出（X,Y）是隨機變量，遵循聯合分佈P(X,Y)，所以損失函數的期望是

這是理論上的模型f(x)關於聯合分佈P(X,Y)的平均意義下的損失，稱爲風險函數或者期望損失。

學習的目標就是要選擇期望風險最小的模型。由於聯合分佈P(X,Y)是未知的，不能直接計算。

給定一個訓練數據集

模型f(x)關於訓練數據集的平均損失稱爲經驗風險或者經驗損失，記作:

期望風險是模型關於聯合分佈的其往往損失，經驗風險是模型關於訓練樣本的平均損失。根據大數定律，當樣本容量N趨於無窮時，經驗風險趨於期望風險.但是由於現實中訓練樣本數目有限，甚至很小，所以用經驗風險估計期望風險稱稱並不理想，需要對經驗風險進行矯正。這就關係到監督學習的兩個基本策略：經驗風險最小化和結構風險最小化。

結構風險最小化是爲了防止過擬合而提出來的策略。結構風險最小化等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項或罰項。在假設空間、損失函數以及訓練數據集確定的情況下，結構風險的定義是

其中爲模型的複雜度，是定義在假設空間F上的泛函。模型f越複雜，複雜度就越大。也就是說，複雜度表示了對複雜模型的懲罰。是係數，用以權衡經驗風險和模型複雜度。結構風險最小需要經驗風險與模型複雜度同時小。結構風險小的模型往往對訓練數據以及未知的測試數據都有較好的預測。

結構風險最小化的策略認爲結構風險最小的模型是最優的模型。所以求最優模型，就是求解最優化問題：

這樣監督學習問題就變成經驗風險或者結構風險函數的最優化問題。這時經驗或者結構函數式最優化的目標函數。

3.3算法：

算法是指學習模型的具體計算方法。統計學習給予訓練數據集，根據學習策略，從假設空間選擇最優模型，最後需要考慮用什麼樣的計算方法求解最優模型。

這時，統計學習問題歸結爲最優化問題，統計學習的算法成爲求解最優化問題的算法。

四、監督學習

監督學習的任務就是學習一個模型，應用這一模型，對給定的輸入預測相應的輸出。這一模型的一般形式爲決策函數：

或者條件概率分佈：

監督學習方法又可以分爲生成方法和判別方法。所學的模型分別稱爲生成模型和判別模型。

生成方法由數據學習聯合分佈概率，然後求出條件概率分佈作爲預測的模型，即生成模型：

這樣的方法之所以稱爲生成方法，是因爲模型表示了給定輸入X產生輸出Y的生成關係。典型的生成模型有：樸素貝葉斯法和隱馬爾科夫模型。

判別方法由數據直接學習決策函數或者條件概率分佈作爲預測的模型，即判別模型。典型的判別模型包括：K近鄰法、感知機、決策樹、邏輯斯蒂迴歸模型、最大熵模型、支持向量機、提升方法和條件隨機場等。

在監督學習中，生成方法和判別方法各有優缺點，適合於不同條件下的學習問題。

生成方法的特點：生成方法可以還原出聯合概率分佈,而判別方法則不能。生成方法的收斂數度更快，即當樣本容量增加的時候，學到的模型可以更快地收斂於真實模型；當存在隱變量時，仍可以用生成方法學習，此時判別方法就不能用。

判別方法的他點：判別方法直接學習的是條件概率或者決策函數，直接面對預測，往往學習的準確率更高；由於直接學習或，可以對數據進行各種程度上的抽象、定義特徵並使用特徵，因此可以簡化學習。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「機器學習_8」Bag-of-Words

Bag-of-Words 1.文字問題 2. 什麼是Bag-of-Words(具體例子） 3. 侷限性 1.文字問題文本建模的一個問題是它很雜亂，機器學習算法之類的技術更喜歡定義明確的

2020-07-08 11:01:54

迴歸損失函數：L1 Loss, L2 Loss, Smooth L1 Loss

講解的很清楚： https://www.cnblogs.com/wangguchangqing/p/12021638.html

2020-07-08 10:39:04

感知機中的關鍵問題：點到平面的距離，和梯度更新的符號

感知機的原理、以及學習方法，還是比較簡單的，參考： https://www.pkudodo.com/2018/11/18/1-4/ 但其中有2點關鍵，不是特別好理解： 1、關於點到平面的距離：參考：https://www.jian

2020-07-08 10:27:04

變身漫畫道具玩了沒？這樣的 AI 人像特效機器學習服務幫你實現

近期，抖音上一款 “變身漫畫” 的特效刷爆“我的關注”，二次元漫畫樣式的畫風更是讓大家欲罷不能。從明星到路人，從大朋友到小朋友紛紛參與其中，抖音 App 中“變身漫畫”話題頁顯示約有 1851 萬餘人使用該道具。如今，此類視頻 / 圖片

2020-07-14 12:03:51

深度學習_目標檢測_FPN論文詳解

FPN的創新點多層特徵特徵融合解決了目標檢測中的多尺度問題，通過簡單的網絡連接改變，在基本不增加原有模型計算量的情況下，大幅度提升小物體（small object）的檢測性能。在物體檢測裏面，有限計算量情況下，網絡的深

2020-07-08 11:57:07

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

分類問題中的決策面畫法 (直觀理解plt.contour的用法)

摘要通過分類問題中決策面的繪製過程直觀理解matplotlib中contour的用法，主要包括對 np.meshgrid 和plt.contour的直觀理解。前言分類問題中，我們習慣用2維的dmeo做例子，驗證算法的有效性。

张王李刘赵孙杨

2020-07-08 11:10:55

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

[R]聚類算法:k-means模組

延伸<[Excel]k-means聚類算法的應用，以評價現有供應商的水平為例。>文章，同時恰巧在圖書館看到一本R語言機器學習書籍，因此正好可進一步瞭解如何用R語言來實現k-means算法和應用，一併將k-means模組建立起來，做為未來參

2020-07-08 10:38:53

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

吳恩達機器學習課程思維導圖

Github上黃博整理的吳恩達機器學習課程的資料，用xmind轉化成思維導圖，方便查看和記憶。參考自：https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

2020-07-08 09:20:14

機器學習筆記(七)--理解batch_dot函數

在keras中有batch_dot函數，用於計算兩個多維矩陣，官方註釋如下： def batch_dot(x, y, axes=None): """Batchwise dot product. `batch_dot`

2020-07-08 09:20:14

置信學習：讓樣本中的“髒數據“原形畢露

在實際工作中，你是否遇到過這樣一個問題或痛點：無論是通過哪種方式獲取的標註數據，數據標註質量可能不過關，存在一些錯誤？亦或者是數據標註的標準不統一、存在一些歧義？特別是badcase反饋回來，發現訓練集標註的居然和badcase一樣？如下

2020-07-08 09:16:27

simple faster rcnn解讀一

一:代碼框架和跑通simple faster rcnn遇到的問題代碼選擇：https://github.com/chenyuntc/simple-faster-rcnn-pytorch；本文主要是自己將代碼跑通中遇到的問題以及代碼解讀

2020-07-08 09:02:08

決策樹python實現（ID3 和 C4.5）

最近在看機器學習實戰，記錄一些不寫代碼，真的很難發現的問題。 ID3代碼見github ID3的問題： 1、從信息增益的計算方法來看，信息增益無法直接處理連續取值的的屬性數據，只能處理離散型的數據。 2、信息增益的計算方法需要對某

2020-07-08 08:32:14

24小時熱門文章

Nginx R31 doc 官方文檔-01-nginx 如何安裝

最新文章

最新評論文章