統計學習方法及監督學習

§1.1 統計學習(statistical learning)

又稱統計機器學習,目的是:對數據進行分析或預測。統計學習關於數據的基本假設是同類數據具有一定的統計規律性,可以用概率統計的方法處理。

§1.2 統計學習分類

♧1.2.1 基本分類

統計學習或強化學習一般包括監督學習、無監督學習和強化學習。有時還包括半監督學習和主動學習。

♡1 監督學習

本質是學習輸入到輸出的映射的統計規律。 每個具體的輸入實例是一個特徵,所有特徵組成特徵空間,輸入空間不同於特徵空間時,應將輸入空間映射到特徵空間。
輸入變量和輸出變量爲連續變量的預測問題爲迴歸問題;輸入變量和輸出變量爲離散變量的預測問題爲分類問題;輸入變量和輸出變量爲序列的預測問題爲標註問題
基本假設:輸入和輸出的隨機變量具有聯合概率分佈。
假設空間(hypothesis space):由輸入空間到輸出空間的映射集合。假設空間確定代表着學習範圍確定。監督學習的模型分爲概率模型和非概率模型。模型描述出輸入與輸出隨機變量之間的映射關係。

♡2 無監督學習

從無標註的數據中學習預測模型。本質是學習數據中的統計規律或潛在結構。 輸出由輸入的類別、轉換、概率表示。模型對數據進行:聚類、降維、或概率統計。

♡3 強化學習

指智能體在與環境的連續互動中學習最優行爲策略的機器學習,基於馬爾科夫決策過程,智能系統觀測的是與環境互動得到的數據序列
需要強調的是Q-function和value function的區別:Q-function是基於當前狀態和動作的而value function是基於當前狀態的。
還有就是強化學習的方法:model-based和model-free(包括:優化policy和優化value兩種方法)。
詳細內容

♡4 半監督學習

♡5 主動學習

指機器不斷主動給出實例讓教師進行標註,然後利用標註數據學習預測模型的機器學習問題。
與監督學習的區別在於:主動學習的目標是找出對學習有幫助的數據讓教師標註,不像監督學習,標註的數據是隨機的

♧1.2.2 按模型分類

♡1 概率模型和非概率模型

在這裏插入圖片描述

♡2 線性模型和非線性模型

在這裏插入圖片描述

♡3 參數化模型和非參數化模型

在這裏插入圖片描述

♧1.2.3 按算法分類

♡ 在線學習(on-line)和批量學習(batch)

在這裏插入圖片描述
利用隨機梯度下降的感知機器學習方法就是在線學習。

♧1.2.4 學習技巧分類

♡1 貝葉斯學習(Bayesaian learning)

在這裏插入圖片描述
在這裏插入圖片描述

♡2 核方法

在這裏插入圖片描述技巧在於:不顯示地定義這個映射,而是直接定義核函數。

§1.3 統計學方法三要素

模型+方法+算法。按照什麼樣的準則學習或選擇模型(策略),求解最優模型(算法)。

♧模型

♧策略

  • 損失函數:度量模型一次預測的好壞。

  • 風險函數:度量平均意義下模型預測的好壞。
    風險函數 = 損失函數的期望
    在這裏插入圖片描述

  • 經驗風險:對於訓練數據集的平均損失。經驗風險最小化:
    在這裏插入圖片描述

  • 結構風險最小化:
    在這裏插入圖片描述

♧算法

要求:全局最優;高效。

§1.4 模型評估與模型選擇

♧訓練誤差與測試誤差

測試誤差:與經驗風險的數學表達式相同只不過,測試誤差將經驗風險的訓練集換成了測試集中的數據。
在這裏插入圖片描述

♧過擬合

在這裏插入圖片描述

§1.5 正則化與交叉驗證

♧正則化

正則化是結構風險策略最小化的實現,所以正則化的一般形式和結構風險相同:
在這裏插入圖片描述

♧交叉驗證

§1.6 泛化能力

♧泛化誤差

所學到的模型的期望風險。

♧泛化誤差的上界

在這裏插入圖片描述
在這裏插入圖片描述

§1.6 判別模型與生成模型

在這裏插入圖片描述

發佈了8 篇原創文章 · 獲贊 2 · 訪問量 347
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章