統計學習方法概括


一、基本概念

統計學習由監督學習、非監督學習、半監督學習、和強化學習組成。

       監督學習:從給定的、有限的、用於學習的訓練數據集合出發,假設數據是獨立同分布產生的;並且這種假設要學習的模型屬於某個函數的集合,成爲假設空間;應用某個評價準則,從假設空間中選取一個最優的模型,是它對已知的訓練數據及未知的測試數據在給定的評價準則下有最優的預測;最有模型的選取由算法實現。這樣,統計學習方法包括模型的假設空間、模型的選擇準則以及模型的學習算法,稱其爲統計學習方法的三要素,簡稱爲模型、策略和算法。

二、統計學習步驟

       統計學習方法的步驟如下:

(1)     得到一個有限的訓練數據集;

(2)     確定包含所有可能的模型的假設空間,即學習模型的集合;

(3)     確定模型選擇的準則,即學習的策略;

(4)     實現求解最優模型的算法,即學習的算法;

(5)     通過學習方法選擇最優模型;

(6)     利用學習的最優模型對新數據進行預測或分析;

三、統計學習要素

3.1模型:

統計學習首先要考慮的問題就是學習什麼樣的模型。在監督學習過程中,模型就是所要學習的條件概率吩咐和決策函數。模型的假設空間包括所有可能的條件概率或決策函數。

       由條件概率表示的模型爲概率模型,由決策函數表示的模型爲非概率模型。

3.2策略:

       有了模型的假設空間,接着就要考慮按照什麼樣的準則學習或選擇最優的模型。統計學習的目標在於從假設空間中選擇最優模型。

       可以用損失函數和風險函數來評判模型的好壞。

       損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。

       損失函數:

       統計學習常用的損失函數有以下四種:

       (1)0-1損失函數


       (2)平方損失函數


       (3)絕對損失函數


       (4)對數損失函數


       風險函數:

       損失函數越小,模型就越好。由於模型的輸入、輸出(X,Y)是隨機變量,遵循聯合分佈P(X,Y),所以損失函數的期望是


這是理論上的模型f(x)關於聯合分佈P(X,Y)的平均意義下的損失,稱爲風險函數或者期望損失。

學習的目標就是要選擇期望風險最小的模型。由於聯合分佈P(X,Y)是未知的,不能直接計算。

給定一個訓練數據集


模型f(x)關於訓練數據集的平均損失稱爲經驗風險或者經驗損失,記作:


期望風險是模型關於聯合分佈的其往往損失,經驗風險是模型關於訓練樣本的平均損失。根據大數定律,當樣本容量N趨於無窮時,經驗風險趨於期望風險.但是由於現實中訓練樣本數目有限,甚至很小,所以用經驗風險估計期望風險稱稱並不理想,需要對經驗風險進行矯正。這就關係到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。

 

       結構風險最小化是爲了防止過擬合而提出來的策略。結構風險最小化等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項或罰項。在假設空間、損失函數以及訓練數據集確定的情況下,結構風險的定義是


其中爲模型的複雜度,是定義在假設空間F上的泛函。模型f越複雜,複雜度就越大。也就是說,複雜度表示了對複雜模型的懲罰。是係數,用以權衡經驗風險和模型複雜度。結構風險最小需要經驗風險與模型複雜度同時小。結構風險小的模型往往對訓練數據以及未知的測試數據都有較好的預測。

       結構風險最小化的策略認爲結構風險最小的模型是最優的模型。所以求最優模型,就是求解最優化問題:


       這樣監督學習問題就變成經驗風險或者結構風險函數的最優化問題。這時經驗或者結構函數式最優化的目標函數。

3.3算法:

       算法是指學習模型的具體計算方法。統計學習給予訓練數據集,根據學習策略,從假設空間選擇最優模型,最後需要考慮用什麼樣的計算方法求解最優模型。

       這時,統計學習問題歸結爲最優化問題,統計學習的算法成爲求解最優化問題的算法。

四、監督學習

       監督學習的任務就是學習一個模型,應用這一模型,對給定的輸入預測相應的輸出。這一模型的一般形式爲決策函數:


或者條件概率分佈:


       監督學習方法又可以分爲生成方法和判別方法。所學的模型分別稱爲生成模型和判別模型。

       生成方法由數據學習聯合分佈概率,然後求出條件概率分佈作爲預測的模型,即生成模型:


這樣的方法之所以稱爲生成方法,是因爲模型表示了給定輸入X產生輸出Y的生成關係。典型的生成模型有:樸素貝葉斯法和隱馬爾科夫模型。

       判別方法由數據直接學習決策函數或者條件概率分佈作爲預測的模型,即判別模型。典型的判別模型包括:K近鄰法、感知機、決策樹、邏輯斯蒂迴歸模型、最大熵模型、支持向量機、提升方法和條件隨機場等。

       在監督學習中,生成方法和判別方法各有優缺點,適合於不同條件下的學習問題。

       生成方法的特點:生成方法可以還原出聯合概率分佈,而判別方法則不能。生成方法的收斂數度更快,即當樣本容量增加的時候,學到的模型可以更快地收斂於真實模型;當存在隱變量時,仍可以用生成方法學習,此時判別方法就不能用。

       判別方法的他點:判別方法直接學習的是條件概率或者決策函數,直接面對預測,往往學習的準確率更高;由於直接學習,可以對數據進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章