線性分類模型(一):線性判別模型分析

前言

前幾篇文章介紹了線性迴歸算法,線性分類模型分爲判別式模型和生成式模型,本文首先簡單複習了與算法相關的數學基礎知識,然後分析各線性判別式分類算法,如最小平方法,Fisher線性判別法和感知器法,最後總結全文。

                                                                    目錄


1、相關的數學知識回顧

2、判別式模型和生成性模型

3、最小平方法

4、Fisher線性判別函數

5、感知器算法

6、總結

 

                                                             相關數學知識回顧


1、直線方程和平面方程

拓展到分類思想:直線l爲分類決策方程,座標點落在直線l上方時,則分類爲C1;座標點落在直線l下方時,則分類爲C2(如下圖)。

                                                             

平面方程類似,在這裏不展開。

2、點到直線和點到平面的距離

點到直線的距離:

點到平面的距離

拓展到分類思想:平面方程爲決策方程,正確分類的情況下,當點P到決策方程的距離越大,則分類模型越好;錯誤分類的情況下,點P到決策方程的距離作爲損失函數,損失函數最小化過程即是模型參數最優化過程。

3、向量內積的數學意義

幾何意義:向量A與向量B的內積等於向量A在向量B的投影與向量B的乘積,當向量B是單位向量時,則等於向量A在單位向量方向的投影,單位向量類似於基函數或者可以理解成座標軸,即向量A在向量B的投影可理解成向量A在向量B方向的座標,如下圖,B'是B在OA座標軸方向的投影。

 

                                                                           

拓展到分類思想:C1與C2屬於不同的類,給定一條決策性直線l,當C1與C2在直線L2的投影間距越大,則分類效果越好。增加不同類間的距離可以作爲模型參數優化的方向。

如下圖,C1和C2的在直線L2的投影距離|C1"C2"|大於|C1'C2'|,因此決策方程直線L2優於直線L1.

                                                            

4、梯度下降法

函數f(x0,x1,...,xn)在梯度方向是函數值變化(增加或減少)最快的方向(本文只給出結論,後續文章會有詳細的說明)。

拓展到分類思想:損失函數最小化過程即是模型參數最優化過程,損失函數最小化可通過梯度下降法來實現,當迭代到一定程度,損失函數收斂,則迭代結束,參數w即是要求的最優參數。

流程圖如下:

                                               判別式模型和生成性模型


我們常把分類問題分成兩個階段:推斷階段和決策階段,對於輸入變量x,分類標記爲Ck。推斷階段和決策階段具體表示爲:

推斷階段:估計P(x,Ck)的聯合概率分佈,對P(x,Ck)歸一化,求得後驗概率P(Ck|x)。

決策階段:對於新輸入的x,可根據後驗概率P(Ck|x)得到分類結果。

判別式模型和生成性模型的區別

判別式模型:簡單的學習一個函數,將輸入x直接映射爲決策,稱該函數爲判別式函數。

生成式模型:推斷階段確定後驗概率分佈,決策階段輸出分類結果,生成式模型包含兩個階段。

本文介紹判別式線性分類模型的三種算法。

                                                              最小平方法


最小平方法與最小二乘法的算法思想類似,K類判別函數由K個方程決定,

訓練集,K類判別函數爲,k=1,2,...,K

參數矩陣爲,目標矩陣

求得最優參數w後,輸入變量x所屬K類的判別方法如下:

                                                     Fisher線性判別函數


第一節講到,若兩個類在同一個決策方程的投影距離相隔越大,則該決策方程越好。再深入一點,相同類投影到決策方程的方差越小,則該決策方程越好,方差代表類投影到決策方程的聚集程度。這就是Fisher線性判別法參數優化思想。

參數優化思想:同類樣本投影到決策方程的方差最小,不同類樣本投影到決策方程的均值間隔最大。用表達式J(w)表示,J(w)越大越好。

如下圖:

其中,m1,m2分別表示不同類在決策方程的投影均值;S1,S2分別表示不同類投影到決策方程的方差。

求得最優參數w後,輸入變量x所屬類的判別方法如下:

                                                                 感知器算法


感知器算法的目的是找到能夠準確分離正負樣本訓練數據集的超平面。

超平面定義:

感知器學習策略:

對訓練數據集某一樣本點(x,y),若wx+b>0,則y=1;若wx+b<0,則y=-1;

即感知機模型爲:

 

因此,對於誤分類的數據(xi,yi)來說:

因此,感知器學習策略是最小化誤分類點到平面S的距離,不考慮分母項。

假設訓練數據集有M個誤分類點,損失函數爲:

運用梯度下降算法最小化損失函數L(w,b)。

設學習率η,感知器學習策略步驟:

(1)、選取處置w0,b0;

(2)、選取訓練集(xi,yi);

(3)、如果yi(w*xi+b)<=0,則更新權值參數w,b:

                                                               

 (4)、轉至(2),直至訓練數據集沒有誤分類點,得到超平面最優參數w,b。

 

感知機學習算法由於採用不同的初值或選取不同的誤分類點,參數解可能不同(例題可參考《統計學習方法》)。

因此,對某一輸入點,若感知機模型大於0,則分類爲1;反之分類爲-1。

                                                               總結


本文介紹了線性判別分類的三種方法,第一種判別方法是根據點到判別函數的距離來分類,,第二種方法是根據輸入樣本在判別函數的投影距離進行分類,第三種方法則採用感知機模型進行分類。

參考

Christopher M.Bishop <<Pattern Reconition and Machine Learning>>

李航  《統計學習方法》

                                                                                         推薦閱讀文章

深入理解線性迴歸算法(三):淺談貝葉斯線性迴歸

深入理解線性迴歸算法(二):正則項的詳細分析

深入理解線性迴歸算法(一)

線性迴歸:不能忽視的三個問題

淺談頻率學派和貝葉斯學派

淺談先驗分佈和後驗分佈

                                                                 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章