Fisher線性判別

我們知道,基於樣本直接設計分類器需要三個基本要素:判別函數類型、分類器設計準則、尋優算法。這裏我們討論的線性判別函數類型爲:g(x)=wTx+w0。採用不同的準則和不同的尋優算法就會得到不同的線性分類器。

一、線性判別函數 
剛纔我們說了,線性分類器的判別函數型是線性判別函數:

g(x)=wTx+w0

其中,w0是一個常數,xd維的特徵向量,w爲權值向量,分別爲: 
x=x1x2xdw=w1w2wd

方程g(x)=0就是一個決策面,當g(x)是線性函數時,這個決策面就是一個超平面。 
對於決策面上的任意兩點xi,xj都有: 
wTx1+w0=wTx2+w0wT(x1x2)=0

二、Fisher線性判別分析 
兩類的線性判別問題可以看作是把所有樣本都投影到一個方向,然後再這個一維空間中確定一個分類的閾值,過這個閾值點且與投影方向垂直的超平面就是兩類的分類面。 
這裏寫圖片描述 
像上圖所示的兩種投影方案,左邊的投影方向可以將兩種樣本區分開來,而右邊的投影方向不能區分開來,所以左邊的投影方向更好。 
Fisher線性判別的思想是:選擇投影方向,使得投影后兩類相隔儘可能遠,而同一類內的樣本儘可能聚集。

現在我們來定量的分析Fisher線性判別問題。爲了簡單考慮,我們只討論二分類問題。 
訓練樣本集是χ={x1,,xN},其中每個樣本xi是一個d維的向量,其中屬於w1類的樣本是χ1={x11,,x1N1},屬於w2類的樣本是χ2={x21,,x2N2},我們的目的是尋找一個投影方向w(也是一個d維向量),投影后的樣本爲yi=wtxi

定義: 
原樣本空間中: 
1)類均值向量爲:

mi=1Nixjχixji=1,2

2)各類的類內離散度矩陣爲: 
Si=xjχi(xjmi)(xjmi)Ti=1,2

3)總類內離散度矩陣爲: 
SW=S1+S2

4)類間離散度矩陣爲: 
Sb=(m1m2)(m1m2)T

投影到一維空間後, 
1)兩類的均值分別爲: 
m^i=1NiyjYiyj=1NixjχiwTxj=wTmi

2)類內離散度值(不是矩陣): 
S2i^=yjYi(yjmi^)2i=1,2

3)總類內離散度爲: 
Sw^=S21^+S22^

4)類間離散度即兩類均值差的平方: 
Sb^=(m1^m2^)2

根據我們的目標:投影后兩類相隔儘可能遠,而同一類內的樣本儘可能聚集,可以表示成: 

maxJF(w)=Sb^Sw^=(m1^m2^)2S21^+S22^(1)

公式(1)就稱爲:Fisher準則函數

又:

Sb^=(m1^m2^)2=(wTm1wTm2)2=wT(m1m2)(m1m2)Tw=wTSbw

SW^=S21^+S22^=xjχ1(wTxjwTm1)2+xjχ2(wTxjwTm2)2=xjχ1wT(xjm1)(xjm1)Tw+xjχ2wT(xjm2)(xjm2)Tw=wTS1w+wTS2w=wTSWw

因此Fisher判別準則可寫成: 
maxwJF(w)=wTSbwwTSWw(2)

爲了簡化計算,我們可以將(2)的分母設爲一個非零常數,因此該準則又可寫作: 
maxwTSbws.t.wTSWw=c0

等式約束下的極值問題可以通過引入拉格朗日乘子轉化成拉格朗日函數的無約束極值問題: 
L(w,λ)=wTSbwλ(wTSWwc)

L(w,λ)求導計算極值,極值解應滿足:
SbwλSWw=0(3)

當S_W是非奇異的時候,可以得到: 
S1WSbw=λw

Sb代入得: 
λw=S1W(m1m2)(m1m2)Tw(4)

在等式(4)中,λ是標量,(m1m2)Tw也是標量,而標量是不影響w的方向的,因此可以取: 
w=S1W(m1m2)

這就是Fisher判別準則下的最優投影方向。

接下來我們需要計算w0,採取的決策規則是: 

g(x)=wTx+w0{>0xw1<0xw2

當樣本是正態分佈且兩類協方差矩陣相同時, 

w0=12(m1+m2)TS1W(m1m2)lnP(w2)P(w1)

當樣本不是正態分佈時,這種投影方向和閾值並不能保證是最優的,但是通常仍然可以取得較好的分類結果。 
如果不考慮先驗概率的不同,則可以採用閾值: 
w0=12(m1^+m2^)

或:w0=m^ 
其中m^是所有樣本在投影后的均值。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章