模式識別第4章—特徵選擇和提取

特徵選擇和提取是模式識別中的一個關鍵問題:
前面討論分類器設計的時候,一直假定已給出了特徵向量維數確定的樣本集,其中各樣本的每一維都是該樣本的一個特徵;
這些特徵的選擇是很重要的,它強烈地影響到分類器的設計及其性能;
假若對不同的類別,這些特徵的差別很大,則比較容易設計出具有較好性能的分類器。
例如:
判斷一個人是否是軟件工程師?
膚色,體重,身高,工資,工資,編程,受教育程度,性別

特徵選擇和提取是構造模式識別系統時的一個重要課題
在很多實際問題中,往往不容易找到那些最重要的特徵,或受客觀條件的限制,不能對它們進行有效的測量;
因此在測量時,由於人們心理上的作用,只要條件許可總希望把特徵取得多一些;
另外,由於客觀上的需要,爲了突出某些有用信息,抑制無用信息,有意加上一些比值、指數或對數等組合計算特徵;
如果將數目很多的測量值不做分析,全部直接用作分類特徵,不但耗時,而且會影響到分類的效果,產生“特徵維數災難”問題。
我們應該對特徵進行選擇。
應去掉模棱兩可、不易判別的特徵;
所提供的特徵不要重複,即去掉那些相關性強且沒有增加更多分類信息的特徵。
在這裏插入圖片描述

特徵選擇和提取

所謂特徵選擇,就是從n個度量值集合{x1, x2,…, xn}中,按某一準則選取出供分類用的子集,作爲降維(m維,m<n)的分類特徵;
所謂特徵提取,就是使(x1, x2,…, xn)通過某種變換,產生m個特徵(y1, y2,…, ym) (m<n) ,作爲新的分類特徵(或稱爲二次特徵);
其目的都是爲了在儘可能保留識別信息的前提下,降低特徵空間的維數,已達到有效的分類。

以細胞自動識別爲例
通過圖像輸入得到一批包括正常細胞和異常細胞的圖像,我們的任務是根據這些圖像區分哪些細胞是正常的,哪些細胞是異常的;
首先找出一組能代表細胞性質的特徵,爲此可計算
細胞總面積
總光密度
胞核面積
核漿比
細胞形狀
核內紋理
……
這樣產生出來的原始特徵可能很多(幾十甚至幾百個),或者說原始特徵空間維數很高,需要降低(或稱壓縮)維數以便分類;
一種方式是從原始特徵中挑選出一些最有代表性的特徵,稱之爲特徵選擇;
另一種方式是用映射(或稱變換)的方法把原始特徵變換爲較少的特徵,稱之爲特徵提取

模式類別可分性的測度-距離和散佈矩陣

在這裏插入圖片描述
點到點之間的距離
在n維空間中,a與b兩點之間的歐氏距離爲:
D(a, b) = || a – b ||
寫成距離平方:
在這裏插入圖片描述
其中,a和b爲n維向量,其第k個分量分別是ak和bk。

點到點集之間的距離
在n維空間中,點x到點a(i)之間的距離平方爲:
在這裏插入圖片描述
因此,點x到點集{a(i)}i=1,2,…,K之間的均方距離爲:
在這裏插入圖片描述
在這裏插入圖片描述
類內距離
n維空間中同一類內各模式樣本點集{a(i)}i=1,2,…,K,其內部各點的均方距離爲在這裏插入圖片描述
其中
在這裏插入圖片描述
即:

在這裏插入圖片描述

可證明:
在這裏插入圖片描述
其中爲{a(i)}在第k個分量上的無偏方差,即:
在這裏插入圖片描述
其中在這裏插入圖片描述爲{a(i)}在第k個分量方向上的均值。

類內散佈矩陣
考慮一類內模式點集在這裏插入圖片描述,其類內散佈矩陣爲:在這裏插入圖片描述
其中
在這裏插入圖片描述
類間距離和類間散佈矩陣
在考慮有兩個以上的類別,如集合{a(i)}和{b(j)}時,類間距離對類別的可分性起着重要作用,此時應計算:在這裏插入圖片描述
爲簡化起見,常用兩類樣本各自質心間的距離作爲類間距離,並假設兩類樣本出現的概率相等,則:在這裏插入圖片描述

其中m1和m2爲兩類模式樣本集各自的均值向量, 和爲m1和m2的第k個分量,n爲維數。
寫成矩陣形式:在這裏插入圖片描述爲兩類模式的類間散佈矩陣。
對三個以上的類別,類間散佈矩陣常寫成:在這裏插入圖片描述

其中,m0爲多類模式(如共有c類)分佈的總體均值向量,即:
在這裏插入圖片描述
多類模式集散佈矩陣
多類情況的類內散佈矩陣,可寫成各類的類內散佈矩陣的先驗概率的加權和,即:
在這裏插入圖片描述
其中Ci是第i類的協方差矩陣。
有時,用多類模式總體分佈的散佈矩陣來反映其可分性,即:
在這裏插入圖片描述
其中,m0爲多類模式分佈的總體均值向量。
可以證明:St = Sw + Sb,即總體散佈矩陣是各類類內散佈矩陣與類間散佈矩陣之和。

特徵選擇

設有n個可用作分類的測量值,爲了在不降低(或儘量不降低)分類精度的前提下,減小特徵空間的維數以減少計算量,需從中直接選出m個作爲分類的特徵。
問題:在n個測量值中選出哪一些作爲分類特徵,使其具有最小的分類錯誤?
例題:
設有如下三類模式樣本集ω1,ω2和ω3,其先驗概率相等,求Sw和Sb
ω1:{(1 0)T, (2 0) T, (1 1) T}

               ω2:{(-1 0)T, (0 1) T, (-1 1) T}

               ω3:{(-1 -1)T, (0 -1) T, (0 -2) T}

在這裏插入圖片描述
在這裏插入圖片描述

離散K-L變換

全稱:Karhunen-Loeve變換(卡洛南-洛伊變換)
前面討論的特徵選擇是在一定準則下,從n個特徵中選出k個來反映原有模式。
這種簡單刪掉某n-k個特徵的做法並不十分理想,因爲一般來說,原來的n個數據各自在不同程度上反映了識別對象的某些特徵,簡單地刪去某些特徵可能會丟失較多的有用信息。
如果將原來的特徵做正交變換,獲得的每個數據都是原來n個數據的線性組合,然後從新的數據中選出少數幾個,使其儘可能多地反映各類模式之間的差異,而這些特徵間又儘可能相互獨立,則比單純的選擇方法更靈活、更有效。
K-L變換就是一種適用於任意概率密度函數的正交變換。
離散的有限K-L展開
在這裏插入圖片描述
在這裏插入圖片描述在這裏插入圖片描述
K-L展開式的根本性質是將隨機向量x展開爲另一組正交向量j的線性和,且其展開式係數aj(即係數向量a的各個分量)具有不同的性質。

K-L展開式係數的計算步驟
K-L展開式係數可如下求得:
1.求隨機向量x的自相關矩陣:R = E{xxT}
2.求出矩陣R的特徵值λj和對應的特徵向量φj,j = 1,2,…,n,得矩陣:
在這裏插入圖片描述
3.計算展開式係數:
a = ΦTx
總結:
從K-L展開式的性質和按最小均方差的準則來選擇特徵,應使E[aj]=0。由於E[a]=E[Tx]= TE[x],故應使E[x]=0。基於這一條件,在將整體模式進行K-L變換之前,應先將其均值作爲新座標軸的原點,採用協方差矩陣C或自相關矩陣R來計算特徵值。如果E[x] ≠0,則只能得到“次最佳”的結果。

K-L變換實例

給定兩類模式,其分佈如圖所示,試用K-L變換實現一維的特徵提取(假定兩類模式出現的概率相等)。
在這裏插入圖片描述
P(ω1)= P(ω2)=0.5,
在這裏插入圖片描述
符合K-L變換進行特徵壓縮的最佳條件。
因P(ω1)= P(ω2)=0.5,故在這裏插入圖片描述

解特徵值方程|R-λI|=0,求R的特徵值。
由(25.4-λ)2 - 25.02 = 0,得特徵值λ1=50.4,λ2=0.4
其對應的特徵向量可由RФi=λiФi求得:
在這裏插入圖片描述
選λ1對應的變換向量作爲變換矩陣,由y=ФTx得變換後的一維模式特徵爲:在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章