概述,貝葉斯策略,最大似然估計
標籤: 模式分類
@author lancelot-vim
緒論
寬度和數量直方圖:
光澤度和數量直方圖:
寬度-光澤度聯合分類圖:
簡單歸納:
- 從單一特徵得到的分類一般不強
- 將單一特徵組合起來成多特徵分類能得到更強的分類器
- 分類器模型簡單(如圖中紅色線條)會比較弱,分類器太強(如圖中藍色線條)可能會過分類
- 以上問題,可能會存在如果鱸魚分錯,可能不會有太大的問題,但反之可能造成很大的影響
問題:
- 如何選擇特徵
- 如何選擇分類器
- 分類之後如何採取行動
處理方案流程圖:
貝葉斯決策論
引言
條件概率密度與貝葉斯公式
P(w1)=23 , P(w2)=13 時的後驗概率:
誤差定義:
p(error)={p(w1|x)p(w2|x)x∈w2x∉w2
總誤差爲: P(error)=∫∞−∞p(error,x)dx=∫∞−∞p(error|x)p(x)dx
對 ∀x , 若 p(error|x) 儘量小, 那麼 P(error) 就儘量小, 所以令 p(error|x)=min[p(w1|x),p(w2|x)]
連續特徵的貝葉斯決策論
- 允許使用多於一個的特徵
- 允許使用兩種類別以上的情形
- 允許有其他行爲而不僅僅只是判定類別
- 通過引入一個更一般的損失函數來代替誤差概率
以下4個約定:
1. {w1,w2,w3,...wc} 表示c個類別(class)
2. {α1,α2,α3....αa} 表示a中行動(action)
3. λ(αi|wj) 表示類別爲wj ,採取行爲αi 的損失
4. x⃗ 表示d維的特徵
根據貝葉斯公式: p(wj|x⃗ )=p(x⃗ |wj)p(wj)p(x⃗ )
若觀測到x⃗ 0 ,採取行爲αi ,則損失爲:R(αi|x⃗ 0) = ∑cj=1λ(αi|wj)p(wj|x⃗ 0)
總損失爲: R=∫R(α(x⃗ )|x⃗ )P(x⃗ )dx⃗
若選擇α(x⃗ ) 使得:R(αi|x⃗ ) 對每個x⃗ 儘可能小,則風險函數最小化
對於二分類問題
約定:
1. α1 對應於w1
2. α2 對應於w2
3. λij=λ(αi|wj) 表示損失
則損失函數方程爲:
{R(α1|x⃗ )=λ11p(w1|x⃗ )+λ12p(w2|x⃗ )R(α2|x⃗ )=λ21p(w1|x⃗ )+λ22p(w2|x⃗ )
若R(α1|x⃗ )<R(α2|x⃗ ) , 即(λ21−λ11)p(w1|x⃗ )>(λ12−λ22)p(w2|x⃗ ) ,將該類別判爲w1
若λ21>λ11 且 p(x⃗ |w1)p(x⃗ |w2)>λ12−λ22λ21−λ11P(w2)P(w1)=θ , 將該類別判爲w1 , 如下圖
極小化極大原則
總損失:
R=∫R1[λ11p(x⃗ |w1)P(w1)+λ12p(x⃗ |w2)P(w2)]dx⃗ +∫R2[λ21p(x⃗ |w1)P(w1)+λ22p(x⃗ |w2)P(w2)]dx⃗
由於P(w2)=1−P(w1) , ∫R1=1−∫R2 得:
R[P(w1)]=λ22+(λ12−λ22)∫R1p(x⃗ |w2)dx⃗ +P(w1)[(λ11−λ22)+(λ21−λ11)∫R2p(x⃗ |w1)dx⃗ −(λ12−λ22)∫R1p(x⃗ |w2)dx⃗ ]
令(λ11−λ22)+(λ21−λ11)∫R2p(x⃗ |w1)dx⃗ −(λ12−λ22)∫R1p(x⃗ |w2)dx⃗ =0
可得R1 ,R2 , 以及極小化極大誤差:Rmm=λ22+(λ12−λ22)∫R1p(x⃗ |w2)dx⃗ =λ11+(λ21−λ11)∫R2p(x⃗ |w1)dx⃗
極小化極大描述圖:
分類器、判別函數和判定面
定義:
一般我們認爲對於所有的j≠i ,有gi(x⃗ )>gj(x⃗ ) ,則認爲該特徵向量x⃗ 的類型爲wi
一般流程如下圖:
一般判決函數選擇:
- gi(x⃗ )=P(wi|x⃗ )=p(x⃗ |wi)P(wi)∑cj=1p(x⃗ |wj)P(wj)
- gi(x⃗ )=p(x⃗ |wi)P(wi)
- gi(x⃗ )=lnp(x⃗ |wi)+lnP(wi)
正態判別函數
對於正態分佈,通常我們取判別函數爲gi(x⃗ )=lnp(x⃗ |wi)+lnP(wi) ,根據正態分佈密度函數可得:
gi(x⃗ )=−12(x⃗ −u⃗ i)TΣ−1i(x⃗ −u⃗ i)−d2ln2π−12ln|Σi|+lnP(wi)
情況1 : Σi=σ2I
對此情況,|Σi|=σ2d , Σ−1i=Iσ2 ,由此簡化判別函數爲:
gi(x⃗ )=−||x⃗ −u⃗ i||2σ2+lnP(wi)=−12σ2[x⃗ Tx⃗ −2ui→Tx⃗ +ui→Tui→]+lnP(wi)
顯然x⃗ Tx⃗ 對所有的i是相等的,所以可以簡化gi 爲線性判別函數:gi(x⃗ )=wi→Tx⃗ +wi0
其中wi→=1σ2ui→ , wi0=−12σ2u⃗ Tiu⃗ i+lnP(wi)
對於i≠j ,令gi=gj ,得:w⃗ T(x⃗ −x⃗ 0)=0 ,其中w⃗ =u⃗ i−u⃗ j,x⃗ 0=12(u⃗ i+u⃗ j)−σ2||u⃗ i−u⃗ j||lnP(wi)P(wj)(u⃗ i−u⃗ j)
由w⃗ 可見,判別面爲數據的法平面,當P(wi)=P(wj) 時,正好是中垂面
情況2 : Σi=Σ
判別函數可重寫爲: gi(x⃗ )=−12(x⃗ −u⃗ i)TΣ−1i(x⃗ −u⃗ i)+lnP(wi)
由同樣的方法可得:
w⃗ =Σ−1(u⃗ i−u⃗ i),x0=12(u⃗ i+u⃗ j)−ln[P(wi)]/P(wj)](u⃗ i−u⃗ j)TΣ−1(u⃗ i−u⃗ j)(u⃗ i−u⃗ j)
由w⃗ 可見,判別面爲數據馬氏距離的法平面,當P(wi)=P(wj) 時,正好是馬氏距離中垂面
最大似然估計
假設每個分類有數據集D1,D2...Dc 的樣本分別都是根據獨立同分布的p(x⃗ |wj) 抽取的,概率分佈形式已知,但參數未定,約定未知參數符號爲θ⃗ j ,那麼可以寫出最大似然函數:L(Dj|θ⃗ j)=Πnk=1p(x⃗ k|θ⃗ j)
我們認爲發生的事情爲是概率最大的事,所以目標爲求得使得L(Dj|θ⃗ j)) 最大的θ⃗ j , 一般情況,爲了計算方便,我們使用似然函數的對數函數即l(θ⃗ j)=lnL
高斯解
- u 未知:u^=1n∑nk=1x⃗ k
- u,Σ 未知:u^=1n∑nk=1x⃗ k,Σ^=1n∑nk=1(x⃗ k−u^)(x⃗ k−u^)T