概述,貝葉斯策略,最大似然估計

概述,貝葉斯策略,最大似然估計

標籤: 模式分類

@author lancelot-vim


緒論

寬度和數量直方圖:

寬度與數量直方圖.png-138.7kB

光澤度和數量直方圖:

光澤度與數量直方圖.png-137.3kB

寬度-光澤度聯合分類圖:

寬度-光澤度聯合分類.png-176.6kB

簡單歸納:

  1. 從單一特徵得到的分類一般不強
  2. 將單一特徵組合起來成多特徵分類能得到更強的分類器
  3. 分類器模型簡單(如圖中紅色線條)會比較弱,分類器太強(如圖中藍色線條)可能會過分類
  4. 以上問題,可能會存在如果鱸魚分錯,可能不會有太大的問題,但反之可能造成很大的影響

問題:

  1. 如何選擇特徵
  2. 如何選擇分類器
  3. 分類之後如何採取行動

處理方案流程圖:

Created with Raphaël 2.1.0輸入 (物理信號)傳感器 (輸入信號,模擬信號、數字信號等)預處理 (分割,組織,對單詞、字母、圖像去除背景等操作)特徵提取 (平移不變性、旋轉不變性、尺度不變性,三維問題、遮擋問題、透視失真等)分類 (同一類別特徵值波動, 不同類別的差異,特徵丟失)後處理 (上下文信息改善分類,根據風險選擇策略)

貝葉斯決策論

引言

條件概率密度與貝葉斯公式

條件概率密度與貝葉斯公式.png-90.5kB

P(w1)=23 , P(w2)=13 時的後驗概率:

後驗概率圖.png-84kB


誤差定義:

p(error)={p(w1|x)p(w2|x)xw2xw2

總誤差爲: P(error)=p(error,x)dx=p(error|x)p(x)dx

x , 若 p(error|x) 儘量小, 那麼 P(error) 就儘量小, 所以令 p(error|x)=min[p(w1|x),p(w2|x)]


連續特徵的貝葉斯決策論

  • 允許使用多於一個的特徵
  • 允許使用兩種類別以上的情形
  • 允許有其他行爲而不僅僅只是判定類別
  • 通過引入一個更一般的損失函數來代替誤差概率

以下4個約定:
1. {w1,w2,w3,...wc} 表示c個類別(class)
2. {α1,α2,α3....αa} 表示a中行動(action)
3. λ(αi|wj) 表示類別爲wj ,採取行爲αi 的損失
4. x⃗  表示d維的特徵

根據貝葉斯公式: p(wj|x⃗ )=p(x⃗ |wj)p(wj)p(x⃗ )

若觀測到x⃗ 0 ,採取行爲αi ,則損失爲:R(αi|x⃗ 0) = cj=1λ(αi|wj)p(wj|x⃗ 0)

總損失爲: R=R(α(x⃗ )|x⃗ )P(x⃗ )dx⃗ 
若選擇α(x⃗  使得:R(αi|x⃗ ) 對每個x⃗  儘可能小,則風險函數最小化


對於二分類問題

約定:
1. α1 對應於w1
2. α2 對應於w2
3. λij=λ(αi|wj) 表示損失

則損失函數方程爲:

{R(α1|x⃗ )=λ11p(w1|x⃗ )+λ12p(w2|x⃗ )R(α2|x⃗ )=λ21p(w1|x⃗ )+λ22p(w2|x⃗ )

R(α1|x⃗ )<R(α2|x⃗ ) , 即(λ21λ11)p(w1|x⃗ )>(λ12λ22)p(w2|x⃗ ) ,將該類別判爲w1

λ21>λ11p(x⃗ |w1)p(x⃗ |w2)>λ12λ22λ21λ11P(w2)P(w1)=θ , 將該類別判爲w1 , 如下圖
似然比圖.png-75.2kB


極小化極大原則

總損失:

R=R1[λ11p(x⃗ |w1)P(w1)+λ12p(x⃗ |w2)P(w2)]dx⃗  +R2[λ21p(x⃗ |w1)P(w1)+λ22p(x⃗ |w2)P(w2)]dx⃗ 

由於P(w2)=1P(w1) , R1=1R2 得:

R[P(w1)]=λ22+(λ12λ22)R1p(x⃗ |w2)dx⃗ +P(w1)[(λ11λ22)+(λ21λ11)R2p(x⃗ |w1)dx⃗ (λ12λ22)R1p(x⃗ |w2)dx⃗ ]

(λ11λ22)+(λ21λ11)R2p(x⃗ |w1)dx⃗ (λ12λ22)R1p(x⃗ |w2)dx⃗ =0

可得R1 ,R2 , 以及極小化極大誤差:Rmm=λ22+(λ12λ22)R1p(x⃗ |w2)dx⃗ =λ11+(λ21λ11)R2p(x⃗ |w1)dx⃗ 

極小化極大描述圖:

極小化極大描述圖.png-62kB

分類器、判別函數和判定面

定義:

一般我們認爲對於所有的ji ,有gi(x⃗ )>gj(x⃗ ) ,則認爲該特徵向量x⃗  的類型爲wi

一般流程如下圖:

分類決策流程圖.png-79.3kB

一般判決函數選擇:

  1. gi(x⃗ )=P(wi|x⃗ )=p(x⃗ |wi)P(wi)cj=1p(x⃗ |wj)P(wj)
  2. gi(x⃗ )=p(x⃗ |wi)P(wi)
  3. gi(x⃗ )=lnp(x⃗ |wi)+lnP(wi)

正態判別函數

對於正態分佈,通常我們取判別函數爲gi(x⃗ )=lnp(x⃗ |wi)+lnP(wi) ,根據正態分佈密度函數可得:
gi(x⃗ )=12(x⃗ u⃗ i)TΣ1i(x⃗ u⃗ i)d2ln2π12ln|Σi|+lnP(wi)

情況1 : Σi=σ2I

對此情況,|Σi|=σ2d , Σ1i=Iσ2 ,由此簡化判別函數爲:

gi(x⃗ )=||x⃗ u⃗ i||2σ2+lnP(wi)=12σ2[x⃗ Tx⃗ 2uiTx⃗ +uiTui]+lnP(wi)
顯然x⃗ Tx⃗  對所有的i是相等的,所以可以簡化gi 爲線性判別函數:gi(x⃗ )=wiTx⃗ +wi0

其中wi=1σ2ui , wi0=12σ2u⃗ Tiu⃗ i+lnP(wi)

對於ij ,令gi=gj ,得:w⃗ T(x⃗ x⃗ 0)=0 ,其中w⃗ =u⃗ iu⃗ j,x⃗ 0=12(u⃗ i+u⃗ j)σ2||u⃗ iu⃗ j||lnP(wi)P(wj)(u⃗ iu⃗ j)

w⃗  可見,判別面爲數據的法平面,當P(wi)=P(wj) 時,正好是中垂面

情形一示意圖.png-50.6kB


情況2 : Σi=Σ

判別函數可重寫爲: gi(x⃗ )=12(x⃗ u⃗ i)TΣ1i(x⃗ u⃗ i)+lnP(wi)

由同樣的方法可得:
w⃗ =Σ1(u⃗ iu⃗ i),x0=12(u⃗ i+u⃗ j)ln[P(wi)]/P(wj)](u⃗ iu⃗ j)TΣ1(u⃗ iu⃗ j)(u⃗ iu⃗ j)

w⃗  可見,判別面爲數據馬氏距離的法平面,當P(wi)=P(wj) 時,正好是馬氏距離中垂面


最大似然估計

假設每個分類有數據集D1,D2...Dc 的樣本分別都是根據獨立同分布的p(x⃗ |wj) 抽取的,概率分佈形式已知,但參數未定,約定未知參數符號爲θ⃗ j ,那麼可以寫出最大似然函數:L(Dj|θ⃗ j)=Πnk=1p(x⃗ k|θ⃗ j)

我們認爲發生的事情爲是概率最大的事,所以目標爲求得使得L(Dj|θ⃗ j)) 最大的θ⃗ j , 一般情況,爲了計算方便,我們使用似然函數的對數函數即l(θ⃗ j)=lnL

最大似然估計示意圖.png-96.2kB

高斯解

  1. u 未知:u^=1nnk=1x⃗ k
  2. u,Σ 未知:u^=1nnk=1x⃗ k,Σ^=1nnk=1(x⃗ ku^)(x⃗ ku^)T

發佈了21 篇原創文章 · 獲贊 15 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章