關鍵詞:監督模式和非監督,馬氏距離,bayes決策理論
1.監督模式識別和非監督模式識別的區別
監督學習(supervised pattern recognition):已知要劃分的類別,並且能夠獲得一定數量的類別已知的訓練樣本。
非監督學習(unsupervised pattern recognition):事先不知道劃分的是什麼類別,更沒有類別已知的樣本做訓練。
說白了就是給你數據和label就是監督的,沒有label只有數據就是非監督的。
2.一般的模式識別問題分爲4部分:原始數據的獲取和預處理,特徵提取和選擇、分類或者聚類、後處理。
處理監督模式識別問題的一般步驟:
- 分析問題
- 原始特徵獲取
- 特徵提取和選擇
- 分類器的設計(訓練)
- 分類決策(識別)
非監督問題:
- 分析問題
- 原始特徵獲取
- 特徵提取和選擇
- 聚類分析
- 結果揭示
bayes決策理論
最小錯誤率貝葉斯決策:
從最小錯誤了處罰,利用概率論中的貝葉斯公式,就能的初始錯誤率最小的分類決策。
有多種等價形式如:
或者:
一般:
最小貝葉斯風險決策:
考慮各種錯誤造成損失不同時的一種最優策略。
(1)把樣本x看做d爲隨即向量
(2)狀態空間
(3)對隨即向量x可能採取的決策組成了決策空間,它由k個決策組成
(4)對於實際狀態爲
每個決策的的期望損失爲:
在的的特徵空間中所有可能的樣板恩x纔去決策所造成的期望損失是:
最小風險貝葉斯決策就是最小化這一期望風險:
Neyman Pearson決策規則
限定一類錯誤率爲常數,而使另一類錯誤率最小的決策規則稱作NeymanPearson準則
樸素貝葉斯分類器(Naive Bayes)
馬氏距離
優點:它不受量綱的影響,兩點之間的馬氏距離與原始數據的測量單位無關;由標準化數據和中心化數據(即原始數據與均值之差)計算出的二點之間的馬氏距離相同。馬氏距離還可以排除變量之間的相關性的干擾。缺點:它的缺點是誇大了變化微小的變量的作用。