北理工 MOOC - 模式識別系統基本概念

最近在 MOOC 上學習北理工的模式識別課程,這裏記錄下學習筆記。

1、樣本、特徵與特徵空間

  • 樣本:一個個具體要識別的事物稱爲樣本。
  • 特徵:從樣本中抽取能夠識別這個樣本的關鍵特性,稱爲樣本的一個特徵,例如 4 個輪子是汽車的一個重要特徵。
  • 特徵空間:當我們找到一組特徵來表達一個樣本後,就完成了樣本到特徵表達之間的數學轉換,所有樣本轉換完後構成的特徵表達就是特徵空間。

在特徵空間中,每個樣本都可以看做是由一組特徵來表達的一個點,通過抽取樣本的特徵,並轉換成數學表達,就將原事物(樣本)的識別問題轉換爲:對該樣本在特徵空間中對應點的進行分類。

2、向量空間、集合空間

  • 向量空間:如果樣本的一個特徵可以抽象成向量的一個維度,那麼一個樣本的多個特徵就可以抽象成向量空間的一個向量,即特徵向量。
  • 集合空間:如果樣本的特徵不能用向量空間來表達,則可以構成集合空間。

3、有監督、無監督學習

模式識別技術的核心其實是一個分類器,要實現一個好的分類器,關鍵是確定一個好的分類決策規則,即設計一個好的分類器模型或模式識別算法,以及確定要抽取的用於分類的樣本特徵。

我們經常聽到的訓練,學習的意思是:在已經確定分類器模型和樣本特徵的前提下,通過算法來處理大量訓練數據來找到最優參數的過程。

那什麼是有監督學習呢?有監督的意思是存在人工干預,比如人爲的給一個樣本加上小狗的標籤,另一個樣本加上小貓的標籤,然後讓分類器分別在這兩個樣本上訓練,訓練完成後給定兩個樣本之一,分類器能夠識別樣本圖片中是小狗還是小貓。

而無監督學習更好理解:就是把小貓和小狗 2 類樣本混在一起,不人爲設置標籤,完全讓算法自行分類,即無人工干預,而是自主地從數據代表的自然規律中學習類別劃分。

無監督學習相比有監督學習具有更高的智能水平,是未來模式識別發展的主要方向。

4、緊緻性、維數災難

緊緻性:這個特性可以作爲判斷樣本優劣性的一個指標,緊緻性好的樣本,類內相似度遠大於類間相似,分類的裕量越大,錯誤率也越小。

比如:貓或狗的類內樣本很相似,但 2 個樣本之間相似度很低,因爲貓和狗特徵相差比較大。

5、泛化能力、過擬合

  • 泛化能力:用已知樣本訓練好的分類器對未知樣本的適應能力稱爲泛化能力。
  • 過擬合:要求訓練的分類器能夠正確分類所有樣本,過分地追求分類的正確性,導致分類器的泛化能力降低,就稱爲過擬合。

6、模式識別系統

這是模式識別系統的框架,分類器的訓練和對應的數學算法是整個框架的核心,下面分別簡單介紹下每個步驟。

1)模式採集

模式採集的作用主要是將外部事物的各種信息轉換爲計算機能夠處理的數據值,常見的步驟有:採集傳感器模擬信號 -> A/D 轉換 -> 計算機能處理的數字信號。

最常見的就是計算機處理相機拍攝的圖片 - 圖像處理領域。

2)預處理

通常採集的傳感器數據都會包含干擾和無用數據,預處理過程的作用就是通過濾波等方法來去除干擾等噪聲,並增強樣本有用的分類特徵。

3)特徵降維

通過模式採集和預處理後樣本的特徵數量很多,如果選用所有的樣本特徵用於分類,那麼算法的複雜度會很高,性能也不一定好。因此,我們可以從大量的特徵中選擇對分類最有效的有限個特徵,即減少特徵的數量,就是特徵降維。

特徵降維主要有 2 種方法:

  • 特徵選擇:從已有的特徵中選擇一組用於分類的特徵,摒棄其他特徵。
  • 特徵提取:對原始的高維特徵進行映射變換,生成一組維數更少的特徵。

4)分類器設計

分類器的設計過程可以說是分類自主學習的過程,或者說對分類器進行訓練,常見的有 2 種學習方法,前面也提到過:

  • 無監督學習:人們沒有爲樣本提前分類,由分類器完全自主進行訓練,分類。
  • 有監督學習:人們提前爲樣本分好類,設置了類別標籤,分類器在一個已知類別的樣本中學習樣本特徵,再進行對未知樣本的分類。

簡單來說:就是一個完全自主,一個需要人爲干預。

5)分類決策

分類決策是對待分類的樣本按照已經建立起來的分類決策規則進行分類,並且評估分類的結果。

本文原創首發於 同名微信公號「程序小哥」,微信搜索關注回覆「1024」你懂的!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章