Bag of word

 Bag of Word,顧名思義,即將某些Word打包,就像我們經常會把類似的物品裝到一個櫃子,或者即使是隨意打包一些物品,也是爲了我們能夠方便的攜帶,在對大數據作處理的時候,爲了能夠方便的攜帶這些數據中的信息,與其一個一個的處理,還不如打包來的容易一點。
     Bag of Word 因其理論簡單,易懂,在vision界也得到了廣泛的應用,有人將Bag of Word改成Bag of Visual Word來提出,充其量只是炒炒概念罷了,其基本的思想還是BOW(Bag of Word)
      Anyway, 簡單談一些關於Bag of Word的東西:
     Bag of word實現步驟:
     step 1: 大數據聚類,找到適當的聚類中心點----Vocabulary
     step 2: 訓練數據像聚類中心映射,得到每一個訓練數據在該聚類中心空間的一個低維表示。
     step 3: 得到每一個訓練數據的低維表示後,選擇適當的分類器訓練。
     step 4: 對新來的樣本先映射到聚類中心空間,然後利用得到的分類器進行預測。
   (覺得BOW思想類似於RBF人工神經網絡)

     在視覺領域,很希望能夠利用已知的目標或者圖像去得到相關的信息,這在機器人......等領域有着很廣泛的應用,所以利用視覺領域中圖像檢索這一塊解釋一些基本問題。
     
     Vocabulary建立(數據聚類):
      以SIFT 128維特徵作爲例子。例如現在有1000張訓練圖片,對每一張訓練圖片都提取SIFT的128維特徵,那麼最終可以得到 N(i) * 128的特徵,N(i)代表第幾張圖特徵點的個數,因爲圖片並非完全相同,所以特徵點的個數當然是不一樣的。接下來就是建立詞典的過程,利用現在常用的一些聚類算法,kmeans就OK,選擇聚類中心點的個數,1000個也好, 10000個也罷,聚類完成後,得到的就是一個1000(10000) * 128聚類中心點的空間,稱之爲詞典
      這個詞典就好比一個容器,通俗一點就是一個直方圖的基,利用這個去統計這些訓練樣本的個信息。

     訓練樣本的映射:
      此時已經得到了一個直方圖的基,如下圖:
Bag <wbr>of <wbr>Word閒談
圖1:圖中,n表示聚類中心點的個數,用BOW中的文字表示即使字典的個數。
      這些直方圖的基在像是在空間的一些三維空間的基向量i, j, k,利用這些基向量去構造別的向量,只需要知道特定的係數就行。所以接下來的步驟就是將原始的圖像特徵(SIFT 128維)向這些基向量作映射,得到相關的係數,如圖:
Bag <wbr>of <wbr>Word閒談
圖2:上圖中給出了兩個類別的直方圖
      通過相關的映射,得到不同類別的一個類別的直方圖的統計,這樣整個BOW特徵提取過程就算是完全實現了。接下來如何進行匹配,就是選擇分類器的問題了。

      分類器的選擇:
      其實BOW之所以有bag的意思也是將相似的特徵進行打包,得到統計的一個範圍,這個範圍就是直方圖的某一個bin。在進行圖像檢索的時候,接下來就是進行分類器的訓練與識別了,例如樸素貝葉斯分類器,支持向量機之類。一般利用BOW的時候,大多數人還是選擇支持向量機這玩意,有實驗證明BOW結合SVM效果要好於其他的分類器。不過,我沒做過對比實驗,這裏也算提一下。

     新來樣本的識別:
      在訓練好分類器後,對於新來的樣本,同樣先提取SIFT特徵,然後將SIFT特徵映射到上面圖1中的詞典中去,然後得到的直方圖就可以通過分類器進行分類了。如:
Bag <wbr>of <wbr>Word閒談
圖3 新圖片的BOW直方圖特徵

      上圖是一張新圖映射到詞典時得到的直方圖,可以看出,這張圖片相對於圖2的情況而言,更接近類別1,所以通過分類器,理想的裝填應該是判斷爲1。但是我們都知道,理想狀態的出現可能性太小,所以BOW難免會有出錯的時候,通過閱讀幾篇論文,發現現在BOW的識別率大概在60%-80%之間,當然了一方面是數據量巨大的問題,另外一方面也是因爲圖像之間的相似度高。所以整體來講,BOW的識別率還是再可以接受的範圍。

    心得:
      其實BOW沒有什麼特別的理論推導,我覺得僅僅只是將類似SIFT、HOG這些局部特徵的統計方法從微觀擴展到宏觀的過程,利用直方圖的統計的特性,構造多個詞典,利用簡單的距離映射,得到每一副圖片的BOW的特徵,但是這樣一個簡單的擴展確實最重要的創新點,同時也構造了一個廣泛應用的框架。

參考文獻:
[1] C.Dance, J.Willamowski, L.Fan, C.Bray, G.Csurka, Visual categorization with Bags of Keypoints, in: ECCV International Workshop on Statistical Learning in Computer Vision. Prague, 2004 
 
發佈了19 篇原創文章 · 獲贊 9 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章