空間金字塔方法表示圖像

原創

2018-09-03 22:08

注：本學習筆記是自己的理解，如有錯誤的地方，請大家指正，共同學習進步。

本文學習自CVPR論文《Discriminative Spatial Pyramid》、《Discriminative Spatial Saliency for Image Classification》及《Beyond Bags of Features: Spatial Pyramid Matching
for Recognizing Natural Scene Categories》，在此感謝論文作者。

空間金字塔方法表示圖像是傳統BOF(Bag Of Features)方法的改進，傳統BOF方法提取圖像特徵時，首先提取每張圖像的SIFT特徵描述，之後將所有圖像的興趣點的特徵描述進行聚類形成BOW視覺詞袋，最後對每張圖像統計所有視覺關鍵詞出現的頻次。因此BOF是在整張圖像中計算特徵點的分佈特徵，進而生成全局直方圖，所以會丟失圖像的空間分佈信息，無法對圖像進行精確地識別。爲了克服BOF的這一缺點，提出了空間金字塔方法，它是在不同分辨率上統計圖像特徵點分佈，從而獲取圖像的空間信息。圖像被劃分爲金字塔各水平上的逐漸精細的網格序列，從每個網格中導出特徵並組合爲一個很大的特徵向量。

1、圖像尺度空間

SIFT中的圖像尺度空間可以理解爲用高斯對圖像做了卷積，圖像的分辨率還是那麼大，像素還是那麼多，只是細節被平均（平滑）掉了，原因就是高斯了，用周圍的信號比較弱的像素和中間那個信號比較強的點做平均，平均值當然比最強信號值小了，這就起到了平滑的作用。如下圖所示：

尺度可變高斯函數：

2、圖像金字塔

金字塔是圖像多尺度表示的主要形式，圖像金字塔是以多分辨率來解釋圖像的一種有效但概念簡單的結構。一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步降低的圖像集合。如下圖所示。

圖像金字塔化一般包括二個步驟：1、利用低通濾波器平滑圖像；2、對平滑圖像進行抽樣，從而得到一系列尺寸縮小的圖像。

3、空間金字塔表示圖像

《Discriminative Spatial Pyramid》

原始方法是首先提取原圖像的全局特徵，然後在每個金字塔水平把圖像劃分爲細網格序列，從每個金字塔水平的每個網格中提取出特徵，並把它們連接成一個大特徵向量。但由於圖像中每個局部區域反映的信息量不同，由此提出加權空間金字塔方法，及給每層每網格分配一個權重，按權重把每層每網格特徵加權串聯在一起。如下圖：

左邊圖像是原始方法，右邊是加權方法。

fkl表示第l層第k網格的特徵向量，特徵用d維向量表示，c(l)表示l層金字塔的網格數。原始方法中，一幅圖像的空間金字塔特徵向量表示爲fs，如下：

加權方法表示爲fw，如下：

4、空間金字塔匹配SPM

《Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories》

空間金字塔匹配Spatial Pyramid Matching(SPM)，是一種利用空間金字塔進行圖像匹配、識別、分類的算法。

如下圖所示，將level(i)的圖像劃分爲pow(4,i)個cell（bins），然後再每一cell上統計直方圖特徵，最後將所有level的直方圖特徵連接起來組成一個vector，作爲圖形的feature。

上面的黑圓點、方塊、十字星代表一副圖像上某個pitch屬於k-means後詞典中的某個詞；

1）將圖像劃分爲固定大小的塊，如從左到右：1*1，2*2，4*4，然後統計每個方塊中詞中的不同word的個數；

2）從從左到右，統計不同level中各個塊內的直方圖；

3）最後個將每個level中獲得的直方圖都串聯起來，並且給每個level賦給相應的權重，從左到右權重依次增大；

4）將SPM放入SVM中進行訓練和預測；

論文中的實驗過程如下：

1）用 strong feature detector即SIFT進行特徵檢測，patch size=16*16，patch每次移動的步長spacing grid=8*8。

2）按照BOF相同的方法（即KMeans）構建包含M個words的dictionary。

3）利用圖像金字塔把圖像劃分爲多個scales的bins(空間金字塔分層分網格)，然後計算落入每個bins中屬於不同類別的word的個數，則圖像X、Y最終的匹配度爲(M爲關鍵詞個數)：(個人對此匹配度核函數的理解是：這個核函數可當作SVM中的核函數，來匹配兩幅圖像是否爲一類)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

[深度學習]經典網絡結構(二)——Alexnet(2012)

#本文意爲總結自己學習的網絡模型，以留作筆記使用,如有錯誤，歡迎在下方評論一、簡介 AlexNet可以說是現代深度CNN的奠基之作,它可以算是LeNet5的一種更深更寬的版本。二、網絡結構 AlexNet網絡的輸入尺寸爲224*224

2020-07-06 05:01:35

[深度學習]經典網絡結構(四)——NIN

#本文意爲總結自己學習的網絡模型,以留作筆記使用，如有錯誤,歡迎在下方評論一、簡介 NIN改進了傳統的CNN，採用了少量參數就取得了超過AlexNet的性能，AlexNet網絡參數大小是230M，NIN只需要29M 二、網絡結構 NIN

2020-07-06 05:01:35

基於DL的計算機視覺（2）--實現圖像分類最簡單的方法：KNN

1. 圖像分類問題這是人每天自然而然會做的事情，普通到大部分時候，我們都感知不到我們在完成一個個這樣的任務。早晨起牀洗漱，你要看看洗漱臺一堆東西中哪個是杯子，哪個是你的牙刷；喫早餐的時候你要分辨食物和碗碟… 抽象一下，對於一張輸

2020-07-04 22:45:57

手寫數字識別Mnist的Pytorch實現

手寫數字識別Mnist的Pytorch實現注：該內容爲校內課程實驗，僅供參考，請勿抄襲！源碼地址：Gray-scale-Hand-Written-Digits-Pytorch 一、引言（Introduction）手寫數字

华师数据学院·王嘉宁

2020-07-03 07:27:03

論文閱讀筆記《Improved Few-Shot Visual Classification》

核心思想本文提出一種基於度量學習小樣本分類算法，在CNAPS算法的基礎上，對分類器部分進行改進，引入一種新的距離度量方式，減少了參數數量並且提高了分類的準確率。下面我們首先介紹CNAPS算法。如上圖所示，CNAPS算

2020-07-02 15:27:07

卷積神經網絡遷移學習(如何冰凍，fineturning)

利用已經訓練好的權重做遷移學習只需要訓練最後一層全連接層就可以，當然看效果也可以往前多幾層。具體代碼講解如下： import keras print("KERAS version：{}".format(keras.__version__

2020-07-02 01:18:41

遷移學習，載入自己數據訓練好的模型並測試

vgg16的載入自己訓練模型測試代碼如下，resnet以及inceptionV可以替換掉vgg import numpy as np from keras.applications.imagenet_utils import deco

2020-07-02 01:18:41

數據資源-Imagenet2012/ILSVRC2012數據集百度網盤下載

一、網盤鏈接百度雲網盤鏈接：數據下載鏈接提取碼：4d67 歡迎大家關注我的個人微信公衆號： AI研習圖書館獲取更多深度學習資源，以及算法解析和項目實戰資源~ 二、具體類別信息 n01440764 魚 n0144353

2020-07-01 16:33:00

window10出現安裝cuda失敗原因

出現博客裏的錯誤, tensorflow-gpu訓練出現Couldnotcreatecudnnhandle:CUDNN_STATUS_NOT_INITIALIZED_aojue1109的博客-CSDN博客_couldnotcreate

2020-06-30 21:47:55

LIME技術個人總結和理解

方法：干涉輸入，然後觀察預測結果會怎樣變化。實驗表明這種做法在可解釋性上是有用的。因爲我們可以通過改變人類可以理解的組件（比如單詞或圖像的一部分）來改變輸入，即使模型使用的是更加複雜的組件（比如詞向量）作爲輸入的特徵。 LIME 背

2020-06-30 21:47:55

TensorFlow 安裝參考官方文檔指南

TensorFlow 安裝 TensorFlow 安裝還是要參考官方文檔指南

2020-06-30 21:47:54

Tensorflow保存和重載參數

Tensorflow保存和重載參數參考鏈接： https://www.cnblogs.com/houkai/p/9723988.html https://blog.csdn.net/LordofRobots/article/de

2020-06-29 15:32:29

BatchNormalization詳解

1.batch normalization的原理在神經網絡訓練過程中，由於網絡參數根據梯度下降在不斷的變化，每經過一個網絡層數據的分佈都會發生不同的改變。我們將這種由於網絡參數更新造成的數據分佈變化稱爲Internal Covariat

2020-06-29 05:20:50

圖像分類訓練技巧和精度提升總結

計算機視覺主要問題有圖像分類、目標檢測和圖像分割等。針對圖像分類任務，提升準確率的方法路線有兩條，一個是模型的修改，另一個是各種數據處理和訓練的技巧(tricks)。圖像分類中的各種技巧對於目標檢測、圖像分割等任務也有很好的作用，因此值得

2020-06-28 12:32:48

Kmeans分類對各類圖片中攝像頭角度的分類（附代碼）

Kmeans分類（角度分類）上次的氣象雲分類還在更新中【點擊這裏】，先記錄一下這次在做攝像頭角度分類用的算法和代碼；主要是針對攝像頭的角度不同使得產生的圖片也有差異，這裏主要使用的是Kmeans算法進行分類，具體如下： 1、用

2020-06-26 18:06:46

24小時熱門文章

最新文章

最新評論文章