1 基本介绍

SPM 全称是Spatial Pyramid Matching，出现的背景是bag of visual words模型被大量地用在了图像表示（Image representation）中，但是BOVW模型完全缺失了特征点的位置信息。SPM考虑空间信息，将图像分成若干块(sub-regions)，分别统计每一子块的特征，最后将所有块的特征拼接起来，形成完整的特征，这就是SPM中的Spatial。在分块的细节上，采用了一种多尺度的分块方法，即分块的粒度越大越细(increasingly fine)，呈现出一种层次金字塔的结构，这就是SPM中的Pyramid。

如下图，对图像采用不同的尺度进行分块，得到不同尺度的图像，不同尺度构成层次关系：

上图中，不同的点可以看作不同的特征，每层中，点的个数，可以理解为该关键点或区域特征在该层次图像出现的频率，统计每个特征在不同层次图像中分布情况，可以得到每个特征的金字塔：

从level 2 到level 0类似The Pyramid Match Kernel中，直方图取不同间隔，即把level 2看做间隔为1，有16个bin，level 1间隔为2，得到4个bin....因此，对于两幅图像，用相同的尺度划分层次，并统计每个层次中每个cells中某特征出现的次数，得到该特征下的金字塔。

2 计算方法

可以用和The Pyramid Match Kernel相似的方法计算两个图形在该特征下的匹配程度（也可理解为相似度）。匹配方法如下：

每个层次的匹配点数：

说明：

1. SPM介绍了两幅图像匹配的方法。如要用于场景分类，上式就等于M(L+1)个直方图相交运算的和，其实也就等于一个更大的向量直接进行直方图相交运算而已。而这个向量，就等于每个被划分的图像子区域上的visual words直方图连在一起。这个特征，就是用来分类的特征。

2. 作者在实验中表明，不同L下，M从200取到400对分类性能影响不大，也就是降低了码书的大小对分类效果的影响。

3. 这个方法可以作为一个模板，每个分块图像（sub-region）中统计的直方图可以多种多样，简单的如颜色直方图，也可以用HOG，这就形成了PHOG（分层梯度直方图）。

4. 只不过这种空间分类信息仍然有局限性-----一幅相同的图像旋转90度，匹配的结果就不会太高了。所以模型隐含的假设就是图像都是正着存储的（人都是站立的，树都是站立的.......）。Spatial BOW （Spatial-bag-of-features[C]）好像可以解决这个问题。

5. 另外空间Pyramid的分块方法也没有考虑图像中目标的完整性（仅仅是利用SIFT特征来描述了Object），即，在对图像分块时，可能会把一个目标分在不同块中。

理论原文：Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

SPM——Spatial Pyramid Matching

1 基本介绍

2 计算方法

QT聚類(Quality Threshold Clustering)

OpenCV常用函數——圖像採樣

SPM——Spatial Pyramid Matching

C++字符串之間轉化——多字節字符集

BOF——Bag-of-Featrures

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結