翻譯 | ORB: An efficient alternative to SIFT or SURF(ORB:對SIFT或SURF的一種有效選擇)

博主github:https://github.com/MichaelBeechan
博主CSDN:https://blog.csdn.net/u011344545

ORB:對SIFT或SURF的一種有效選擇

ORB: an efficient alternative to SIFT or SURF

譯者:Michael Beechan(陳兵) 重慶理工大學

Ethan Rublee Vincent Rabaud Kurt Konolige Gary Bradski

Willow Garage, Menlo Park, California

引用:Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]// International Conference on Computer Vision. IEEE Computer Society, 2011:2564-2571.

ORB-SLAM1/2 : https://github.com/MichaelBeechan/ORB_SLAM2

論文下載鏈接:https://www.researchgate.net/publication/221111151_ORB_an_efficient_alternative_to_SIFT_or_SURF

摘要:

特徵匹配是很多計算機視覺問題的基礎,如目標識別或從運動到結構(SfM)。當前方法依靠成本很高的描述子檢測和匹配。在本文中,我們基於BRIEF提出了一個非常快的二進制描述子稱爲ORB,具有旋轉不變性和噪聲抵抗。我們通過實驗證明ORB比SIFT快兩個數量級,而在許多情況下表現也是如此。在幾個實際應用中測試了效率,包括智能手機上的對象檢測和補丁跟蹤。

1.引言

SIFT關鍵點檢測器和描述符[17],雖然十多年前,已被證明在使用視覺特徵的許多應用中取得了顯着成功,包括目標識別[17],圖像拼接[28],視覺映射[25]等。然而,它施加了大的計算負擔,特別是對於諸如視覺里程計的實時系統,或者對於諸如手機的低功率設備。 這驅使了用更低計算成本的密集搜索替換; 可以說,最好的是SURF[2]。還有研究旨在加速SIFT的計算,最顯着的是GPU設備[26]。

本文中,我們提出了計算效率高,擁有和SIFT算法匹配性能相同的算法替代SIFT,最圖像噪聲具有更好的魯棒性,具有實時性。我們的主要動機是增強許多常見的圖像匹配應用,例如,使得無GPU加速的低功耗設備可以執行全景拼接和補丁跟蹤,並減少標準PC上基於特徵的對象檢測的時間。我們的描述符對這些任務(以及比SURF更好)的SIFT也是如此,而速度幾乎是兩個數量級。

 

BRIEF來自使用二進制測試來訓練一組分類樹的研究[4]。一旦對一組500個典型的關鍵點進行訓練,樹可以用於返回任意關鍵點的簽名[5]。以類似的方式,我們尋找對方向最不敏感的測試。發現不相關測試的經典方法是主成分分析(PCA); 例如,已經表明,用於SIFT的PCA可以幫助消除大量的冗餘信息[12]。然而,二進制測試的可能性空間太大,無法執行PCA,而是使用詳盡的搜索。

視覺詞彙方法[21,27]使用離線聚類來找到不相關的樣本,並可用於匹配。這些技術也可能用於尋找不相關的二進制測試。

最接近ORB的系統是[3],它提出了一個多尺度的Harris關鍵點和定向補丁描述符。該描述符用於圖像拼接,並顯示良好的旋轉和尺度不變性。然而,相比我們的方法其計算效率並不高。

3.oFAST:FAST關鍵點定向

由於它們的計算性能,FAST特徵被廣泛使用。但是,FAST特徵沒有定向組件。在本節中,我們添加了一個有效計算的方向。

3.1 FAST檢測器

我們從圖像中檢測FAST點開始。FAST採用一個參數:中心像素與圍繞中心的圓環中的像素之間的強度閾值。我們使用FAST-9(圓半徑爲9),具有良好的性能。

FAST不會產生角度的測量,我們發現沿邊緣具有很大的響應。我們採用Harris角點[11]來整理FAST關鍵點。對於目標數量N的關鍵點,我們首先將閾值設置得足夠低以獲得超過N個關鍵點,然後根據哈里斯度量進行排序,並選擇頂點N個點。

FAST不產生多尺度特徵。我們使用圖像的尺度金字塔,並在金字塔的每個級別生成FAST角點(由哈里斯過濾)。

3.2 強度重心方向(Orientation by Intensity Centroid)

我們方法使用簡單但有效的角點方向的測量,即強度重心[22]。強度質心假定角點的強度偏離其中心,並且該向量可以用於估計取向。 Rosin的定義爲:

重心爲:

我們可以從角點中心構造一個向量O,對於重心。The orientation of the patch then simply is:

其中atan2是arctan的quadrant-aware version。松香提到,考慮到角點是暗還是亮; 然而,爲了我們的目的,我們可以忽略這一點,因爲角度測量是一致的,而不管角點類型。

爲了改善這種措施的旋轉不變性,我們確保使用x和y計算半徑r的圓形區域內的力矩。 我們經驗地選擇r作爲補丁大小,以便x和y從[-r,r]運行。由於| C | 接近0,測量變得不穩定; 對於FAST角點,我們發現這是很少的情況。

我們將質心法與兩種基於梯度的測量BIN和MAX進行了比較。在這兩種情況下,在平滑圖像上計算X和Y梯度。 MAX選擇關鍵點補丁中最大的梯度; BIN以10度的間隔形成梯度方向的直方圖,並選擇最大值。 BIN類似於SIFT算法,儘管它只選擇一個方向。 模擬數據集中的方向(面內旋轉加上附加噪聲)的方差如圖2所示。兩個梯度測量都不是非常好的,而質心即使在較大的圖像噪聲下也能給出均勻的取向。

 

Figure 2. Rotation measure. The intensity centroid (IC) performs best on recovering the orientation of artificially rotated noisy patches, compared to a histogram (BIN) and MAX method.

4. rBRIEF: Rotation-Aware Brief 

在本節中,我們首先介紹一個引導的BRIEF描述符,顯示如何有效地計算它,並展示爲什麼在旋轉方面它實際上表現不佳。然後,我們引入一個學習步驟,找到較少關聯的二進制測試,推導出更好的描述符r BRIEF,爲此,我們提供了與SIFT和SURF的比較。

4.1 BRIEF算子的有效旋轉

BRIEF的簡短概述

BRIEF描述符[6]是從一組二進制強度測試構建的圖像補丁的位串描述。考慮平滑的圖像補丁,p。二進制測試τ定義爲:

其中p(x)是p在點x上的強度。特徵被定義爲一個向量的n個二進制測試:

[6]中考慮了許多不同類型的測試分佈。在這裏,我們使用性能最好的,高斯分佈圍繞補丁的中心。我們也選擇矢量長度n = 256。

在執行測試之前平滑圖像很重要。在我們的實現中,使用整體圖像實現平滑,其中每個測試點是31×31像素補丁的5×5子窗口。這些是從我們自己的實驗中選出的,結果如[6]。

引導的BRIEF

我們想允許BRIEF對於在平面旋轉是不變的。BRIEF的匹配性能在平面內旋轉超過幾度時急劇下降(見圖7)。 Calonder [6]建議爲每個補丁的一組旋轉和視角扭曲計算一個BRIEF描述符,但是這個解決方案顯然是昂貴的。一個更有效的方法是根據關鍵點的方向來引導BRIEF。爲每個特徵集在位置做n個二進制測試,定義2 x n矩陣:

使用塊方向和相應的旋轉矩陣,我們構造一個S的引導版本:

現在引導BRIEF算子變爲:

我們將角度離散到2π/ 30(12度)的增量,並構建預先計算的BRIEF模式的查找表。只要關鍵點方向θ在視圖中是一致的,則將使用正確的點集合來計算其描述符。

4.2 方差和相關性

BRIEF的一個令人愉快的屬性是每個位特徵具有很大的方差且平均值接近0.5。圖3示出了對於超過100k個採樣關鍵點的256位的典型高斯BRIEF模式的均值擴展。平均值0.5給出了一個位特徵的最大樣本方差0.25。另一方面,一旦BREIF沿着關鍵點方向定向給出引導BRIEF,則將意味着轉移到更多分佈的模式(again,圖3)。瞭解這一點的一個方法是,方向角點關鍵點對二進制測試呈現出更加均勻的外觀。

高方差使特徵更具區別性,因爲它對輸入產生差異性的反應。另一個滿意的屬性是使測試不相關,因爲每個測試都將有助於結果。爲了分析BRIEF 向量中測試的相關性和方差,我們研究了BRIEF和引導BRIEF對100k個關鍵點的響應。結果如圖4所示。使用PCA對數據進行處理​,我們繪製最高的40個特徵值(之後兩個描述符收斂)。BRIEF和引導BRIEF展示了高初始特徵值,表明二進制測試之間的相關性——基本上所有的信息都包含在前10或15個組件中。然而,由引導BRIEF具有特別低的方差和較低的特徵值,因此不具有區別性。顯然,BRIEF取決於關鍵點的隨機取向以獲得良好的性能。另一個影響引導BRIEF的觀點顯示在內點和異常值之間的距離分佈(圖5)。注意到,對於引導BRIEF,異常值的平均值被推至左側,與內部變量有更多的重疊。

 

Figure 3. Distribution of means for feature vectors: BRIEF, steered BRIEF (Section 4.1), and r BRIEF (Section 4.3). The X axis is the distance to a mean of 0.5

 

Figure 4. Distribution of eigenvalues in the PCA decomposition over 100k keypoints of three feature vectors: BRIEF, steered BRIEF (Section 4.1), and r BRIEF (Section 4.3).

 

Figure 5. The dotted lines show the distances of a keypoint to outliers, while the solid lines denote the distances only between inlier matches for three feature vectors: BRIEF, steered BRIEF (Section 4.1), and r BRIEF (Section 4.3).

4.3 學習良好的二進制特徵

爲了從方差損失中恢復引導BRIEF,並且爲了減少二進制測試之間的相關性,我們開發了一種用於選擇一個很好的二進制測試子集的學習方法。一種可能的策略是使用PCA或其他一些降維方法,並從大量二進制測試集開始,識別256個具有高方差且在大型訓練集上不相關的新特徵。然而,由於新特徵是由更多的二進制測試組成的,因此它們的計算效率比引導BRIEF更低。相反,我們搜索所有可能的二進制測試,以找到兩者都具有高方差(並且均值接近0.5),以及不相關。

方法如下。我們首先在PASCAL 2006上描述圖像集[8],設定一個大約300k個關鍵點的訓練集。我們還列舉了31×31像素塊繪製的所有可能的二進制測試。每個測試是塊的一對5×5子窗口。如果我們注意到我們的塊的寬度爲wp = 31,測試子窗口的寬度爲wt = 5,那麼我們有N = (wp–wt)2個可能的子窗口。我們想從這些中選擇兩對,所以我們有二進制測試。我們消除重疊的測試,所以我們最終得到M = 205590可能的測試。算法是:

1.對所有訓練補丁運行每個測試。

2.按照與0.5的平均距離進行測試,形成矢量T.

3.貪婪搜索

(a)將第一個測試放入結果向量R中,並將其從T中刪除。

(b)從T進行下一次測試,並將其與R中的所有測試進行比較。如果其絕對相關性大於閾值,則將其丟棄; 否則添加到R.

(c)重複上一步驟,直到在R中有256個測試。如果少於256個,提高閾值並重試。

這個算法是貪婪搜索一組不相關的測試,均值接近0.5。結果稱爲rBRIEF。rBRIEF在引導BRIEF中的方差和相關性有顯着改善(見圖4)。PCA的特徵值較高,並且快速下降。有趣的是看到算法產生的高方差二進制測試(圖6)。在未研究的測試(左圖)中存在非常顯着的垂直趨勢,其高度相關; 學習測試顯示出更好的多樣性和較低的相關性。

4.4 估計

我們使用兩個數據集來評估oFAST和rBRIEF的組合,即ORB:合成的平面旋轉和添加了高斯噪聲的圖像,以及從不同視點捕獲的紋理平面圖像的真實世界數據集。對於每個參考圖像,我們計算了oFAST關鍵點和rBRIEF特徵,每個圖像的目標是500個關鍵點。對於每個測試圖像(合成旋轉或現實世界的視角變化),我們都這樣做,然後執行暴力匹配以找到最佳對應。結果根據正確匹配的百分比與旋轉角度給出。

 

Figure 6. A subset of the binary tests generated by considering high-variance under orientation (left) and by running the learning algorithm to reduce correlation (right). Note the distribution of the tests around the axis of the keypoint orientation, which is pointing up. The color coding shows the maximum pairwise correlation of each test, with black and purple being the lowest. The learned tests clearly have a better distribution and lower correlation.

 

Figure 7. Matching performance of SIFT, SURF, BRIEF with FAST, and ORB (o FAST +r BRIEF) under synthetic rotations with Gaussian noise of 10.

圖7顯示了添加10的高斯噪聲合成測試集的結果。注意到,標準BRIEF操作符在約10度之後急劇下降。SIFT優於SURF,由於其Haar小波組成,它顯示出45度角的量化效應。ORB具有最好的表現,超過70%的inliers。

與SIFT不同,ORB對高斯圖像噪聲相對免疫。如果我們繪製了inliers的性能與噪聲,則SIFT在每增加5個噪聲增量的情況下表現出10%的穩定下降。ORB也下降,但速度要低得多(圖8)。

 

Figure 8. Matching behavior under noise for SIFT and r BRIEF. The noise levels are 0, 5, 10, 15, 20, and 25. SIFT performance degrades rapidly, while r BRIEF is relatively unaffected.

 

Figure 9. Real world data of a table full of magazines and an out-door scene. The images in the first column are matched to those in the second. The last column is the resulting warp of the first onto the second.

爲了在現實世界的圖像上測試ORB,我們拍攝了兩套圖像,一幅是我們自己的室內桌子上高紋理的雜誌(圖9),另一幅是戶外場景。數據集具有尺度,視點和照明變化。在這組圖像上運行一個簡單的inlier/outlier測試,我們測量ORB相對於SIFT和SURF的性能。測試以下列方式進行:

1.選擇一個參考角度V0。

2.對於所有的Vi,找到一個單應變換Hi0,映射Vi—>V0。

3.現在用Hi0作爲SIFT,SURF,ORB描述子匹配的地面真值。

 

 

參考文獻:

[1] M. Aly, P. Welinder, M. Munich, and P. Perona. Scaling object recognition: Benchmark of current state of the art techniques. In First IEEE Workshop on Emergent Issues in Large Amounts of Visual Data (WS-LAVD), IEEE International Conference on Computer Vision (ICCV), September

2009. 6

[2] H. Bay, T. Tuytelaars, and L. Van Gool. Surf: Speeded up robust features. In European Conference on Computer Vision,May 2006. 1, 2

[3] M. Brown, S. Winder, and R. Szeliski. Multi-image matching using multi-scale oriented patches. In Computer Vision and Pattern Recognition, pages 510–517, 2005. 2

[4] M. Calonder, V. Lepetit, and P. Fua. Keypoint signatures for fast learning and recognition. In European Conference on Computer Vision, 2008. 2

[5] M. Calonder, V. Lepetit, K. Konolige, P. Mihelich, and P. Fua. High-speed keypoint description and matching using dense signatures. In Under review, 2009. 2

[6] M. Calonder, V. Lepetit, C. Strecha, and P. Fua. Brief: Binary robust independent elementary features. In In European Conference on Computer Vision, 2010. 1, 2, 3, 5

[7] O. Chum and J. Matas. Matching with PROSAC - progressive sample consensus. In C. Schmid, S. Soatto, and C. Tomasi, editors, Proc. of Conference on Computer Vision and Pattern Recognition (CVPR), volume 1, pages 220–226, Los Alamitos, USA, June 2005. IEEE Computer Society. 7

[8] M. Everingham. The PASCAL Visual Object Classes Challenge 2006 (VOC2006) Results. http://pascallin.ecs.soton.ac.uk/challenges/VOC/databases.html.4

[9] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2009 (VOC2009) Results. http://www.pascalnetwork.org/challenges/VOC/voc2009/workshop/index.html. 6, 7

[10] A. Gionis, P. Indyk, and R. Motwani. Similarity search in high dimensions via hashing. In M. P. Atkinson, M. E. Orlowska, P. Valduriez, S. B. Zdonik, and M. L. Brodie, editors, VLDB’99, Proceedings of 25th International Conference on Very Large Data Bases, September 7-10, 1999, Edinburgh, Scotland, UK, pages 518–529. Morgan Kaufmann, 1999. 6

[11] C. Harris and M. Stephens. A combined corner and edge detector. In Alvey Vision Conference, pages 147–151, 1988.2

[12] Y. Ke and R. Sukthankar. Pca-sift: A more distinctive representation for local image descriptors. In Computer Vision and Pattern Recognition, pages 506–513, 2004. 2

[13] G. Klein and D. Murray. Parallel tracking and mapping for small AR workspaces. In Proc. Sixth IEEE and ACM International Symposium on Mixed and Augmented Reality (ISMAR’07), Nara, Japan, November 2007. 1

[14] G. Klein and D. Murray. Improving the agility of keyframe-based SLAM. In European Conference on Computer Vision,2008. 2

[15] G. Klein and D. Murray. Parallel tracking and mapping on a camera phone. In Proc. Eigth IEEE and ACM International Symposium on Mixed and Augmented Reality (ISMAR’09), Orlando, October 2009. 7

[16] V. Lepetit, F. Moreno-Noguer, and P. Fua. EPn P: An accurate O(n) solution to the pnp problem. Int. J. Comput. Vision, 81:155–166, February 2009. 7

[17] D. G. Lowe. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2):91–110, 2004. 1, 2

[18] Q. Lv, W. Josephson, Z. Wang, M. Charikar, and K. Li. Multi-probe LSH: efficient indexing for high-dimensional similarity search. In Proceedings of the 33rd international conference on Very large data bases, VLDB ’07, pages 950–961. VLDB Endowment, 2007. 6

[19] M. Martinez, A. Collet, and S. S. Srinivasa. MOPED: A Scalable and low Latency Object Recognition and Pose Estimation System. In IEEE International Conference on Robotics and Automation. IEEE, 2010. 7

[20] M. Muja and D. G. Lowe. Fast approximate nearest neighbors with automatic algorithm configuration. VISAPP, 2009.6

[21] D. Nist´er and H. Stew´enius. Scalable recognition with a vocabulary tree. In CVPR, 2006. 2, 6

[22] P. L. Rosin. Measuring corner properties. Computer Vision and Image Understanding, 73(2):291 – 307, 1999. 2

[23] E. Rosten and T. Drummond. Machine learning for high-speed corner detection. In European Conference on Computer Vision, volume 1, 2006. 1

[24] E. Rosten, R. Porter, and T. Drummond. Faster and better: A machine learning approach to corner detection. IEEE Trans. Pattern Analysis and Machine Intelligence, 32:105–119, 2010. 1

[25] S. Se, D. Lowe, and J. Little. Mobile robot localization and mapping with uncertainty using scale-invariant visual landmarks. International Journal of Robotic Research, 21:735–758, August 2002. 1

[26] S. N. Sinha, J. michael Frahm, M. Pollefeys, and Y. Genc. Gpu-based video feature tracking and matching. Technical report, In Workshop on Edge Computing Using New Commodity Architectures, 2006. 1

[27] J. Sivic and A. Zisserman. Video google: A text retrieval approach to object matching in videos. International Conference on Computer Vision, page 1470, 2003. 2, 6

[28] N. Snavely, S. M. Seitz, and R. Szeliski. Skeletal sets for efficient structure from motion. In Proc. Computer Vision and Pattern Recognition, 2008. 1

[29] G. Wang, Y. Zhang, and L. Fei-Fei. Using dependent regions for object categorization in a generative framework, 2006. 6

[30] A. Weimert, X. Tan, and X. Yang. Natural feature detection on mobile phones with 3D FAST. Int. J. of Virtual Reality, 9:29–34, 2010. 7

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章