[論文解讀]ASLFeat: Learning Local Features of Accurate Shape and Localization

先總結一下:

這個文章是對D2Net的更進一步,主要解決了D2Net的痛點——keypoint太不準了。我實際用D2Net進行三維重建就感受到,D2Net並不是高精度的像素級匹配,而更像是圖像檢索的DELF。它在4pixel threshold 的精度以下完全沒法跟傳統的SIFT之類比,只有當閾值放大纔能有特別出衆的效果。
MMA.png
這個文章解決了這個痛點,而且benchmark看起來效果也是特別好。
貢獻點:
1 使用deformable convolutional network(DCN)來增強基礎特徵提取能力;
2 利用了網絡特徵的固有層次性,提出了新的多尺度檢測機制,能夠檢測更加準確的關鍵點;
3 這個網絡是trained from scratch, d2net在分類任務上進行了初始化;

3 Methods

3.1 Prerequisites

1 Deformable convolutional networks (DCN): 這種是可以學習幾何形變的卷積,應用在這裏很棒,傳統的卷積在RFNet已經用堆疊在擴感受野,其實結果已經很受限了。
2 D2-Net :這個就是d&d方法,在檢測到描述子同時得到特徵點座標,借用了他的loss函數。

3.2. DCN with Geometric Constraints

原本的DCN可能包含過多的形變可能性,但是在本任務中其實主要需求的是三種:1) similarity, 2) affine and 3) homography.

3.3. Selective and Accurate Keypoint Detection

1 稍微改變了d2net的特徵點判斷標準 主要是通道上的判斷
2 使用了一種分層的尺度融合方法

3.4. Learning Framework

網絡結構:
使用L2Net作爲基準,最後三層換成DCN,1 3 8層用來融合尺度(1,2,3),這個參數是他們嘗試出來的。
Loss函數:

同D2Net基本上一樣,主要是M使用的是不用的衡量方法,更加穩定。

3.5. Implementations

沒啥新奇的,不過他們用480x480還能有比較好的尺度結果真是不錯。同時注意了訓練質量,對於匹配match不夠32的image pair是不會反傳的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章