目標跟蹤之High Performance Visual Tracking with Siamese Region Proposal Network論文閱讀筆記

論文地址:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

出發點:Siamese論文選框只在目標的中間位置,利用滑窗加多尺度迴歸的方式計算量過大且計算方式過於死板精度不高,對於運動速度快的物體跟蹤效果不佳。基於相關濾波(CF)的方法速度快,精度不高,基於深度學習的方法精度上佔優勢但速度較慢。Siamese類方法只在第一幀提取模板,在過程中不進行更新,無法應對變化較明顯的目標。只採用第一幀特徵的原因是該特徵最爲魯棒且計算更精簡,速度更快。

改進:作者基本上述原因,以孿生網絡爲基礎,結合RPN結構,形成Siamese + RPN的跟蹤網絡。能夠利用大尺度的圖像對離線端到端訓練,具體來講,這個結構包含用於特徵提取的孿生子網絡(Siamese network)和候選區域生成網絡(region proposal network),其中候選區域生成網絡包含分類和迴歸兩條支路。在跟蹤階段,提出的方法被構造成爲單樣本檢測任務(one-shot detection task)。
 

網絡結構:

利用模版幀來學習檢測分支RPN的網絡參數。預訓練模版分支,利用第一幀模板幀的目標特徵輸出一系列weights,用於迴歸的參數權重和用於分類的參數權重,這些weights相當於對目標進行了編碼,將其作爲檢測分支RPN網絡的參數去detect目標。

模板支學到一個編碼目標的特徵,用這個特徵去尋找目標,會比直接用第一幀的特徵圖去做匹配更魯棒。相比原始的Siamese網絡,RPN網絡可以直接回歸出目標的座標和尺寸,既精確,又不像multi-scale浪費時間。 在相關特徵圖譜上提取特徵區域,然後將模板分支上的目標外觀信息編碼到RPN特徵中,來判別前景和背景。

RPN即Region Proposal Network,首先是在Faster-RCNN中提出的,用於目標檢測。分爲兩個支路,一個用於分類前景和背景,一個用於邊界框迴歸。

One-shot learning:最常見的例子就是人臉檢測,只知道一張圖片上的信息,用這些信息來匹配出要檢測的圖片,這就是單樣本檢測,也可以稱之爲一次學習

proposal selection:

1、丟棄掉距離中心太遠的候選框,只在一個比原始特徵圖小的固定正方形範圍內選擇

2、餘弦窗(空間)(抑制距離過大的),尺度變化懲罰(抑制尺度大變化)對proposal進行排序

3、非極大抑制(NMS)將不是極大的框都去掉,去除榮譽的重疊框

具體操作:先選擇一個置信度最高的框,其餘的框與之的IoU大於某閾值,就剔除掉,從未處理的框中繼續選一個得分最高的,重複上述操作。


 
參考博客:https://blog.csdn.net/qinhuai1994/article/details/80601220

https://blog.csdn.net/fzp95/article/details/80982201

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章