Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 論文理解
解決什麼問題
物體追蹤
本文創新點\貢獻
- 提出了一個基於CNNs的多域學習框架,該框架將領域無關信息與領域相關信息分離開來,從而有效地捕獲共享表達
- 框架被成功地應用於視覺跟蹤中,其中通過多域學習預訓練的CNN被在線更新到一個新的序列環境中,自適應地學習領域特定的信息。
本文IDEA來源
傳統的學習方法不行,前景和背景的物體不固定,經常變換,所以直接學習是不行的,所以就想找最基本的泛用的視頻依賴
方法
從大量的數據集中尋找共享的target的表達,每個domin獨立訓練,做BCE二值分類,在每次迭代中更新共享層,這樣就能在所有的序列中共享捕獲的公共信息
方法概述
在第一幀周圍生成很多正樣本和負樣本,然後後面的幀根據前面的target的bbox來用高斯分佈生成一些框,再用網絡生成每個框的分數,分數高的給long-term做更新,低的給shrot-term做難負例挖掘,然後用網絡對這些框都回歸一下(一種方法),生成一個好bbox。
Learning Algorithm
爲了提取滿足這些公共屬性的有用特性,通過合併一個多域學習框架將領域獨立的信息與領域特定的信息分離開來
Tracking Control and Network Update
使用long-term收集的陽性樣本,定期進行長期更新,當檢測到潛在的跟蹤失敗(當估計的目標被歸類爲背景)時,就會在短期內使用陽性樣本進行短期更新
怎麼做的?
答:根據分數來選擇
觀測到和觀測不到的情況下,都是用短期來觀測負樣本,這是因爲老的負樣本一般跟現在幀無關了。
就是長期更新獲取很多幀,幾乎是全部,而短期更新只取最近的幾幀,這樣的負樣本對現在更有用,也是做了個對比實驗?
答:負樣本做難負例挖掘
所以長期和短期的執行是根據target外觀變化決定的(外觀變化反映到分數的生成上)。在前面的target周圍估計一些target的候選框,然後獲得positive分數和negative分數,從裏面positive分數最大的候選框:
Hard Minibatch Mining
大多數負樣本沒用,少數負樣本有用,做了難負例挖掘,所以訓練的樣本由和組成,其中是中分數最高的幾個。
Bounding Box Regression
因爲前面的作坊會在target周圍找很多positive框,所以沒有很緊密的bbox,用了另一種的方法來提高bbox精準度:
在給定測試序列第一幀的情況下,利用目標位置附近樣本的conv3特徵,訓練了一個簡單的線性迴歸模型來預測精確的目標位置,第一幀迴歸出來的框只要大於0.5分的
邊界盒迴歸模型只在第一幀進行訓練,因爲在線更新非常耗時,考慮到其風險,對迴歸模型的增量學習可能沒有太大幫助
就是說專門建了一個模型做第一幀的框的迴歸,生成了很多,爲後面的做準備
執行細節
是預訓練的,是隨機初始化的,只有權重是更新的
是短期週期和長期週期的幀的index的集合。
Target candidate generation:
每幀畫個採樣,,都是對上一幀的target最的位移和縮放,這些採樣服從高斯分佈,平均值是上一幀,協方差是對角矩陣,其中是上一幀的寬和高的平均值
寬高放一起算平均值?
訓練
離線學習:
每幀50個正採樣,200負採樣,正的分數,負的分數 IoU,
在線學習:
這會採樣的對象是估計的target bbox,,,0.7和0.3的分別oiu
其他參數:
第一幀,
mini-batch中 正, 從負中挑
總結
感覺並沒有什麼收穫