【論文翻譯】High-Performance Long-Term Tracking with Meta-Updater

High-Performance Long-Term Tracking with Meta-Updater

使用元跟新器進行高性能長期跟蹤

該篇論文爲CVPR2020(Oral) ，這個作品是VOT2019-LT獲勝者的改進版本。
pdf
code

摘要：

長期視覺跟蹤越來越受到關注，因爲它比短期跟蹤更接近於實際應用。大多數排名靠前的長期追蹤者都採用了離線訓練的Siamese架構，因此他們無法從短期追蹤者在線更新的巨大進步中獲益。然而，直接引入基於在線更新的跟蹤器來解決長期問題是相當冒險的，因爲長期的不確定和嘈雜的觀察。在這項工作中，我們提出了一個新穎的離線訓練元更新，以解決一個重要但尚未解決的問題:跟蹤器是否準備在當前幀更新?提出的元更新器可以有效地將幾何線索、判別線索和外觀線索按順序整合在一起，然後利用設計的級聯LSTM模塊對序列信息進行挖掘。我們的元更新學習二進制輸出引導跟蹤器的更新，可以很容易地嵌入到不同的跟蹤器。該工作還引入了一個由在線本地跟蹤器、在線驗證器、基於SiamesRPN的重新檢測器和我們的metaupdater組成的長期跟蹤框架。在VOT2018LT、VOT2019LT、OxUvALT、TLP和LaSOT基準上的大量實驗結果表明，我們的跟蹤器性能顯著優於其他競爭算法。我們的項目可以在網站上找到: github。

圖1所示。VOT2019LT上有代表性的長期跟蹤結果的可視化和比較。ATOM是基於ATOM[9]的本地跟蹤器，our表示使用元更新的長期跟蹤器。ATOM它意味着我們沒有元更新器。CLGS和SiamDW LT是VOT2019LT上第二和第三好的跟蹤器。詳情請參閱第3及4節。

1. 介紹

視覺跟蹤的研究已經開始從短期跟蹤轉向大規模的長期跟蹤，大致有兩個原因。首先，長期跟蹤比短期跟蹤更接近實際應用。短期跟蹤基準測試(OTB[46]、VOT2018[23]、TC128[31]等)中的序列的平均長度通常處於第二級，而長期跟蹤數據集(如VOT2018LT[23]、VOT2019LT[24]和OxUvALT[42])中的平均幀長至少處於分鐘級。其次，長期跟蹤任務還需要跟蹤器具有處理頻繁消失和重新出現的能力。有較強的再檢測能力。基於深度學習的方法已經主導了短期跟蹤領域[30,47,35]，從一次性學習[41,2,15,28,26,12,53,29]或在線學習[37,10,8,21,40,7,49,50,9]的角度來看。通常，後一種方法(如ECO[8]、ATOM[9])比前一種方法(如SiamFC[2]、SiamRPN[28])更精確(訓練數據更少)，但速度更慢。一個奇怪的現象是，很少有領先的長期跟蹤機構利用在線更新的短期跟蹤機構進行本地跟蹤。VOT2018LT的獲勝者MBMD[51]利用一個離線訓練的迴歸網絡直接將目標s邊界盒迴歸到一個局部區域，並使用一個在線的驗證器使跟蹤器在局部跟蹤和全局重新檢測之間進行切換。最近的SPLT[48]方法在[51]中使用相同的SiamRPN模型進行局部跟蹤。OxUvALT報告中最好的方法SiamFC+R[42]爲原始SiamFC[2]配備了一個簡單的重新檢測方案。一個重要的原因是，在線更新對於跟蹤來說是一把雙刃劍。在線更新捕捉目標和背景的外觀變化，但不可避免地會用噪聲樣本污染模型。由於長期不確定的觀察，在線更新的風險被長期跟蹤放大了。

在上述分析的激勵下，本研究試圖從兩個方面提高長期跟蹤性能。首先，我們設計了一個長期跟蹤框架，利用在線更新的跟蹤器進行本地跟蹤。如圖1所示，通過將ATOM擴展到一個長期跟蹤器(ATOM LT)，跟蹤性能得到了顯著提高，但仍然比CLGS和SiamDW LT方法差。其次，我們提出一種新穎的元更新器來有效地引導跟蹤器的更新。圖1顯示了在添加了我們的元更新器之後，所提出的跟蹤器獲得了非常有前途的跟蹤結果。
我們的主要貢獻可以總結如下：

提出了一種新的離線訓練的元更新器來解決一個重要但尚未解決的問題:跟蹤器是否準備在當前幀中進行更新?所提出的元更新器有效地指導了在線跟蹤器的更新，不僅方便了所提出的跟蹤器，而且具有良好的泛化能力。
在基於siamrpc的重新檢測器、在線真實感測試器和帶有元更新器的在線本地跟蹤器的基礎上，引入了一個長期跟蹤框架。與其他方法相比，我們的長期跟蹤框架可以受益於在線更新的低風險短期跟蹤的優勢。
在VOT2018LT、VOT2019LT、OxUvALT、TLP和LaSOT長期基準上的大量實驗結果表明，該方法的性能大大優於最先進的跟蹤器。

2. 相關工作

2.1 長期的視覺跟蹤

雖然大規模的長期跟蹤基準[23,42]從2018年開始出現，但長期跟蹤任務(如基於關鍵點的[17]、基於提案的[54]、基於探測器的[22,32]等)一直受到研究者的重視。經典算法是跟蹤學習檢測(TLD)方法[22]，它將長期跟蹤作爲本地跟蹤器(具有前向-後向光流)和全局再檢測器(具有弱分類器集成)的組合。基於這個想法，許多研究人員[34,32,42]嘗試使用不同的本地跟蹤器和不同的全局重新檢測器來處理長期跟蹤問題。其中局部跟蹤器和全局重檢器也可以採用同樣強大的模型[32,26,51,48]，並配備了重檢方案(如隨機搜索和滑動窗口)。這些跟蹤器的一個關鍵問題是如何在本地跟蹤器和全局重檢器之間切換跟蹤器。通常，他們使用本地跟蹤器的輸出進行自我評估，即，以確定跟蹤器是否丟失目標。這種方式有很高的風險，因爲本地跟蹤器的輸出並不總是可靠的，有時會意外地誤導切換器。MBMD方法[51]是VOT2018LT的獲勝者，它通過額外的在線更新深度分類器進行本地和全局切換。該跟蹤器利用一個基於siamprn的網絡，在重新檢測時在局部搜索區域或每個滑動窗口中對目標進行回退。最近的SPLT方法[48]利用[51]中相同的SiamPRN進行跟蹤和重新檢測，用離線訓練的匹配網絡代替[51]中的在線驗證器，並使用他們提出的skimming模塊加速跟蹤器。一個奇怪的現象是，大多數排名靠前的長期跟蹤器(如MBMD[51]、SPLT[48]、SiamRPN++[26])並沒有採用優秀的在線更新跟蹤器(如ECO[8]、ATOM[9])進行本地跟蹤。其中一個根本原因是，在線更新的風險是放大的長期跟蹤，造成長期不確定的觀察。在這項工作中，我們試圖通過設計一個高性能的帶有元更新器的長期跟蹤器來解決這個難題。

2.2 視覺跟蹤的在線更新

對於視覺跟蹤來說，在線更新對於捕獲目標及其周圍背景在跟蹤過程中的外觀變化起着至關重要的作用。爲了實現這一目標，已經設計了許多方案，例如使用模板更新[6,55,29]、增量子空間學習[39,43]、在線學習分類器[16,37,8,9]等。然而，在線更新在平衡動態信息描述和意外噪聲引入方面是一把雙刃劍。長時間積累誤差，在目標消失時收集不適當的樣本或對可用數據過度擬合，容易降低跟蹤器的性能，導致跟蹤漂移，特別是長期跟蹤。爲了解決這一困境，至少從兩個方面做了很多努力。第一種方法是通過恢復或聚類噪聲觀測值來提取在線採集的樣本[43,8]。另一個有效的嘗試是設計一些標準來評估當前跟蹤結果的可靠性，以刪除不可靠的樣本或拒絕不適當的更新。這些標準包括信心評分[37]、最大響應[9]、峯值旁瓣率(PSR)[9]、平均峯值相關能量[44]和MAX-PSR[32]。

這些方法通常利用跟蹤器的輸出來評估這種可靠性。但對跟蹤器輸出可靠性的自我評估存在着不可避免的風險，尤其是當跟蹤器經歷了長期的不確定和噪聲觀測時。在這項工作中，我們提出了一個新穎的離線訓練元更新，以整合多個線索的順序方式。元更新器輸出一個二進制分數來指示跟蹤器在當前幀中是否應該更新，這不僅顯著提高了我們的長期跟蹤器的性能，而且很容易嵌入到其他在線更新的跟蹤器中。最近，一些基於元學習的方法[25,38,27,18,5,29]被提出。所有這些方法都集中於解決如何更新問題(例如，，有效地和/或有效地更新跟蹤器外觀模型)。相比之下，我們的元更新器設計用來處理何時更新的問題，它可以與許多如何更新算法相結合，進一步提高跟蹤性能。

圖2。建議的長期跟蹤框架。更好地觀看與放大的顏色。

3. 用元更新器進行長時期跟蹤

3.1 長時期跟蹤框架

總體框架如圖2所示。在每一幀中，本地跟蹤器將本地搜索區域作爲輸入，並輸出被跟蹤對象的邊界框。然後，驗證器對當前跟蹤結果的正確性進行評估。如果輸出驗證分數大於預定義的閾值，跟蹤器將在下一幀繼續進行本地跟蹤。如果分數小於閾值，我們使用更快的R-CNN檢測器[4]來檢測下一幀中所有可能的候選對象，並裁剪關於每個候選對象的局部搜索區域。然後，SiamPRN模型[51]將每個區域作爲輸入和輸出對應的候選框。這些邊界框被髮送給驗證者以識別目標是否存在。當驗證者找到目標時，本地跟蹤器將被重置以適應當前目標的外觀。在進入下一個框架之前，收集所有歷史信息並將其發送到建議的元更新器中。最後，元更新器引導在線跟蹤器更新。

在本工作中，我們實現了一個改進的ATOM跟蹤器(記作ATOM)作爲我們的本地跟蹤器，它應用ATOM方法的分類分支進行定位，利用SiamMask方法進行尺度估計(在原始ATOM方法[9]中，通過離線訓練的實例感知IoUNet[20]進行尺度估計。在實踐中，我們發現SiamMask方法[45]可以提供更準確的尺度估計，部分原因是像素級註解的強大監督)。我們使用RTMDNet方法[21]作爲我們的驗證器，其驗證閾值設置爲0。

力量和缺陷。與目前排名靠前的長期跟蹤器(如MBMD[51]和SPLT[48])相比，我們的框架的主要優勢在於將在線更新的本地跟蹤器嵌入到長期跟蹤框架中。這種思想使得長期跟蹤解決方案受益於短期跟蹤器的進步，並儘可能地將短期跟蹤問題和長期跟蹤問題統一起來。不完善之處在於，在線更新的風險由於長期不確定的觀察而被放大(因爲除了第一幀之外的任何幀的結果在跟蹤過程中都沒有絕對的準確性)。因此，我們提出一種新的元更新器來處理這個問題，並獲得更魯棒的跟蹤性能。

3.2 元更新器

更新跟蹤器以捕獲目標及其周圍背景的外觀變化是非常重要的。然而，不適當的更新將不可避免地使跟蹤器退化並導致跟蹤漂移。爲了解決這個難題，我們試圖回答一個重要但尚未解決的問題:跟蹤器是否準備好在當前幀中進行更新?具體來說，我們提出了一個MetaUpdater，通過集成歷史跟蹤結果來決定當前是否應該更新跟蹤器。這些歷史結果以順序的方式包括幾何線索、辨別線索和外觀線索。我們在每個幀輸出響應映射(例如ECO[8]、ATOM[9])的在線跟蹤器的基礎上引入了我們的元更新器。很容易將我們的metaupdater推廣到其他類型的跟蹤器(例如MDNet[37])。

3.2.1 元更新器的序列信息

對於一個在線跟蹤器T，在第T幀中，我們將輸出響應映射表示爲Rt，將輸出邊界框表示爲bt，將結果圖像(根據bt裁剪)表示爲bt。第一幀中的目標模板表示爲I0。圖3給出了一個直觀的解釋。

圖3。本書對一些概念的直觀解釋。

我們通過挖掘順序信息，在給定的時間片內集成幾何、區分和外觀線索來開發元更新器。

圖4。用有代表性的框架說明不同的信心分數。更好地觀看與放大的顏色。

幾何線索。在第t幀中，跟蹤器輸出一個邊界框 $b_t = [x_t, y_t, w_t, h_t]$ 作爲跟蹤狀態，其中(x, y)表示左上角的水平座標和垂直座標，(w, h)表示目標的寬度和高度。這個包圍框本身僅反映當前幀中被跟蹤對象的幾何形狀。然而，一系列連續幀的邊界框包含了關於目標的重要運動信息，例如速度、加速度和尺度變化。

判別線索。視覺跟蹤可以看作是一種區分目標與其周圍背景的分類任務，因此，在線跟蹤器本身就應該具有良好的識別能力。我們定義一個confidence score $s_t^C$ 作爲response map $R_t$ 的最大值(1)。對於一些不輸出任何response map的跟蹤器(例如MDNet[37])，根據分類概率或margin也不難得到這個confidence score。
$s_t^C = max(R_t) \qquad \qquad \qquad \qquad (1)$

從圖4可以看出，在跟蹤過程中，置信度得分並不穩定(見89- 261幀)。在本工作中，我們還利用卷積神經網絡(convolutional neural network, CNN)來徹底挖掘響應映射中的信息，得到響應向量 $v_t^R$ as

$v_t^R = f^R(R_t; W^R) \qquad \qquad \qquad \qquad (2)$

式中: $f^R(. ; .)$ 表示CNN模型，參數爲 $W^R$ 。輸出矢量 $v_t^R$ 在當前幀內隱式編碼跟蹤器的可靠性信息，並由後續模型進一步處理。

外觀信息。跟蹤器輸出可靠性的自我評估具有不可避免的風險，因爲帶有噪聲樣本的在線更新常常使響應對外觀變化不敏感。因此，我們求助於模板匹配方法作爲一個重要的補充，並定義一個外觀評分爲

$s_t^A = \parallel f^A (I_t, W^A) - f^A(I_0, W^A)\parallel_2 \qquad \qquad (3)$

圖5。提出的三級級聯LSTM。

這裏 $f^A(., W^A)$ 是將目標和候選者嵌入到判別的歐幾里得空間中的嵌入函數， $W^A$ 代表的離線訓練的網絡參數。就像在[33]中提出的，網絡 $f^A(., W^A)$ 可以結合triplet損失和分類損失函數來有效地訓練。分數 $s_t^A$ 度量的是跟蹤結果 $I_t$ 和目標模板 $I_0$ 之間的距離。該模板匹配方案不受噪聲觀測的影響。

順序的信息。我們將前面提到的幾何線索、判別線索和外觀線索整合到一個序列矩陣中，得到 $X_t = [x_{t-t_s+1};...;x_{t-1};x_t] \in R^{d \times t_s}$ ;其中 $x_t \in R^{d \times 1}$ 爲 $s_t^C$ 、 $v_t^R$ 、 $s_t^A$ 、 $b_t$ 集中的列向量，d爲集中線索的維數， $t_s$ 爲平衡歷史經驗與當前觀測的時間步長。使用以下級聯LSTM方案進一步挖掘這些順序信息。

3.2.2 級聯的LSTM

LSTM. 在這裏，我們簡要介紹LSTM[14]的基本思想和概念，以使本文自成一體。它的數學描述如下。
$\left \{ \begin{aligned} f_t & = \delta (W_f x_t + U_f h_{t-1} +b_f) \\ i_T & = \delta (W_i x_t + U_i h_{t-1} +b_i) \\ o_t &= \delta (W_o x_t + U_o h_{t-1} + b_o) \\ c_t &= f_t \odot c_{t-1} + i_t \odot tanh(W_c x_t + U_c h_{t-1} + b_c) \\ h_t &= o_t \odot tanh(c_t) \end{aligned} \right.$

這裏 $\delta(\cdot)$ 表示元素級的sigmoid 函數， $tanh(\cdot)$ 表示元素方向的切操作， $\odot$ 是按元素乘法。W, U 和 b表示需要學習的權重矩陣和偏置向量。下標f、i、o和c分別代表遺忘門、輸入門、輸出門和存儲單元。其他變量定義如下：
(a) $x_t$ : LSTM 單元的輸入向量；
(b) $f_t$ : 忘記門的激活向量；
© $i_t$ : 輸入門的激活向量；
(d) $o_t$ : 輸出門的激活向量；
(e) $h_t$ : 隱藏狀態向量；
(f) $c_t$ : cell狀態向量；

3級級聯的LSTM. 在獲得了第3.2.1節中給出的序列特徵 $X_t$ 之後，我們將其輸入到一個三級級聯LSTM模型中，如圖5所示。三個LSTMs的時間步長逐漸減小，提取序列信息，聚焦於最近幀。投入產出關係如表1所示。上標i表示第i階段LSTM。

最後，輸出的 $h_t^3$ 由兩個完全連通的層進行處理，生成一個二分類分數，表示是否對跟蹤器進行更新。

3.2.3 元更新器訓練

樣本收集。我們在不同的訓練視頻序列上運行本地跟蹤器，並記錄所有幀的跟蹤結果。然後，我們將這些結果分成一系列的時間片，表示爲 $\Upsilon =(Y_t^{\upsilon}|_{t=t_s}^{t_{\upsilon}})|_{\upsilon=1}^V$ . $\upsilon$ 爲視頻索引，V是訓練序列的數目， $t_{\upsilon}$ 是第 $\upsilon$ 個視頻的總幀長。 $Y_t^{\upsilon} = {y_{t-t_s+1}^{\upsilon}, y_{t-t_s+2}^{\upsilon},...,y_{t-1}^{\upsilon}, y_t^{\upsilon} }$ ,這裏 $t_s$ 表示時間步長。每個時間片段 $y_t^{\upsilon}$ 包含邊界框、相應map、相應分數和在t幀中預測的目標圖像，以及相應的目標模板。有關更詳細的描述，請參見第3.2.1節。

然後，我們確定 $Y_t^{\upsilon}$ 的標籤爲：
$\iota(Y_t^{\upsilon}) = \left \{ \begin{aligned} 1, &if IOU(b_t^{\upsilon}, g_t^{\upsilon}) > 0.5 \\ 0,& if IOU(b_t^{\upsilon}, g_t^{\upsilon}) = 0 \end{aligned} \right.$

其中IoU爲相交-過並準則。在訓練階段沒有采用iou在0到0.5之間的切片，以保證訓練的收斂性。 $b_t^{\upsilon}$ 爲視頻v第t幀的輸出邊界框，gvt爲相應的groundtruth5。式(4)表示給定時間片的標籤是根據目標是否成功定位在當前(即,t)框架。圖6顯示了用於訓練我們的元更新程序的一些正面和負面示例。

模型的訓練。在本研究中，局部追蹤器和它的元更新器是緊密耦合的。跟蹤器影響樣本收集過程，以訓練它的元更新器。元更新器會改變跟蹤器的性能，進而間接影響樣本採集。因此，我們提出了一種迭代訓練算法，如算法1所示。符號{T,MU (T)}用於表示一個裝備有元更新器MU (T)的本地跟蹤器。MUk (T)是第k次迭代後的經驗元更新器(k = 0表示沒有元更新器)。

3.2.4 泛化能力

上述介紹是關於在線更新的跟蹤器輸出響應映射的。對於沒有響應映射的跟蹤器(例如，MDNet[37]、RTMDNet[21])，我們可以簡單地刪除子網絡f R，並使用剩餘的信息訓練元更新器。對於某些隨時間累積的樣本在線更新的跟蹤器(例如ECO[8])，我們的元更新器能夠淨化用於更新的樣本池。對於給定的幀，如果元更新器的輸出爲0，那麼當前的跟蹤結果將不會添加到示例池中(即，不用於更新)。如果多個在線更新跟蹤器(例如我們的長期跟蹤器、用於本地跟蹤的ATOM* 和用於驗證的RTMDNet)的集合，我們只能訓練一個元更新器，將來自所有跟蹤器的信息作爲輸入，然後使用它來指導所有跟蹤器更新。第4.3節展示了我們的元更新者對不同跟蹤器的泛化能力。

3.2.5 實現細節

下面的所有網絡都使用隨機梯度decent 優化器訓練，動量爲0.9。訓練樣本全部來自LaSOT[11]訓練集。

匹配網絡 $f^A$ . $f^A$ 採用ResNet-50架構，輸入107107個圖像補丁。對於每個目標，我們在每個幀中對groundtruth周圍的包圍框隨機取樣。我們選擇IoU在0.7以上的patch作爲陽性數據，使用siamrpg -based network[51]中不屬於目標的高置信度的盒子作爲陰性數據。網絡 $f^A$ 的批處理大小是16，我們訓練它進行60000次迭代。初始學習率是 $10^{-4}$ ，每20萬次迭代除以10。當訓練元更新器的剩餘網絡時，匹配網絡被單獨訓練和固定。

子網絡 $f^R$ . 輸入響應映射首先被調整爲 $50 \times 50$ ，由兩個卷積層處理，然後是一個全局平均池化層。輸出是一個 $1\times1\times8$ 向量。該子網絡由級聯LSTMs和兩個全連通層聯合訓練而成。

具有完全連接層的LSTMs。三級級聯LSTM在每個LSTM單元中有64個單元。 $t_s$ 、 $t_1$ 、 $t_2$ 分別設置爲20、8、3。遺忘偏差設置爲1.0。輸出最終被髮送到兩個具有64個隱藏單元的全連接層，以獲得最終的二進制值。LSTM的每個訓練階段的批處理大小爲16，經過10萬次迭代訓練，學習率爲 $10^{-4}$ 。

4. 實驗

我們使用Tensorflow在PC機上實現我們的跟蹤器，這臺PC機上有Intel-i9 CPU (64G RAM)和NVIDIA GTX2080Ti GPU (11G內存)。跟蹤速度約爲13幀/秒。我們在五個基準上評估我們的跟蹤器:VOT2018LT[23]、VOT2019LT[24]、OxUvALT[42]、TLP[36]和LaSOT[11]。

4.1 定量評價

表2。在VOT2018LT數據集[23]上比較我們的跟蹤器和15種最先進的方法。最好的三個結果分別以紅色、藍色和綠色顯示。跟蹤器根據F-score從上到下進行排名。

VOT2018LT。我們首先在VOT2018LT數據集[23]上將我們的跟蹤器與其他最先進的算法進行比較，該數據集包含35個具有挑戰性的不同對象序列(如人、汽車、摩托車、自行車和動物)，總長度爲146817幀。每個序列平均包含12個長期目標消失，每個平均持續40幀。VOT2018LT數據集[23]的精度評價主要包括跟蹤精度(Pr)、跟蹤回憶(Re)和跟蹤F-score。不同的跟蹤器根據跟蹤F-score進行排名。關於Pr、Re和F-score的詳細定義可以在VOT2018挑戰官方報告[23]中找到。

我們將我們的跟蹤器與VOT2018官方跟蹤器和最近的三種方法(即， MBMD [51]， SiamRPN++ [26]， SPLT[48])，並報告評估結果如表2所示。結果表明，所提出的跟蹤器比其他跟蹤器的性能要好得多。

VOT2019LT。VOT2019LT[24]數據集包含50個視頻，共215294幀，是最新的長期跟蹤數據集。每個序列平均包含10個長期目標消失，每個平均持續52幀。與VOT2018LT[23]相比，VOT2019LT帶來了更多的挑戰，因爲它引入了15個更困難的視頻和一些不常見的目標(如船、公牛和降落傘)。其評估方案與VOT2018LT相同。表3顯示，我們的跟蹤器在VOT2019LT挑戰中獲得第一名。

表3。在VOT2019LT數據集上對我們的跟蹤器和八種競爭算法進行性能評估。最好的三個結果分別以紅色、藍色和綠色顯示。跟蹤器使用F-score指標從上到下進行排名。

OxUvALT。OxUvA long-term(記爲OxUvALT)數據集[42]包含337個視頻中的366個對象軌跡，均選自YTBB。此數據集中的每個視頻平均持續2.4分鐘，比其他常用的短期數據集(如OTB2015)長得多。目標以1赫茲的頻率稀疏地標記。數據集被分爲兩個不相交的子集，dev和test。在這項工作中，我們遵循OxUvALT中的開放挑戰，這意味着跟蹤器可以使用除YTBB驗證集以外的任何數據集進行培訓，並使用OxUvALT測試子集進行測試。在OxUvALT數據集中，採用三個標準來評估不同的跟蹤器，包括真陽性率(TPR)、真負性率(TNR)和最大幾何平均值(MaxGM)。TPR測量報告存在的當前對象的比例和定位精度，TNR給出報告爲不存在的幀的比例。MaxGM在TPR和TNR之間進行權衡(即MaxGM= $max_{0\leq p\leq 1} \sqrt{((1-p) \cdot TPR)((1-p) \cdot TNR + p)}$ ，用於對不同的跟蹤器進行排序。我們將跟蹤器和最近的三種算法進行比較 (MBMD[51]、SPLT[48]和Global Track[19])和[42]中報告的十種算法(如LCT[34]、EBT[54]、TLD[22]、ECO-HC[8]、BACF[13]、Staple[1]、MDNet[37]、SINT[41]、Siam FC[2]和Siam FC r[42])。表4顯示，我們的跟蹤器在最大GM和TPR方面表現最好，同時保持了非常有競爭力的TNR值。

表4。在OxUvALT數據集上對我們的跟蹤器和13種競爭算法進行性能評估。最好的三個結果分別以紅色、藍色和綠色顯示。跟蹤器按照MaxGM值從上到下排列。

LaSOT。LaSOT數據集[11]是最新的具有高質量註釋的大型數據集之一。它包含1400個具有挑戰性的序列(1120個用於訓練，280個用於測試)和70個跟蹤類別，每個序列平均有2500幀。在這項工作中，我們遵循一次性評估(成功和精度)來評估LaSOT測試集上的不同跟蹤器。圖7展示了我們的跟蹤器的成功和精確圖，以及十種最先進的算法，包括Dimp50[3]、Dimp18[3]、GlobalTrack[19]、SPLT[48]、ATOM[9]、SiamRPN++[26]、ECO(python)[8]、StructSiam[52]、DSiam [55] 和MDNet[37]。
圖7顯示了我們的跟蹤器在所有競爭方法中獲得了最好的結果。
圖7。使用LaSOT一次性評估不同的跟蹤器。更好地觀看與放大的顏色。

TLP。TLP數據集[36]包含來自真實場景的50個高清視頻，每個序列平均有13500幀。我們遵循一次性評估(成功和精度)來評估TLP數據集上的不同跟蹤器。如圖8所示，我們的跟蹤器在所有競爭方法中取得了最好的結果。

4.2 消融實驗

在本小節中，我們使用LaSOT數據集[11]對我們的元更新程序進行消融分析。
元更新器的不同時間步長。首先，我們研究了不同時間步長的影響。適當的時間步長可以在歷史信息和當前觀察之間實現良好的平衡。表5顯示，將時間步長設置爲20時性能最佳。

迭代步驟的評估。由表7可知，隨着k的增加，性能逐漸提高。

4.3 討論

泛化能力和速度分析。我們注意到，我們的元更新器很容易嵌入到其他在線學習跟蹤器中。爲了展示這種良好的泛化能力，我們將我們的元更新器引入了四種跟蹤算法，包括ATOM、ECO(官方python實現)、RTMDNet和我們的基本跟蹤器(使用閾值來控制更新)。圖9顯示了不同跟蹤器在LaSOT數據集上在沒有和有metaupdater的情況下的跟蹤性能，並證明了所提出的元更新器可以持續地提高不同跟蹤器的跟蹤精度。表8報告了未使用和使用元更新器的跟蹤器的運行速度，這表明使用附加的元更新器後跟蹤器的運行速度略有下降。因此，我們可以得出結論，我們的元更新器具有良好的泛化能力，可以在幾乎不犧牲效率的情況下，持續地提高跟蹤精度。

爲什麼我們的元更新能工作?我們運行一個不帶跟蹤器和帶它的元更新器的跟蹤器，並在每一幀記錄跟蹤器更新狀態(u = 0,1)和它的ground truth (l = 0,1)， u = 1表示跟蹤器已經更新;否則，尚未更新。l = 1表示跟蹤器可以更新;否則，無法更新。ground truth l的偏移量與式(4)相同，有以下概念:(1)true positive (TP): l = 1, u = 1;(2)假陽性(FP): l = 0, u = 1;(3)真陰性(TN): l = 0, u = 0;(4)假陰性(FN): l = 1, u = 0。然後分別得到更新精度(Pr)、更新查全率(Re)爲Pr = TP/(TP+FP)、Re = TP/(TP+FN)。更高的精度意味着跟蹤器更新的錯誤觀察更少。
較高的召回率意味着跟蹤器更有可能接受用正確的觀察結果進行更新。我們還定義了一個真實負利率(TNR)來關注錯誤的觀察，如TNR = TN/(TN+FP)。更高的TNR值意味着跟蹤器更強烈地拒絕更新錯誤的觀測結果。表9顯示了具有和不具有元更新模塊的不同跟蹤器的統計結果。元更新器的使用稍微犧牲了更新回收，這意味着與沒有元更新器的跟蹤器相比，部分正確的觀察結果沒有被用來更新跟蹤器。這種現象對跟蹤器性能的影響很小，因爲正確的觀測都是針對同一個目標，並且有大量的冗餘信息。相比之下，使用meta-updater顯著提高了Pr和TNR值，表明跟蹤器受到錯誤觀測的污染要小得多。因此，在線更新的風險將大大降低。

5. 結論

這項工作提出了一個新穎的長期跟蹤框架與元更新。與其他頂級跟蹤器相結合，我們的框架利用基於onlineupdate的跟蹤器進行本地跟蹤，這使得長期跟蹤性能受益於具有在線更新(如ATOM)的優秀短期跟蹤器。更重要的是，提出了一種新的元更新器，它將幾何線索、判別線索和外觀線索按順序進行整合，以確定當前是否對跟蹤器進行更新。該方法大大降低了長期跟蹤的在線更新風險，有效而又高效地指導了跟蹤器的更新。在最近的5個長期基準上的大量實驗結果表明，我們的長期跟蹤器取得了比其他先進的方法更好的性能。結果還表明我們的元更新器具有良好的泛化能力。