【論文翻譯】Flow-Guided Feature Aggregation for Video Object Detection

Flow-Guided Feature Aggregation for Video Object Detection

用於視頻對象檢測的流引導特徵聚合

譯文:

摘要:

將最先進的對象探測器從圖像擴展到視頻是一個挑戰。檢測的準確性受到視頻中物體外觀退化的影響,如運動模糊、視頻散焦、姿態罕見等。現有的工作試圖利用box level的時間信息,但這些方法沒有經過端到端的訓練。我們提出了一種用於視頻目標檢測的精確的端到端學習框架——流引導特徵聚合。相反,它利用了特性級別上的時間一致性。通過對運動路徑上的鄰近特徵進行聚集,改進了每幀特徵,從而提高了視頻識別的精度。我們的方法在ImageNet VID[33]中強大的單幀基線的基礎上得到了顯著的改進,特別是對於更具挑戰性的快速移動的對象。我們的框架是有原則的,可以與2016年贏得ImageNet VID挑戰的最佳工程系統相媲美,沒有額外的警告。代碼將被髮布。

1,介紹

近年來,在目標檢測方面取得了很大的進展。最先進的方法共享一個類似的兩階段結構。首先利用深度卷積神經網絡(CNNs)[22,36,40,14]在整個輸入圖像上生成一組特徵映射。淺探測專用網絡[13、10、30、26、5]根據特徵圖生成檢測結果。

這些方法在靜態圖像中取得了很好的效果。然而,直接將它們應用於視頻對象檢測是一個挑戰。識別精度受到惡化對象出現在視頻,很少觀察到靜態圖像,如運動模糊、視頻散焦,罕見的姿勢,等(見一個例子在圖1和圖2)。在量化實驗,先進的stillimage對象探測器(R-FCN [5] + resnet - 101[14])惡化非常快速移動對象(表1 (a))。

然而,該視頻包含了關於同一對象實例的豐富信息,通常在短時間內可以在多個快照中觀察到。現有的視頻對象檢測方法[18,19,12,23]簡單地利用了這些時間信息。這些方法首先在單幀中應用目標檢測器,然後在專用的後處理步驟中跨時間維裝配檢測到的邊界盒。這一步依賴於離軸的運動估計,如光流,手工製作的邊界盒關聯規則,如對象跟蹤。一般情況下,這種方法只能處理質量一般的單幀檢測盒,不能提高檢測質量。性能的提高來自於啓發式的後處理,而不是有原則的學習。沒有端到端的培訓。在這項工作中,這些技術被稱爲盒級方法。

我們試圖更深入地研究視頻對象檢測。利用時間信息,有原則地提高檢測和識別的質量。基於圖像識別[11]的成功,我們提出了一種基於時間聚合的幀特徵學習方法。請注意,由於視頻運動的原因,同一對象實例的特徵通常不會跨幀進行空間對齊。簡單的特性聚合甚至可能會降低性能,如表1 (b)所述。這表明在學習過程中對運動進行建模是至關重要的。

在這項工作中,我們提出了流導向特徵聚合(FGFA)。如圖1所示,將特徵提取網絡應用於各個幀,以生成每幀的特徵圖。爲了增強參考幀的特徵,光流網絡[8]估計了附近幀與參考幀之間的運動。根據流的運動,將鄰近幀的特徵映射扭曲到參考幀。利用自適應加權網絡對變形後的特徵圖及其自身在參考座標系上的特徵圖進行聚類。然後將得到的聚合特徵圖反饋給檢測網絡,在參考幀上產生檢測結果。特徵提取、流量估計、特徵聚合、檢測等模塊都是經過端到端訓練的。

圖1所示。說明FGFA(流程引導的特徵聚合)。對於每個輸入幀,都可以可視化一個對cat敏感的特徵映射。參考幀t處的特徵激活率較低,導致在參考幀中檢測失敗。相鄰的t-10和t + 10幀具有較高的激活度。在FGFA之後,改進了參考幀處的地物圖,併成功地對其進行檢測。

與box level方法相比,我們的方法工作在特徵級,執行端到端學習,是互補的(例如,Seq-NMS[12])。它改進了perframe特性並生成高質量的邊界框。可以通過box-level方法進一步細化這些框。我們的方法是在大規模的ImageNet VID數據集[33]上進行評估的。嚴格的消融研究證實了該方法的有效性,並在強單幀基線的基礎上進行了顯著的改進。與box-level方法的結合產生了進一步的改進。我們報告的目標檢測精度與贏得ImageNet VID挑戰的最佳工程系統相當,沒有附加的風鈴響(例如,模型集成、多尺度訓練/測試等)。

此外,我們還根據物體運動幅度進行了深入的評價。結果表明,快速運動的物體遠比慢速運動的物體更具挑戰性。這也是我們的方法獲益最多的地方。該方法能夠有效地利用快速運動物體的各種快照中豐富的外觀信息。

2,相關工作

從圖像中檢測目標。一般目標檢測方法[10,30,26,5]主要基於深度CNNs[22,36,40,14]。在[11]中,提出了一種稱爲卷積神經網絡(R-CNN)的多級管道,用於訓練深度CNN對目標檢測的區域建議進行分類。爲了加快速度,在SPP-Net[13]和Fast R-CNN[10]中,將ROI池引入到整個圖像共享的feature maps中。在Faster R-CNN[30]中,區域建議由區域建議網絡(RPN)生成,RPN與Fast R-CNN共享特徵。最近,RFCN[5]將中間特徵圖上的ROI池操作替換爲最終得分圖上的位置敏感性ROI池操作,將特徵共享推向極致。

與這些靜態圖像對象檢測方法相比,我們的方法側重於視頻中的對象檢測。它結合了時間信息來提高卷積特徵圖的質量,並且很容易從靜止圖像對象檢測器的改進中獲益。

視頻中的目標檢測。最近,ImageNet引入了視頻對象檢測的新挑戰(VID),將對象檢測帶入了視頻領域。在這個挑戰中,幾乎所有現有的方法都只在最後階段的boundingbox後處理中包含時間信息。T-CNN[18,19]根據預先計算好的光流將預測的邊界盒傳播到相鄰幀,然後利用高置信度邊界盒的跟蹤算法生成小管(tubelets)。沿着tubeletsBoxes將根據tubelets的分類重新打分。Seq-NMS[12]從連續幀中沿着鄰近的高可信邊界框構造序列。序列的方框被重新評分到平均置信度,其他接近該序列的方框被抑制。MCMOT[23]將後處理問題表示爲一個多目標跟蹤問題。利用一系列的手工規則(如檢測器置信度、顏色/動作線索、變化點檢測和前後驗證)來確定邊界框是否屬於被跟蹤對象,並進一步細化跟蹤結果。不幸的是,所有這些方法都是多級管道,每個階段的結果都依賴於前一個階段的結果。因此,很難糾正前幾個階段產生的錯誤。

相比之下,我們的方法在特徵層考慮時間信息,而不是最終的框層。整個系統經過端到端的視頻對象檢測訓練。此外,我們的方法還可以進一步結合這種邊界框後處理技術來提高識別精度。

基於流的運動估計。視頻中的時間信息需要原始像素或特徵的對應來建立連續幀之間的關係。光流在視頻分析和處理中有着廣泛的應用。傳統方法以變分方法爲主[2,15],主要針對小位移[43]。最近的研究重點是大位移[3],而組合匹配(如深流DeepFlow[44]、上流EpicFlow[31])已經集成到變分方法中。這些方法都是手工製作的。基於深度學習的方法(如FlowNet[8]及其後繼者[28,17])最近被用於光流。其中與我們的工作最相關的是deep feature flow[49],它表明了利用視頻中的信息冗餘可以在較小的準確率下降的情況下提高視頻識別的速度。說明了流子網絡和識別子網絡聯合訓練的可能性。

在這項工作中,我們着重於在連續幀中關聯和裝配豐富的外觀信息來提高特徵表示,進而提高視頻識別的準確性。我們遵循深度特徵流的設計來實現跨幀的特徵翹曲。

特徵集成。特徵聚集廣泛應用於動作識別[34,20,24,47,38,1,21,41]和視頻描述[7,46]。一方面,這些工作大部分[34,24,47,7,46,1,9,35]使用遞歸神經網絡(RNNs)從連續幀中聚集特徵。另一方面,利用窮極時空卷積直接提取時空特徵[38,21,41,42]。然而,這些方法中的卷積核大小可能會限制快速移動對象的建模。要解決這個問題,應該考慮較大的內核大小,但是這會極大地增加參數數量,從而導致過度擬合、計算開銷和內存消耗問題。相比之下,我們的方法依賴於流引導的聚合,並且可以擴展到不同類型的對象運動。

視覺跟蹤。最近,deep CNNs被用於目標跟蹤[25,16],並取得了令人印象深刻的跟蹤精度。當跟蹤一個新的目標時,通過將預先訓練好的CNN中的共享層與一個新的在線更新的二分類層相結合來創建一個新的網絡。跟蹤顯然不同於視頻對象檢測任務,因爲它假設對象在第一幀中進行初始定位,並且不需要預測類標籤。

3.流導特徵聚合

3.1。基線和動機

給定輸入視頻幀{Ii}, i = 1,…,我們的目標是在所有幀上輸出對象邊界框,{yi}, i = 1,…,。基線方法是對每一幀單獨應用一個現成的對象檢測器。

圖2。視頻中典型的退化對象外觀

現代基於cnn的物體探測器也有類似的結構。在輸入圖像I上應用深度卷積子網絡Nfeat,生成整個圖像的feature map f = Nfeat(I)。在特徵圖上應用了淺探測專用的子網絡Ndet來生成輸出y = Ndet(f)。

視頻幀包含同一對象實例的劇烈外觀變化,如圖2所示。單幀檢測會產生不穩定的結果,當圖像質量較差時檢測失敗。圖1給出了一個示例。由於運動模糊,cat類的特徵響應在參考幀t處很低。這會導致單幀檢測失敗。觀察到附近的t10和t+ 10幀有很高的響應,它們的特徵可以傳播到參考幀。增強了參照系上的特徵後,對參照系的檢測成功

這類特徵的傳播和增強需要兩個模塊:1)運動導向的空間扭曲。它估計幀與幀之間的運動,並據此對特徵圖進行變形。2)特徵聚合模塊。它解決了如何正確地融合來自多個幀的特性。與特徵提取和檢測網絡一起,這些是我們方法的構建塊。下文將詳細說明。

3.2。模型設計

Flow-guided變換。受到[49]的啓發,給定參考座標系和相鄰座標系,通過流網絡F(如FlowNet[8])來估計流場

將相鄰幀上的特徵圖按照流的方向變換到參考幀上。變換函數定義爲:

  (1)

其中W(·)爲特徵圖中每個通道在所有位置上應用的雙線性變形函數,爲從第j幀到第i幀的變換特徵圖。

特徵集成。經過特徵變換後,參照系從鄰近的參照系(包括它自己的參照系)累積多個特徵圖。這些特徵圖提供了對象實例的不同信息(例如,不同的照明/視點/姿態/非剛性變形)。對於聚集,我們在不同的空間位置使用不同的權值,讓所有的特徵通道共享相同的空間權值。變形特徵的二維權值圖記作。然後得到參考幀處的聚合特徵:

(2)

其中K指定用於聚合的鄰居幀的範圍(默認情況下K = 10)。式(2)與注意模型[32]的公式相似,其中對記憶緩衝區中的特徵賦予不同的權重。

將聚集的特徵信息fi輸入檢測子網絡,得到檢測結果

(3)

與基線和以前的盒級方法相比,我們的方法在產生最終的檢測結果之前從多個幀中收集信息。

自適應的重量。自適應權值表示所有緩衝幀的重要性[Ii K,…, Ii+K]到每個空間位置的參考系Ii。具體來說,在位置p處,如果彎曲的特徵fj i(p)與特徵fi(p)接近,則賦予較大的權值。否則,將分配更小的權重。在這裏,我們使用餘弦相似度度量[27]來度量變形特徵和從參考幀中提取的特徵之間的相似度。此外,我們並不直接使用從Nfeat(I)中獲得的卷積特徵。相反,我們將一個很小的全卷積網絡E(·)應用於特徵fi和fj i,它將特徵投射到一個新的相似度度量的嵌入中,稱爲嵌入子網絡。

我們用下式來估計權重:

  (4)

式中,表示相似度度量的嵌入特徵,對相鄰幀上的每個空間位置P P的權值進行歸一化,。權值的估計可以看作是嵌入特徵間的餘弦相似度通過SoftMax操作的過程。

3.3.訓練和推斷

【推斷】算法1總結推理算法..給定連續幀{II}和連續幀的輸入視頻

在指定的聚合範圍K內,該方法在相鄰幀(長度一般爲2K + 1,開始和結束K幀除外)上使用滑動特徵緩衝區對每一幀進行順序處理。一開始,將feature network應用在開始的K + 1幀上,初始化feature buffer(算法1中的L2-L4),然後遍歷所有視頻幀,進行視頻對象檢測,並更新feature buffer。對於每一幀i作爲參考,對特徵緩衝區中相鄰幀的特徵映射進行相應的翹曲,計算其各自的聚合權值(L6- L10)。然後將扭曲的特徵集合起來,反饋給檢測網絡進行目標檢測(L11-L12)。在以(i+ 1)-th幀爲參考之前,在(i+K+1)-th幀上提取特徵映射,並添加到特徵緩衝區(L13)中。

在運行時複雜度方面,建議的方法與單幀基線的比率爲:

(5)

其中O(·)表示函數複雜度。通常,與相比,的複雜性可以忽略不計。比例近似爲:。增加的計算量主要來自於F,這是可承受的,因爲F的複雜度也比的複雜度低很多。

訓練。整個FGFA架構是完全可區分的,可以端到端的培訓。唯一需要注意的是,特徵變形模塊是通過雙線性插值和完全可微的w.r.t來實現的,無論是特徵圖還是流場。

Temporal dropout。在SGD訓練中,集合範圍K受內存限制。我們用一個大的K值在推斷階段,但在訓練中K值很小(默認爲2)。這是沒有問題的,因爲自適應權值在訓練和推斷過程中都得到了適當的規範化。請注意,在訓練期間,相鄰幀是從一個大範圍內隨機抽樣的,這個範圍與推理期間的範圍相等。作爲對dropout[37]技術的類比,這可以被認爲是一個時間的dropout,通過丟棄隨機的時間幀。如表3所示,這種訓練策略很有效。

3.4。網絡體系結構

我們在FGFA模型中引入了不同子網絡的具體化。流網絡。我們使用FlowNet[8](簡單版)。它是在飛行椅數據集[8]上預先訓練的。應用於半分辨率圖像,輸出步長爲4。由於feature network的輸出步長爲16(如下圖所示),因此流場被縮小了一半以匹配feature maps的分辨率。

功能網絡。我們採用最先進的ResNet(-50和-101)[14]和incepess - ResNet[39]作爲特徵網絡。原始的incepepess - resnet是爲圖像識別而設計的。爲了解決特徵不匹配問題並使其適合於對象檢測,我們使用了一個被稱爲校準-嵌入- resnet的修改版本,它在[6]中進行了描述。ResNet-50、ResNet-101和aligned - incepeping - resnet模型都是針對ImageNet分類進行預訓練的。

在我們的FGFA模型中,預先訓練的模型被設計成特徵網絡。我們稍微修改了三個對象檢測模型的性質。我們去掉了平均池和fc層,保留了卷積層。爲了提高特徵分辨率,根據[4,5]中的實踐,將最後一個塊的有效步長從32改爲16。特別地,在最後一個塊的開始(對於ResNet和aligned - incepeping -ResNet來說都是conv5),步幅從2變爲1。爲了保持接受域的大小,將最後一個塊中卷積層(內核大小爲> 1)的擴展設置爲2。最後,隨機初始化卷積,將特徵維數降至1024。

嵌入網絡。它有三個層:一個1,1512的卷積,一個3 3 512的卷積,一個1 1 2048的卷積。它是隨機初始化的。檢測網絡。我們使用最先進的R-FCN[5],並遵循[49]的設計。在1024-d地形圖上應用RPN子網絡和R-FCN子網絡,分別連接到第一個512-d和最後一個512-d地形圖。RPN中使用了9個錨點(3個比例尺和3個高寬比),每張圖像生成300個建議。R-FCN中位置敏感評分地圖共7組。

4. 實驗

4.1. 實驗設置

ImageNet VID數據集[33]。它是一個流行的大規模視頻對象檢測基準。根據[18,23]中的協議,分別對來自訓練集的3862個視頻片段和來自驗證集的555個視頻片段進行模型訓練和評估。這些片段都有完整的註釋,通常幀率爲25或30幀。有30個對象類別。它們是ImageNet DET數據集中類別的子集。

慢、中、快動作。爲了更好地分析,根據運動速度對ground truth對象進行分類。一個物體的速度是通過它的平均相交-過並(IoU)分數和它在附近的幀(10幀)中的相應實例來測量的。該指標被稱爲動議IoU。IoU的運動越低,物體運動越快。圖3爲所有運動IoU得分的直方圖。根據評分將被試分爲慢(評分> 0.9)、中(評分[0.7,0.9])、快(評分< 0.7)三組。圖4顯示了來自不同組的示例。

在評價中,除了標準平均精度(mAP)評分外,我們還報告了慢、中、快組的mAP評分,分別用mAP(slow)、mAP(medium)和mAP(fast)表示。這爲我們提供了更詳細的分析和深入的理解。

實現細節。在訓練期間,在[18,23]之後,使用了ImageNet DET訓練和ImageNet VID訓練集。進行兩階段的訓練。在第一個階段,使用ImageNet VID中30個類別的註釋,在ImageNet DET上對特徵和檢測網絡進行訓練。進行SGD培訓,每個小批處理一個圖像。120K的迭代在4個GPU上執行,每個GPU持有一個小批處理。在前80K和最後40K迭代中,學習率分別爲10A3和10A4。第二階段在ImageNet VID上對整個FGFA模型進行訓練,根據第一階段學習到的權值初始化特徵和檢測網絡。在4個gpu上執行60K迭代,在前40K和最後20K迭代中分別執行10A3和10A4的學習率。在訓練和推理過程中,將圖像調整爲特徵網絡的短邊爲600像素,流網絡的短邊爲300像素。實驗在Intel E5- 2670 v2 CPU 2.5GHz和Nvidia K40 GPU的工作站上進行。

4.2。消融研究

表1比較了我們的FGFA架構設計帶有單幀基線及其變體的FGFA。

方法(a)爲單幀基線。它有一個使用ResNet-101的73.4%的地圖。它接近73.9%的mAP,

表1。使用ResNet-50和ResNet-101特徵提取網絡,對ImageNet VID驗證的不同方法的準確性和運行時間。與單幀基線(a)相比的相對增益在下標中列出。

圖3。所有ground truth對象實例的運動白條的直方圖,以及慢、中、快組的劃分。

圖4。示例視頻片段的對象實例與慢,中等和快速的運動。運動白條分別爲0.98、0.77、0.26。

表2。表1單幀基線(條目(a))的小(面積< 502像素)、中(502面積1502像素)、大(面積> 1502像素)對象實例的檢測精度。

圖5。框架上的自適應權重分配。左:入口無流向導向特徵扭曲(表1 (c));右:帶有流量導向的特徵扭曲的入口(表1 (d))。直方圖是在具有不同運動的實例框中執行的。

在[49],這也是基於R-FCN和ResNet-101。這說明我們的基線是有競爭力的,可以作爲評估的有效參考。需要注意的是,我們並沒有爲了便於比較和得出清晰的結論而添加諸如多尺度訓練/測試、開發上下文信息、模型集成等附加功能。

對運動組的評價表明,快速運動目標的檢測非常具有挑戰性:慢速運動的mAP爲82.4%,快速運動的mAP爲51.4%。由於不同尺寸的物體可能具有不同的運動速度,我們進一步分析了物體尺寸的影響。表2給出了不同運動速度的小、中、大物體的地圖得分。它表明,快速運動是一個內在的挑戰,不管物體有多大。

方法(b)是一種樸素的特徵聚合方法,是FGFA的退化變體。不使用流運動。在式(1)中,流程圖Mi j被設置爲所有的零,沒有使用自適應加權。在Eq.(2)中,wj的重量設置爲12k +1。該變體也採用與FGFA相同的端到端訓練方法。使用ResNet- 101後,地圖下降到72.0%,比基線(a)低1.4%。快速移動(51.4% 44.6%)的下降幅度遠高於慢動作(82.4% 82.3%)。這說明在視頻目標檢測中,運動的考慮至關重要。

方法(c)在(b)中加入自適應加權模塊,得到的mAP爲74.3%,比(b)高2.3%。值得注意的是,加入自適應加權方案對mAP(慢速)和mAP(中速)幫助不大,但對mAP(快速)很重要(44.6% 52.3%)。圖5(左)顯示了快速移動實例的自適應權值集中在參考點附近的幀上,這些幀的位移相對較小。

方法(d)是本文提出的FGFA方法,它在方法(c)中加入了流導特徵聚集模塊,將地圖得分提高2%,達到76.3%。快速運動的改善更爲顯著(52.3% 57.6%)。圖5顯示了(d)中的自適應權值比(c)中的更均勻地分佈在相鄰幀上,並且對於快速運動最明顯。結果表明,在特徵聚合過程中,流導向的特徵聚合能有效地促進鄰近幀的信息。與單幀基線(a)相比,本文提出的FGFA方法提高了2.9%的總體mAP評分,並提高了6.2%的mAP (fast)評分,示例結果如圖6所示。

方法(e)是(d)的退化版本,沒有使用端到端培訓。它採用單幀基線(a)的特徵和檢測子網絡,以及預先訓練的現成的流網絡。在訓練中,這些模塊是固定的,只學習嵌入的子網絡。結果明顯比(d)差,說明了FGFA端到端訓練的重要性。

至於運行時,所提出的FGFA方法使用ResNet-101和FlowNet處理一個幀,需要733ms。它比單幀基線(288ms)慢,因爲流網絡對每一幀的評估是2K + 1(K = 10)次。爲了減少評估的次數,我們還嘗試了另一個版本的FGFA,其中流網絡只應用於相鄰的幀對。通過合成中間流場,得到非相鄰幀間的流場。這樣,每個相鄰幀對上的流場計算可以重複用於不同的參考幀。FGFA的每幀計算時間減少到356ms,比733ms快得多。由於流場組成中的誤差累積,其精度略有下降(1%)。

由於內存問題,我們在這個實驗中使用了輕量級的ResNet-50。在SGD訓練中,我們在每個小批中嘗試了2幀和5幀(5幀到達了內存上限),在推論中嘗試了1、5、9、13、17、21和25幀。表3的結果顯示,使用2幀和5幀進行訓練可以獲得非常接近的精度。這驗證了我們臨時輟學訓練策略的有效性。在推理中,正如預期的那樣,準確性隨着使用更多的幀而提高。這種改進在21幀時達到飽和。默認情況下,我們在訓練中採樣2幀,在推理中聚合超過21幀。

4.3。與Box-level技術相結合

我們的方法側重於提高視頻幀的特徵質量和識別精度。輸出對象盒可以通過以前的盒級技術作爲後處理進一步改進。特別地,我們測試了三種流行的技術,即運動引導傳播(MGP)[18]、Tubelet rescoring[18]和Seq-NMS[12]。值得注意的是,在2015年ImageNet VID challenge[18]的獲獎作品中使用了MGP和Tubelet rescoring。我們使用了MGP和Tubelet重取岩心的官方公共代碼,並重新實現了Seq-NMS。

表4給出了結果。這三種技術首先與我們使用ResNet-101模型的單幀基線相結合。他們都提高了基線。這說明這種後處理技術是有效的。其中,Seq-NMS的增益最大。當使用ResNet-101模型與FGFA結合時,MGP和Tubelet再取心沒有改善。然而,Seq-NMS仍然有效(mAP增加到78.4%)。通過使用aligne - incepeping - resnet作爲特徵網絡,進一步完善了FGFA+Seq-NMS圖譜到80.1%,表明Seq-NMS對FGFA有很強的補充作用。

圖6。示例視頻剪輯,其中FGFA方法改進了單幀基線(使用ResNet-101)。綠色和黃色的方框分別表示正確和錯誤的檢測。更多的例子可以在https://youtu找到。/ R2h3DbTPvVg。

與最先進的系統相比,不像圖像對象檢測,視頻對象檢測領域缺乏有原則的度量[48]和評估和比較的指南。在2015年和2016年的ImageNet VID challenge中,現有的主要參賽作品顯示了令人印象深刻的結果,但它們是複雜的、高度工程化的系統,帶有各種花哨的功能。這使得不同作品之間難以進行直接而公正的比較。

這項工作的目的是一個有原則的學習框架的視頻對象檢測,而不是最好的系統。FGFA在強單幀基線上的顯著改善驗證了我們方法的有效性。作爲參考,2016年ImageNet VID challenge (NUIST Team)[45]的獲獎作品在ImageNet VID validation上獲得了81.2%的地圖。它使用各種技術,如模型集成、級聯檢測、上下文信息和多尺度推理。相反,我們的方法不使用這些技術(只使用Seq-NMS),並以80.1%的效率獲得最佳mAP。因此,我們得出結論,我們的方法是高度競爭的,即使是目前最好的工程系統。

5. 結論與未來工作

該工作爲視頻對象檢測提供了一個準確的、端到端的、有原則的學習框架。由於我們的方法側重於提高特徵質量,它將是現有box-level框架的補充,以提高視頻幀的準確性。有幾個重要方面有待進一步探討。我們的方法慢了一點,它可能會被更輕量級的流網絡加速。在快速物體運動方面仍有很大的改進空間。更多的註釋數據(例如,YouTube-BoundingBoxes[29])和精確的流量估計可能有助於改進。我們的方法可以進一步利用更好的自適應記憶方案在聚合,而不是使用的注意模型。我們相信這些開放的問題將激發更多的未來工作。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章