視頻目標檢測論文彙總(含代碼地址)

論文標題: Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

論文下載地址:https://arxiv.org/abs/1903.10172

代碼下載地址:https://github.com/vikrant7/pytorch-looking-fast-and-slow

論文簡介:物體在快速運動時,當人眼所看到的影像消失後,人眼仍能繼續保留其影像,約0.1-0.4秒左右的圖像,這種現象被稱爲視覺暫留現象。人類在觀看視頻時,利用視覺暫留機制和記憶能力,可以快速處理視頻流。藉助於存儲功能,CNN同樣可以實現減少視頻目標檢測的計算量。視頻幀具有較高的時序冗餘。作者提出使用兩個特徵提取子網絡:Slow network 和Fast network。Slow network負責提取視頻幀的精確特徵,速度較慢,Fast network負責快速提取視頻幀的特徵提取,準確率較差,兩者交替處理視頻幀圖像。Fast network和Slow network特徵經過ConvLSTM層融合並保存特徵。檢測器在當前幀特徵和上下文特徵融合基礎上生成檢測框。論文提取基於強化學習策略的特徵提取調度機制和需要保存特徵的更新機制。

論文貢獻:1、提出基於存儲引導的交替模型框架,使用兩個特徵提取網絡分別提取不同幀特徵,減少計算冗餘。2、提出基於Q-learning學習自適應交替策略,取得速度和準確率的平衡。3、在手機設備實現迄今爲止已知視頻目標檢測的最高速度。

論文指標:模型在Imagenet DET 和COCO訓練,在Imagenet VID 2015測試結果最好mAP爲63.9,最快速度72.3fps時mAP爲59.3

 

論文標題:T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos

論文下載地址:http://arxiv.org/abs/1604.02532

代碼下載地址:https://github.com/myfavouritekk/T-CNN

論文簡介:在過去兩年中,用於物體檢測的最新性能得到了顯着改善。除了引入強大的深度神經網絡之外,還引入了新穎的對象檢測框架,例如R-CNN 及其改進版本Fast R-CNN 和Faster R-CNN,在改進最新技術方面起着至關重要的作用。儘管它們在靜止圖像上有效,但這些框架並不是專門爲視頻中的對象檢測而設計的。視頻的時間和上下文信息未得到充分調查和利用。在這項工作中,作者提出了一個深度學習框架,該框架將視頻中獲得的細小管的時間和上下文信息融合在一起,當將現有的靜止圖像檢測框架應用於視頻時,可以顯着提高其基線性能。它被稱爲T-CNN,即具有卷積神經網絡的小管。擬議的框架在ImageNet大規模視覺識別挑戰賽2015(ILSVRC 2015)中贏得了新引入的視頻目標檢測(VID)任務,並提供了數據。

論文貢獻:本文的貢獻有三。 1)首先提出了一個深度學習框架,擴展了流行的靜態圖像檢測框架(R-CNN和Faster R-CNN),通過融合來自tubelet的時間和上下文信息來解決視頻中的通用對象檢測問題,稱爲T-CNN,即具有卷積神經網絡的tubelet。 2)通過在相鄰幀之間局部的傳播檢測結果,以及全面修改檢測置信度和從跟蹤算法生成的tubelet,時間信息被有效地納入提出的檢測框架。 3)根據視頻剪輯中的所有檢測結果,利用上下文信息來抑制低置信度類別的檢測分數。該框架贏得具有提供的數據的VID任務,並在ILSVRC2015中實現了具有外部數據的第二名。

論文指標:

 

論文標題:Object Detection from Video Tubelets with Convolutional Neural Networks

論文下載地址:https://arxiv.org/abs/1604.04053

代碼下載地址:https://github.com/myfavouritekk/vdetlib

論文簡介:深度卷積神經網絡(CNN)在各種視覺任務(例如圖像分類,對象檢測和語義分割)中均表現出令人印象深刻的性能。對於物體檢測,特別是在靜止圖像中的物體檢測,由於強大的深度網絡(例如GoogleNet)和檢測框架(例如具有CNN功能的區域(RCNN)),去年的性能有了顯着提高。最近推出的有關從視頻進行對象檢測(VID)的ImageNet [6]任務將對象檢測任務帶入了視頻域,在該域​​中,需要在每個幀的對象位置標註邊框。在這項工作中,作者介紹了一個基於靜止圖像對象檢測和常規對象跟蹤的VID任務的完整框架。他們在VID任務中的關係和貢獻得到了徹底的研究和評估。另外,提出了一種時間卷積網絡以合併時間信息以規範化檢測結果並顯示其對任務的有效性。

論文貢獻:在這項工作中,作者提出了一個基於深度CNN檢測和跟蹤的多階段框架,用於視頻中的對象檢測。 該框架由兩個主要模塊組成:1)結合了對象檢測和對象跟蹤功能的試管提議模塊; 2)細管分類和重新評分模塊,執行空間最大合併以實現魯棒的框評分和時間卷積以合併時間一致性。 對象檢測和跟蹤在作者的框架中緊密合作。 一方面,物體檢測產生高可信度的錨點以啓動跟蹤並通過空間最大池化減少跟蹤失敗。 另一方面,跟蹤還會生成用於對象檢測的新建議,並且跟蹤的框充當錨點以聚合現有檢測。本文的貢獻有三個方面 1)提出了一個完整的多階段框架,用於視頻中的目標檢測。 2)詳細研究了靜止圖像目標檢測與目標跟蹤之間的關係,以及它們對視頻目標檢測的影響。 3)提出了一種特殊的時間卷積神經網絡,將時間信息納入視頻的目標檢測。

論文指標:本文提出的方法最好的表現爲AP47.5%。

 

論文標題:Optimizing Video Object Detection via a Scale-Time Lattice

論文下載地址:https://arxiv.org/abs/1804.05472

代碼下載地址: https://github.com/hellock/scale-time-lattice

論文簡介:本文主要研究如何更好地優化和平衡視頻中物體檢測的準確率和檢測速度。物體檢測器爲了達到高準確率,往往需要使用高性能的卷積神經網絡來提取圖像特徵,導致檢測速度難以滿足實時性的需求。解決這個問題的關鍵在於尋求一種有效的方式,在準確率和檢測速度之間作出平衡。爲了尋找一個良好的平衡點,之前的研究工作通常集中在如何優化網絡結構上。本文提出一種新的方法,基於尺度-時間網格(Scale-Time Lattice,簡記爲ST-Lattice)來重新分配計算資源。

論文貢獻:尺度時間網絡:本文將尺度-時間網格表示成一個有向無環圖。圖中的每一個節點都表示某個圖像尺度和時間點的中間結果,即一系列檢測框。這些節點以類似網格的方式關聯起來:從左到右遵循時間順序,從上到下圖像尺度(分辨率)逐漸提高。圖中的一條邊代表一個特定的操作,以一個節點的結果作爲輸入,輸出另一個節點的檢測結果。作者在圖中定義兩種操作,時間傳播(temporal propagation)和空間修正(spatial refinement)。它們分別對應圖中橫向邊和縱向邊。時間傳播是在同一圖像尺度下,在相鄰的幀之間進行檢測框的傳播。而空間修正是在同一幀下,對檢測框的位置進行修正,獲得更高圖像尺度下的檢測框結果。在尺度-時間網格中,檢測結果會通過上述操作從一個節點傳播到另一個節點,最終到達最底端的所有節點,也即在最大的圖像尺度上每幀的檢測結果。傳播和修正單元:以相鄰兩個關鍵幀的結果作爲輸入,使用時間傳播網絡將結果傳播到中間幀上,然後使用空間修正網絡將結果進行空間位置上的修正。時間傳播網絡主要用於考慮視頻中的運動信息,來預測兩幀之間較大的位移。而空間修正模塊則通過迴歸檢測框位置的偏差,來修正檢測框本來的誤差和傳播帶來的誤差。這兩種操作不斷迭代進行來獲得最終的檢測結果。關鍵幀選擇:關鍵幀的選取對最終的檢測速度和準確率有着重要的影響。最簡單直接的方法就是在時間軸上均勻地選取關鍵幀,之前的絕大多數方法也都採取了該策略。但本文考慮到幀與幀之間的信息冗餘度不同,並不是每一幀都有同等重要的地位,所以需要一種非均勻的採樣策略,在物體運動較快、傳播難度大的時間段內多選取關鍵幀,反之則少選取關鍵幀。時間管道重打分:由於時間上的檢測框傳播,獲得的檢測結果並不是獨立的逐幀結果,而是自然串聯成一個個的物體時間管道(Object Tube)的,那麼可以對這些物體時間管道來進行重新分類。本文訓練了一個 R-CNN 作爲分類器,對於每個物體時間管道,均勻選取其中 K 幀作爲輸入,以它們的平均值作爲新的分類結果,根據新的分類結果來調整物體時間管道中每個框的分數

論文指標:本文提出的方法在ImageNet VID 數據集上達到了 79.6 mAP(20fps)和 79.0 mAP(62 fps)的準確率和速度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章