AAAI 2020 | HACS運動定位冠軍方案 基於一種新穎的2D時間鄰域網絡方法視頻內容動作定位

當時間從一維變爲二維時,時間序列信息處理問題出現了一種新的建模思想。基於這一新的思想和二維時間圖的概念,微軟亞洲研究院提出了一種解決時間定位問題的新的通用方法:基於視頻內容的自然語言描述的二維時域鄰近網絡2D-TAN。驗證了視頻定位和人體運動檢測的有效性,並在2019年ICCV HACS動作定位挑戰賽中獲得第一名。相關技術細節將發表在AAAI 2020論文“用自然語言學習二維時間相鄰網絡進行時刻定位”本文將對本研究進行深入的闡釋。

作者信息

介紹

我們通常把物理世界定義爲三維空間,把時間定義爲一維空間。然而,這並不是定義它的唯一方法。最近,研究人員打開了思路,提出了一種新的時間表示方法,將時間定義爲二維!

時間是如何用二維表示的?他們給出的答案是:在二維空間中,我們定義一個維度來表示時間的開始時間,另一個維度來表示時間的結束時間;因此,二維空間中的每個座標點都可以表示爲一個時間段(例如,從時間A到時間B結束的時間段)一個特定的時間點(例如,從時間a到時間a的結束,即時間a)。

這個二維時間定義的目的和意義是什麼?他們認爲這種新的時間定義方法可以爲時間序列信息的處理,如視頻、語音、軌跡等時間序列信息的分析和處理提供一種新的建模思路。近年來,他們將這種新的時間表達式應用於視頻內容的理解,在視頻中實現了人體運動檢測和視頻內容片段定位任務中取得了優異的性能。值得一提的是,他們應用這種新的時間表達方法,結合最新的深度學習模型,在視頻動作識別與檢測競賽(HACS時間動作定位挑戰賽)中取得了第一名。

方法

下面,讓我們瞭解一下這個二維時間表達式是如何應用到視頻內容理解任務中的。

  • 基於二維時間圖的視頻內容分段定位

視頻內容片段定位包括多個子任務,如視頻中具有自然語言描述的視頻片段定位和視頻中的時間動作定位。前者需要根據用戶給出的描述語句來定位文本所描述的視頻剪輯的開始和結束時間點,後者需要檢測動作片段類別的存在並將其定位在動作開始和結束的給定長視頻時間點上。

在這些任務中,一種常見的方法是預先設置一些候選視頻片段(建議/時刻/片段),然後相應地預測每個片段的可能性。然而,在預測過程中,以往的工作通常只對每一段進行獨立的預測,而忽略了各段之間的依賴關係。爲此,本文提出了二維時間映射的概念,並通過二維時間域鄰接網絡(2D-Temporal-jacent network,即2D-TAN)來解決這一問題。該方法是解決時間定位問題的一般方法。它不僅可以學習段間的時域鄰近關係,還能學習更多的特徵表達式。

在上述視頻內容片段定位任務中,驗證了該方法的有效性。在基於自然語言描述的視頻片段定位任務中,我們提出的2D-TAN方法在三個基準數據集上取得了良好的性能結果,相關論文已被AAAI 2020[1]所接受。在視頻中的人體運動檢測中,我們基於2D-TAN的改進方案[2]在HACS時間動作定位挑戰中獲得了第一名。

下面以自然語言描述的視頻內容片段定位爲例介紹我們的工作,並簡要介紹了人體運動檢測的發展。

  • 基於自然語言描述的視頻片段定位

基於自然語言描述定位視頻片段的任務是根據用戶給出的描述語句,從視頻中定位文本描述的視頻片段,並返回該片段的開始和結束時間,如圖所示,之前的工作是獨立地匹配句子和片段,忽略其他碎片對它的影響。在處理多個片段時,很難獲得準確的結果,特別是在片段之間存在依賴關係時。例如,當我們想定位“那個傢伙又吹薩克斯管了”時,如果我們只看下一個視頻而不是上一個視頻,我們就找不到視頻中的這個片段。另一方面,有許多候選片段與目標片段重疊,如圖1中查詢B下的各個片段。這些剪輯具有相似的視頻內容,但在語義上略有不同。如果不綜合考慮這些片段來區分細微差別,也很難得到準確的結果。

圖1:在未修剪的視頻中使用自然語言定位瞬間的示例。 在二維時間圖中,黑色的垂直軸和水平軸代表開始和結束幀索引,而相應的灰色軸代表視頻中相應的開始和結束時間。 2D映射中用紅色突出顯示的值表示候選時刻和目標時刻之間的匹配分數。 在此,τ是由視頻長度和採樣率確定的短持續時間。

爲了解決這個問題,我們提出了一個二維時域鄰近網絡(2D-TAN)。核心思想是在二維時間圖中定位視頻片段,如圖1所示。具體來說,圖中的(i,j)表示從i到(j+1)的時間段。該圖包含不同長度的片段,並且通過圖中座標的距離,我們可以定義這些片段之間的鄰近關係。通過這些關係,我們的2D-TAN模型可以對依賴項進行建模。同時,不同剪輯和目標剪輯之間的重疊程度也會有所不同。2D-TAN可以通過將這些重疊的差異作爲一個整體來考慮,而不是單獨考慮每個段,從而學習更多的區別特徵,如圖2所示:

圖2:與以前方法的比較。綠色長方體表示候選片段與句子融合後的相似性特徵。框中指示分數,框中的紅色程度指示段與目標段重疊的程度。左圖顯示了前面的方法,它獨立地預測每個片段的得分。右邊的圖顯示了我們的方法。在預測當前段的得分時,它考慮了相鄰段之間的關係。

  • 二維時域鄰近網絡(2D-TAN)

我們的2D-TAN模型如圖3所示。該網絡由三部分組成:用於提取自然語言文本特徵的編碼器、用於提取視頻特徵地圖的編碼器和用於定位的時域鄰近網絡。下面我們將詳細介紹每個部分。

圖3:我們建議的2D時間相鄰網絡的框架。 它由用於語言表示的文本編碼器,用於視頻表示的2D時域特徵圖提取器和用於時域定位的時域相鄰網絡組成

  • 文本特徵

我們將每個文本詞轉換成一個GloVe向量表示法[4],然後將其最後一層的輸出作爲文本句子的特徵,依次通過LSTM網絡[5]傳遞。

  • 視頻二維特徵圖

我們首先將視頻分割成小的單元片段,然後將其下采樣到均勻的長度,然後通過預先訓練的網絡提取其特徵。提取的特徵通過卷積和池運算得到最終的剪輯特徵(N×d^v)。候選片段由連續的單元片段組成,不同候選片段的長度可能不同。爲了獲得一個統一的特徵表示,對於每個候選片段,我們通過最大限度地彙集相應的單元片段序列來獲得其最終身份。根據每個候選段的開始和結束時間點,將所有候選段重新排列成一個大小爲N×N×d^v的二維特徵圖,因爲開始時間總是小於結束時間,所以特徵圖的下三角部分無效,所以我們用0填充它們,不參與後續的計算。

當N較大時,特徵映射的計算量也會增加。爲了解決這個問題,我們還提出了一種稀疏映射構造策略,如圖4所示。在這個圖中,我們根據片段的長度以不同的密度進行採樣。對於短剪輯,我們枚舉所有可能的情況並執行密集採樣。對於中等長度的剪輯,我們將採樣步長設置爲2。對於長剪輯,我們將採樣步長設置爲4。這樣,在保證計算精度的同時,可以減少枚舉帶來的計算開銷。所有未選擇的片段都用0填充,不參與後續計算。

圖4:未修剪的視頻中有N = 64個採樣片段時的候選矩選擇。 2D映射的上部三角形部分枚舉了從剪輯va到vb的所有可能的矩候選,而下部三角形部分無效。 在我們的方法中,僅選擇藍點作爲矩候選, 彩色效果最佳。

  • 基於時間的鄰近網絡定位

利用視頻的二維特徵圖(圖3中的藍色立方體)和句子的文本特徵(圖3中的黃色立方體),我們首先將特徵圖中每個位置的視頻特徵與文本特徵融合,得到相似度特徵圖(圖3右圖像中左側的綠色立方體)。然後,將融合後的相似性特徵映射通過一系列卷積層,並逐層建立各段與其周圍段之間的關係。最後,將考慮鄰域關係的相似度特徵輸入到完全連通層中,得到最終的得分。

  • 損失函數

在訓練整個2D-TAN網絡時,使用二元交叉熵作爲損失函數,並在損失函數中使用線性變換的交併(IoU)值作爲標記。

實驗結果

我們在三個數據集上進行了測試:Charades STA[6]、ActivityNet caption[7]和TACoS[8]。實驗結果見表1-3。從實驗結果可以看出,該方法在不同數據集的各種評價指標下都取得了良好的性能。值得注意的是,在更嚴格的評價標準下(如表1-3中的秩{1,5}@{0.5,0.7})我們的方法改進更爲顯著,尤其是在玉米卷中,[email protected][email protected]都提高了5和14個百分點。這些實驗結果表明,基於二維時間圖的貼近關係的建模可以大大提高性能。

表1:Charades-STA上的性能比較。 Pool和Conv分別表示最大池化和堆疊卷積,這指示了我們2D TAN中矩特徵提取的兩種不同方式。 用粗體和斜體字體突出顯示的值分別表示前2種方法。 其餘表使用相同的符號。

表2:ActivityNet字幕的性能比較

表3:TACoS的性能比較

基於二維時間映射的人體運動檢測

考慮到2D-TAN方法的通用性及其在基於自然語言的時間定位任務中的優異性能,我們在後續工作中將其擴展到視頻中的人體運動檢測任務。此任務需要檢測給定長視頻中預定義的動作段類別及其開始和結束時間點。一種常見的方法是將任務分成兩個步驟,首先檢測哪些片段可能具有預定義的動作片段(建議生成),然後預測這些候選片段可能屬於的類別。考慮到這類實踐的第一步與我們提出的2D-TAN方法非常相關,其本質是爲了解決碎片之間的相互依賴問題,因此我們使用2D-TAN方法來改進這一任務。見圖5:

圖5:S-2D-TAN框架圖

與基於自然語言描述的視頻片段定位相比,用於視頻運動定位的目標片段往往更短。因此,需要更高的採樣頻率,因此採樣單元片段N的數量更大。相應地,特徵映射中長片段的採樣步長也會相對較大,並且底層卷積層往往感覺不到足夠的上下文信息。在圖5中,紅色虛線框表示中長線段的第一層中涉及的相鄰線段,黃色虛線框表示短線段中涉及的相鄰線段。我們可以看到黃色框比紅色框包含更多的上下文信息。因此,在2D-TAN的基礎上,我們設計了一個稀疏的2D時間鄰接網絡(即S-2D-TAN),用於上下文信息較少的長段。該網絡根據採樣步長將稀疏映射分解爲三個更爲緊湊的時域特徵映射。通過將不同的特徵映射通過具有共享內核的卷積網絡,長段可以從周圍的特徵中獲取更多的上下文信息。

作者的算法在ICCV2019年HACS行動定位挑戰賽中獲得第一名。值得一提的是,HACS是目前視頻中用於人體運動檢測任務的最大數據集[2]。詳見技術報告[3]。

圖6:比賽獲獎證書

結論

論文地址或源碼下載地址:關注“圖像算法”wx公衆號 回覆"2D-TAN",本文提出了一種二維時間圖表示和一種新的用於視頻內容段定位的時域鄰近網絡(2D-TAN)。該方法的有效性是基於視頻內容定位和人體運動檢測的自然語言描述。已對此任務進行了初步驗證。這種方法還處於探索的初級階段:從網絡結構的角度看,目前的結構只採用簡單的卷積層疊加方式。相信網絡結構本身的進一步優化將帶來性能的提高。另一方面,從方法的通用性來看,目前我們只驗證了兩個任務,還有很多相關任務值得擴展,比如視頻文本描述、視頻內容問答,或者其他包含語音等計時信息的任務。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章