Efficient Video Object Segmentation via Network Modulation 翻譯

                           通過網絡調製實現高效的視頻對象分割

               


項目地址:https://github.com/linjieyangsc/video_seg


摘要

當僅給出帶註釋的第一幀時,視頻對象分割目標在整個視頻序列中對特定對象進行分段

最近基於深度學習的方法發現使用數百次梯度下降迭代來微調註釋幀上的通用分割模型是有效的。

儘管這些方法實現了高精度,但微調過程效率低下並且不能滿足現實世界應用的要求。

我們提出了一種新方法,該方法使用單個前向傳遞來使分割模型適應特定對象的外觀。

具體地,在給定目標對象的有限視覺和空間信息的情況下,訓練稱爲調製器的第二元神經網絡以操縱分割網絡的中間層。  

實驗表明,我們的方法比微調方法快70倍,並達到類似的準確度。

我們的模型和代碼已在https://github.com/linjieyangsc/video_seg上發佈。


介紹

語義分割在理解圖像的視覺內容中起重要作用,因爲它爲每個像素分配預定義的對象或場景標籤,從而將圖像轉換爲分割圖。

在處理視頻內容時,人們可以在不知道其語義含義的情況下輕鬆地分割整個視頻中的對象,這激發了一個名爲半監督視頻分割的研究課題。

在半監督視頻分割的典型場景中,給出一個視頻的第一幀以及帶註釋的對象掩模,並且任務是在所有後續幀中準確地定位對象。

以最小監督(例如,一個註釋幀)執行精確像素級視頻分割的能力可導致大量應用,諸如用於視頻理解的精確對象跟蹤,交互式視頻編輯,增強現實和基於視頻的廣告。

當監督僅限於一個帶註釋的框架時,研究人員將這種情況稱爲一次性學習。

近年來,我們目睹了對開發視頻分割的一次性學習技術的興趣不斷增加。

大多數這些作品都有一個類似的兩階段範式:首先,訓練一個通用的全卷積網絡(FCN)來分割前景物體;第二,基於視頻的第一幀微調該網絡,進行數百次前後迭代,以使模型適應特定的視頻序列

儘管這些方法實現了高精度,但微調過程可能耗費時間,這阻礙了實時應用。

這些方法中的一些論文也利用光流信息,這對於最先進的算法來說計算量很大。

爲了降低半監督分割的計算成本,我們提出了一種新方法,使通用分割網絡適應單個前饋傳遞中特定對象實例的出現。

我們建議採用另一種稱爲調製器的元神經網絡來學習在給定任意目標對象實例的情況下調整通用分段網絡的中間層。

圖1顯示了我們的方法。

通過從註釋對象的圖像和對象的空間先驗提取信息,調製器產生參數列表,其被注入到分段模型中以用於逐層特徵操縱。

如果沒有一次性微調,我們的模型能夠使用來自目標對象的最少提取信息來改變分割網絡的行爲。

我們將此過程稱爲網絡調製


圖1 方法概述

我們的模型由調製器和分段網絡組成。  調製器可以立即調整分割模型以通過視頻序列分割任意對象。

                                      


我們提出的模型是有效的,僅需要來自調製器的一個前向通道來產生分割模型所需的所有參數以適應特定的對象實例。

由空間先驗引導的網絡調製有助於模型即使存在多個類似實例也能跟蹤對象。

整個管道是可區分的,可以使用標準隨機梯度下降進行端到端學習。

實驗表明,我們的方法在沒有大幅度微調的情況下優於以前的方法,並且在70倍加速的單次微調之後實現了與這些方法相當的性能。


相關工作

半監督視頻分割

半監督視頻對象分割旨在在整個視頻的其餘部分中從第一個帶註釋的幀跟蹤對象掩模

在最近的文獻中已經提出了許多方法,包括傳播超像素,補丁,對象建議或雙邊空間,並且通常執行基於圖形模型的優化以考慮多個同時框架。

隨着FCN在靜態圖像分割上的成功,最近提出了基於深度學習的方法用於視頻分割,並且已經實現了有希望的結果。

爲了模擬時間運動信息,一些工作嚴重依賴於光流,並使用CNN來學習物體從當前幀到下一幀的掩模細化,或者將CNN的訓練與雙邊訓練結合起來相鄰幀之間的過濾。

陳等人使用CNN來聯合估計光流並提供學習的運動表示以產生跨時間的運動一致分段。

與這些方法不同,Caelles等人結合靜態圖像的離線和在線訓練過程,不使用時間信息。

雖然它節省了以前某些方法中涉及的光流和/或條件隨機場(CRF)的計算,但在線微調仍需要多次迭代優化,這對需要快速推理的實際應用提出了挑戰。

用於低射擊(low-shot)學習的元學習

當前深度學習的成功依賴於通過梯度下降優化來學習大規模標記數據集的能力。

但是,如果我們的目標是學習適應許多環境的許多任務,那麼模型從頭開始學習每個設置的每個任務並不是最佳的。

相反,我們希望我們的深度學習系統能夠非常快速地從非常有限的數據量學習新任務

在“一次性學習”的極端情況下,算法需要通過單次觀察來學習新任務。

學習多功能模型的一個潛在策略是元學習或學習學習的概念,其可以追溯到20世紀80年代後期。

最近,元學習已經成爲一個熱門的研究課題,出版了神經網絡優化,發現了良好的網絡架構,快速強化學習和少數鏡頭圖像識別。

Ravi和Larochelle 提出了一個LSTM元學習器來學習幾個鏡頭學習的更新規則。

還有論文中針對大量任務的元優化目標是學習能夠通過有限數量的更新快速適應新任務的模型。

Hariharan和Girschick訓練了一個學習者,他們生成了新的樣本,並使用新的樣本來訓練新的任務。

我們的方法類似於元學習,因爲它學習用另一個元學習器即調製器快速更新分割模型。

網絡操縱

以前的幾個工作試圖結合模塊來操縱深度神經網絡的行爲,或者操縱數據的空間排列或過濾器權重的連接。

我們的方法也受到條件批量歸一化的強烈推動,其中深度模型的行爲由基於指導輸入的批量歸一化參數操縱,例如, 用於圖像樣式化的樣式圖像或用於視覺問題回答的語言句子。


網絡調製的視頻對象分割

在我們提出的框架中,我們利用調製器立即使分割網絡適應特定對象,而不是執行數百次梯度下降迭代。  

與在一次性學習方法中更新整個網絡相比,我們可以通過調整分割網絡中有限數量的參數來實現類似的準確性。

視頻對象分割有兩個重要提示:視覺外觀空間連續運動

爲了使用來自視覺和空間域的信息,我們結合了兩個網絡調製器,即視覺調製器空間調製器,以學習分別基於註釋的第一幀對象的空間位置來調整主分段網絡中的中間層。

條件批量標準化

我們的方法受到最近使用條件批量歸一化(CBN)的工作的啓發,其中每個批量歸一化層的規模和偏差參數由第二控制器網絡產生。

這些參數用於控制主網絡的行爲,以執行圖像樣式化和問題回答等任務。

在數學上,每個CBN層可以如下配製:

                                                                                          

其中xc和yc是第c個通道中的輸入和輸出特徵映射,γc和βc分別是控制器網絡產生的縮放和偏置參數。

爲清楚起見,省略了均值和方差參數。

視覺和空間調製

CBN層是特徵圖上更一般的縮放和移位操作的特殊情況。

在每個卷積層之後,我們定義一個新的調製層,其中包含由聯合訓練的視覺和空間調製器生成的參數。

我們設計了兩個調製器,使得視覺調製器產生通道方向尺度參數以調整特徵圖中不同通道的權重,而空間調製器產生元素方向偏置參數以在調製特徵之前注入空間。

具體來說,我們的調製層可以表述如下:

                                                                                          

其中γc和βc分別是來自視覺和空間調製器的調製參數。

γc是用於通道加權的標量,而βc是應用逐點偏差值的二維矩陣。

圖2示出了所提出的方法的圖示,其由三個網絡組成:完全卷積主分割網絡視覺調製器網絡空間調製器網絡。  

視覺調製器網絡是CNN,其將帶註釋的視覺對象圖像作爲輸入並且爲所有調製層產生尺度參數的矢量,而空間調製器網絡是基於空間先前輸入產生偏置參數的非常有效的網絡。


圖2

我們的模型有三個組件的例證:分段網絡,視覺調製器和空間調製器。 這兩個調製器產生一組參數,這些參數操縱分段網絡的中間特徵圖並使其適應於分割特定對象。

            


視覺調製器

視覺調製器用於使分割網絡適應於關注特定對象實例,該特定對象實例是第一幀中的註釋對象

爲方便起見,以下將註釋對象稱爲視覺引導

視覺調製器從視覺引導中提取諸如類別,顏色,形狀和紋理的語義信息,並生成相應的頻道方向權重,以便重新定位分割網絡以分割對象。

我們使用VGG16 神經網絡作爲視覺調製器的模型。

我們修改其針對ImageNet分類訓練最後一層,以匹配分段網絡的調製層中的參數數量。

視覺調製器隱含地學習不同類型對象的嵌入。

它應該產生類似的參數來調整類似對象的分割網絡和不同對象的不同參數。

使用這種視覺調製器的一個顯着優點是我們可以潛在地轉移利用大量對象類(例如ImageNet)學習的知識,以便學習良好的嵌入。

空間調製器

我們的空間調製器將圖像中對象的先前位置作爲輸入

由於對象在視頻中連續移動,我們將先前設置爲前一幀中對象掩碼的預測位置

具體而言,我們將位置信息編碼爲在圖像平面上具有二維高斯分佈的熱圖

高斯分佈的中心和標準偏差是根據前一幀的預測掩模計算的。 爲方便起見,此熱圖在下文中稱爲空間指南。  

空間調製器將空間指南下采樣到不同的比例,以匹配分割網絡中的不同特徵圖的分辨率,然後對每個下采樣的熱圖應用縮放和移位操作以生成相應調製層的偏置參數。

在數學上,

                                                                                            

其中m是對應調製層的下采樣高斯熱圖,γ~c和β~c分別是第c通道的標度 - 移位參數。

這是通過計算效率高的1×1卷積實現的。

在圖2的底部,我們說明了空間調製器的結構。

實施細節

我們的FCN結構具有超柱結構的VGG16 模型。  

直觀地說,我們應該在FCN中的每個卷積層之後添加調製層。

然而,我們發現在早期卷積層之間添加調製層實際上會惡化模型的性能。

一個可能的原因是早期層提取的低級特徵對調製器引入的縮放和移位操作非常敏感。  

在我們的實現中,我們將調製操作添加到VGG16中的所有卷積層,除了前四層,這導致九個調製層。

與MaskTrack 類似,我們也利用靜態圖像訓練我們的模型。

理想情況下,視覺調製器應該學習從任何對象到FCN中不同層的調製權重的映射,這要求模型查看所有可能的不同對象。

但是,大多數視頻語義分段數據集僅包含非常有限數量的類別。

我們通過使用最大的公共語義分割數據集MSCOCO 來解決這一挑戰,該數據集有80個對象類別。

我們選擇大於圖像大小3%的對象進行訓練,結果總數爲217,516個對象。

對於預處理視覺調製器的輸入,我們首先使用帶註釋的蒙版裁剪對象,然後將背景像素設置爲平均圖像值,然後將裁剪的圖像調整爲224×224的恆定分辨率。

對象也增加了高達10%隨機縮放10°隨機旋轉

爲了預處理空間指南作爲空間調製器的輸入,我們首先計算掩模的平均值和標準偏差,然後使用高達20%隨機移位和40%隨機縮放來增加掩模。

對於送入FCN的整個圖像,我們使用320,400480的隨機大小,方形。

視覺調製器和分割網絡都使用在ImageNet 分類任務上預訓練的VGG16模型進行初始化。

通過將視覺調製器的最後一個全連接層的權重和偏差分別設置爲0和1,將調製參數{γc}初始化爲1。

空間調製器的權重隨機初始化。

我們使用平衡交叉熵損失

使用小批量(mini-batch)8

對於β1和β2,我們分別使用默認動量爲0.9和0.999的Adam優化器。

該模型首先訓練10個epoch,學習率爲10^-5,然後訓練另外5個epoch,學習率爲10^-6。

此外,爲了模擬視頻中移動物體的外觀變化,可以在視頻分割數據集(如DAVIS 2017 )上對模型進行微調。

爲了更加強大的外觀變化,我們從整個視頻序列中隨機選取一個前景對象作爲每個幀的視覺指南

空間指南是從前一幀中對象的Ground Truth掩模獲得的。

相同的數據增強作爲MSCOCO上的訓練應用。

該模型經過20個時期的微調,學習率爲10^-6。


實驗

在本節中,我們將介紹實驗的三個部分:我們的方法與先前方法的比較調製參數的可視化消融研究。  

我們的模型在幾個流行的視頻分割數據集上進行了測試,包括DAVISYoutubeObjects


DAVIS 2016 & YoutubeObjects

我們的方法與DAVIS 2016和YoutubeObjects的最新方法的性能比較。 以平均IU測量的性能。

在我們的方法中,視覺調製器的一個前向傳遞允許分割模型適應,這比在目標視頻上進行模型微調的現有方法更有效。

視覺調製器僅需要針對整個視頻計算一次。

同時,需要針對每個幀計算空間調製器,但是開銷可以忽略不計,即,我們的模型在視頻序列上的平均速度與FCN本身大致相同。

我們的方法是所有比較方法中第二快的,只有MaskTrack-B和OSVOS-B達到相似的速度但精度較低。


DAVIS 2017

表2顯示了DAVIS 2017上不同方法的結果。

我們利用DAVIS數據集的官方評估指標:區域相似度J輪廓精度F的均值反饋衰減

注意J mean等於我們上面使用的平均IU。

同樣,我們的模型大大優於OSVOS-B和MaskTrack-B,同時通過模型微調獲得與兩種方法相當的性能。

OSVOS-M和MaskTrack-M均優於其基線實現,J均值分別增加18%和9.3%。

由於分割模型的權重是固定的,因此精度增益僅來自調製器,這證明視覺調製器能夠通過操縱中間特徵圖的比例來改善不同的模型結構。


我們的方法與前兩種方法相比的一些定性結果如圖3所示。

與MaskTrack相比,我們的方法通常獲得更準確的邊界,部分原因是粗糙空間先驗迫使模型在圖像上探索更多線索。

與OSVOS相比,由於空間調製器提供的跟蹤功能,當圖像中存在多個相似物體時,我們的方法顯示出更好的結果。

另一方面,我們的方法也顯示出對訓練數據中看不見的對象類別有效。  

在圖3中,駱駝是MS-COCO數據集中看不見的對象類別。


圖3

我們的方法的一些定性結果與最近兩個關於DAVIS 2017的最新方法相比較。


圖4

J表示不同方法在DAVIS 2017上的表現。我們的是紅色的。

                             


可視化調製參數

我們的模型隱含地學習了來自視覺調製器的調製參數的嵌入用於註釋對象。

直觀地說,類似的對象應該具有相似的調製參數,而不同的對象應該具有顯着不同的調製參數。

爲了可視化這種嵌入,我們從MS-COCO中的10個對象類中的100個對象實例中提取調製參數,並使用圖5中的多維縮放在二維嵌入空間中可視化參數。

我們可以看到同一類別主要聚集在一起,類似的類別比不同的類別更接近。


圖5

從10個類別的100個對象的學習調製參數的可視化:自行車,摩托車,汽車,公共汽車,卡車,狗,貓,馬,牛,人。 放大以查看詳細信息。

例如,貓和狗,汽車和公共汽車由於其相似的外觀而混合在一起,而自行車和狗,公共汽車和馬匹由於視覺差異很大而彼此遠離。

哺乳動物類(貓,狗,牛,馬,人)通常聚集在一起,人造物體(汽車,公共汽車,自行車,摩托車,卡車)聚集在一起。

                              


不同層中調製參數

我們還研究了不同層中調製參數的大小。 調製參數{γc}根據視覺指南而改變。

因此,我們計算MS-COCO驗證集中圖像的每個調製層中調製參數{γc}的標準偏差,並在圖6中進行說明。


圖6

在不同調制層中來自視覺調製器的γc的標準偏差的直方圖。  帶註釋的名稱是VGG16中相應的卷積層。


 一個有趣的觀察結果是,對於網絡的更深層次調製參數的變化變得更大。  

這表明,在最後幾層中,特徵地圖的操縱比在網絡的早期層中更爲顯着。  

深層神經網絡的最後幾層通常學習高級語義含義,可用於更有效地將分割模型調整到特定對象。

我們還通過在空間調製器的每一層中提取尺度參數{γ~c}來研究空間調製器,並在圖7中將它們可視化。

{γ〜c}的大小是空間指南的相對尺度。  FCN中的功能圖。

{γ〜c}的比例與空間先驗對中間特徵圖的影響成比例。

有趣的是,我們觀察到{γ〜c}值的稀疏性。

除最後一個卷積層conv5-3外,大約60%的參數具有零值,這意味着只有40%的特徵圖受這些層中的空間先驗影響。


圖7

來自不同調制層中的空間調製器的γ~c的幅度的直方圖。 帶註釋的名稱是VGG16中相應的卷積層。

   


conv5-3中,大約70%的特徵圖與空間指南相互作用,並且大多數特徵圖與空間指南的相似比例(注意峯值約爲0.4)相加。

這表明空間先驗被逐漸融合到特徵圖中,而不是在網絡的開始時有效

在完成所有特徵提取之後,空間調製器對特徵圖進行大的調整,這提供了目標對象的位置的強大先驗。

消融研究

我們研究了不同成分對我們方法的影響。

我們在2017年DAVIS上進行實驗,並使用平均IU測量性能。

對於模型結構的變體,我們僅使用空間或視覺調製器進行實驗。

對於數據增強方法,我們沒有對FCN輸入進行隨機作物增強,也沒有對視覺指南和空間指南進行仿射變換。

我們嘗試使用CRF作爲後處理步驟。

爲了研究單次微調對我們模型的影響,我們還嘗試使用少量迭代進行標準的單次微調

結果顯示在表3中。

                                         


結論

在這項工作中,我們提出了一個新的框架來有效地處理一次性視頻分割

爲了減輕先前基於FCN的方法開發的單次微調的慢速,我們建議使用網絡調製方法,通過調製器網絡的一次正向來模擬微調過程。

我們在實驗中表明,通過注入由調製器計算的有限數量的參數,可以重新利用分割模型來分割任意對象。

所提出的網絡調製方法是用於少數學習問題的通用學習方法,其可以應用於諸如視覺跟蹤圖像風格化的其他任務。

我們的方法屬於元學習的一般範疇,同樣值得研究視頻分割的其他元學習方法。

未來的另一項工作是學習調製參數的循環表示基於時間信息操縱FCN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章