阿里達摩院:1秒替換直播背景,像素級視頻分割如何實現? | CVPR 技術解讀

計算機視覺領域的 AI 頂會 CVPR 2020 剛剛落下帷幕,與往年更專注圖片識別不同,學術界和工業界的研究方向逐漸轉向了更難的視頻分割和三維視覺等領域。本次,阿里巴巴拿下了四項比賽的世界冠軍,其中就包括 CVPR 2020 的 DAVIS 視頻目標分割比賽,本文將詳細解讀這項冠軍技術背後的原理。

與圖像識別不同,AI 分析理解視頻的技術門檻較高。長期以來,業界在視頻 AI 技術的研究上鮮有重大突破。以 CVPR 會議難度最高的比賽之一 DAVIS( Densely Annotated Video Segmentation)爲例,該比賽需要參賽團隊精準處理複雜視頻中物體快速運動、外觀變化、遮擋等信息,過去幾年,全球頂級科技在該比賽中的成績從未突破 80 分,而達摩院的模型最終在 test-challenge 上取得了 84.1 的成績。

DAVIS 的數據集經過精心挑選和標註,視頻分割中比較難的點都有體現,比如:快速運動、遮擋、消失與重現、形變等。DAVIS 的數據分爲 train(60 個視頻序列), val(30 個視頻序列),test-dev(30 個視頻序列),test-challenge(30 個視頻序列)。 其中 train 和 val 是可以下載的,且提供了每一幀的標註信息。對於半監督任務, test-dev 和 test-challenge,每一幀的 RGB 圖片可以下載,且第一幀的標註信息也提供了。算法需要根據第一幀的標註 mask,來對後續幀進行分割。分割本身是 instance 級別的。

阿里達摩院:像素級視頻分割

阿里達摩院提供了一種全新的空間約束方法,打破了傳統 STM 方法缺乏時序性的瓶頸,可以讓系統基於視頻前一幀的畫面預測目標物體下一幀的位置;此外,阿里還引入了語義分割中的精細化分割微調模塊,大幅提高了分割的精細程度。最終,精準識別動態目標的輪廓邊界,並且與背景進行分離,實現像素級目標分割。

基本框架

達摩院的算法基於去年 CVPR 的 STM 做了進一步改進。STM 的主要思想在於,對於歷史幀,每一幀都編碼爲 key-value 形式的 feature。預測當前幀的時候,以當前幀的 key 去和歷史幀的 key 做匹配。匹配的方式是 non-local 的。這種 non-local 的匹配,可以看做將當前 key,每個座標上的 C 維特徵,和歷史每一幀在這個座標上的 C 維特徵做匹配。 匹配得到的結果,作爲一個 soft 的 index,去讀取歷史 value 的信息。讀取的特徵和當前幀的 value 拼接起來,用於後續的預測。

三大技術創新

1. 空間約束

STM 的特徵匹配方式,提供了一種空間上的長依賴, 類似於 Transformer 中,通過 self-attention 來做序列關聯。這種機制,能夠很好地處理物體運動、外觀變化、遮擋等。但也有一個問題,就是缺乏時序性,缺少短時依賴。當某一幀突然出現和目標相似的物體時,容易產生誤召回。在視頻場景中,很多情況下,當前幀臨近的幾幀,對當前幀的影響要大於更早的幀。基於這一點,達摩院提出依靠前一幀結果,計算 attention 來約束當前幀目標預測的位置,相當於對短期依賴的建模。

具體的方法如下圖所示:

  1. 當前幀的特徵和前一幀的預測 mask 在 channel 維度上做 concat,得到 HxWx(c+1) 的特徵;
  2. 通過卷積將特徵壓縮爲 HxW;
  3. 用 sigmoid 函數將 HxW 的特徵,壓縮範圍,作爲空間 attention;
  4. 把 attention 乘到原特徵上,作爲空間約束。

下圖爲空間 attention 的可視化結果,可以看到大致對應了前景的位置。

2. 增強 decoder

達摩院引入了語義分割中的感受野增強技術 ASPP 和精細化分割的微調(refinement)模塊。ASPP 作用於 memory 讀取後的特徵,用於融合不同感受野的信息,提升對不同尺度物體的處理能力。

3. 訓練策略

達摩院提出了一個簡單但是有效的訓練策略,減少了訓練階段和測試階段存在的差異,提升了最終效果。

原始 STM 訓練時,會隨機從視頻中採樣 3 幀。這三幀之間的跳幀間隔,隨着訓練逐漸增大,目的是增強模型魯棒性。但達摩院發現,這樣會導致訓練時和測試時不一致,因爲測試時,是逐幀處理的。爲此,在訓練的最後階段,達摩院將跳幀間隔重新減小,以保證和測試時一致。

其他

backbone: 達摩院使用了 ResNeST 這個比較新的 backbone,它可以無痛替換掉原 STM 的 resnet。在結果上有比較明顯提升。

測試策略: 達摩院使用了多尺度測試和 model ensemble。不同尺度和不同 model 的結果,在最終預測的 map 上,做了簡單的等權重平均。

顯存優化: 達摩院做了一些顯存優化方面的工作,使得 STM 在多目標模式下,可以支持大尺度的訓練、測試,以及支持較大的 memory 容量。

數據: 訓練數據上,達摩院使用了 DAVIS、Youtube-VOS,以及 STM 原文用到的靜態圖像數據庫。沒有其他數據。

結果

達摩院的模型,最終在 test-challenge 上取得了 84.1 的成績。

在 test-dev 上的消融實驗。達摩院復現的 STM 達到了和原文一致的結果。在各種 trick 的加持下, 得到了 11 個點的提升。

隨着互聯網技術、5G 技術等的發展,短視頻、視頻會議、直播的場景越來越多,視頻分割技術也將成爲不可或缺的一環。比如,在視頻會議中,視頻分割可以精確區分前背景,從而對背景進行虛化或替換;在直播中,用戶只需要站在綠幕前,算法就實時替換背景,實現一秒鐘換新直播間; 在視頻編輯領域,可以輔助進行後期製作。

Reference:

  1. Oh SW, Lee JY, Xu N, Kim SJ. Video object segmentation using space-time memory networks. InProceedings of the IEEE International Conference on Computer Vision 2019
  2. Wang X, Girshick R, Gupta A, He K. Non-local neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition 2018
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章