Unsupervised Generation of Optical Flow Datasets from Videos in the Wild

摘要

真實世界,非固定相機情況下,圖像的稠密光流GroundTruths是不可得的,這是因爲註釋是非直觀的,即標註是float類型的向量

摘要針對光流深度網絡的訓練,提出了一種無監督的光流地面真實感生成算法

該算法從視頻中的圖像對中提取並匹配感興趣的對象,尋找初始約束條件,在感興趣的物體上施加as-rigid-as-possible的變形以獲得稠密的流場。

通過使用流場對第一幀中的對象進行翹曲,實現了地面真值的正確性。(需要第一幀的標註?類似視頻目標分割?)

我們將該算法應用於DAVIS數據集,利用GT或預測分割,獲得真實物體非剛體運動的光流GT。

我們討論了幾種增加數據集中光流變化的方法。

大量的實驗結果表明,非剛體真實運動的訓練與剛體綜合數據的訓練相比是有益的。

實驗部分展示了所生成的訓練數據用在深度網絡FlowNet-S,PWC-Net,LiteFlowNet上所獲得的效果

方法

沒什麼好解釋的,非常簡單的原理,圖像分割,特徵點匹配,形變獲得光流GT

結果

對於早期的光流估計網絡(純用CNN學習推理)提升比較多,新出的比較少,感覺問題要麼在於生成的gt質量不行,要麼是新出網絡學習到的規律更符合光流估計的規律,是不是non-rigid已經不重要了,從rigid到non-rigid遷移足夠魯棒

個人覺得,這種光流訓練數據,使用sintel那樣的使用渲染的結果計算得到的,會比這個更靠譜(精度足夠高),如果要仿照真實世界,只要在RGB圖像上進行圖像處理獲得帶噪聲的圖像即可。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章