Unsupervised Generation of Optical Flow Datasets from Videos in the Wild

原創

2018-12-12 12:52

真實世界，非固定相機情況下，圖像的稠密光流GroundTruths是不可得的，這是因爲註釋是非直觀的，即標註是float類型的向量

摘要針對光流深度網絡的訓練，提出了一種無監督的光流地面真實感生成算法

該算法從視頻中的圖像對中提取並匹配感興趣的對象，尋找初始約束條件，在感興趣的物體上施加as-rigid-as-possible的變形以獲得稠密的流場。

通過使用流場對第一幀中的對象進行翹曲，實現了地面真值的正確性。（需要第一幀的標註？類似視頻目標分割？）

我們將該算法應用於DAVIS數據集，利用GT或預測分割，獲得真實物體非剛體運動的光流GT。

我們討論了幾種增加數據集中光流變化的方法。

大量的實驗結果表明，非剛體真實運動的訓練與剛體綜合數據的訓練相比是有益的。

實驗部分展示了所生成的訓練數據用在深度網絡FlowNet-S,PWC-Net,LiteFlowNet上所獲得的效果

沒什麼好解釋的，非常簡單的原理，圖像分割，特徵點匹配，形變獲得光流GT

對於早期的光流估計網絡（純用CNN學習推理）提升比較多，新出的比較少，感覺問題要麼在於生成的gt質量不行，要麼是新出網絡學習到的規律更符合光流估計的規律，是不是non-rigid已經不重要了，從rigid到non-rigid遷移足夠魯棒

個人覺得，這種光流訓練數據，使用sintel那樣的使用渲染的結果計算得到的，會比這個更靠譜（精度足夠高），如果要仿照真實世界，只要在RGB圖像上進行圖像處理獲得帶噪聲的圖像即可。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.