[計算機視覺論文速遞] 2018-04-19

通知:這篇文章有8篇論文速遞信息,涉及目標識別、SLAM、3D Model、密集點集配準、立體匹配等方向(含6篇CVPR論文)

目標識別

[1]《Hierarchical Novelty Detection for Visual Object Recognition》

CVPR 2018

[計算機視覺論文速遞] 2018-04-19

Abstract:深度神經網絡在具有預定義類別的大規模視覺對象識別任務中取得了令人矚目的成功。然而,在訓練期間識別新類(即未被看見的對象)仍然具有挑戰性。在文獻中已經討論了檢測這種新類的問題,但是之前大多數工作都是提供簡單的二元或迴歸決策,例如,輸出將是“已知的”,“新穎的”或相應的置信區間。在本文中,我們研究更多的基於分層分類框架的信息新穎性檢測方案。對於一個新類的對象,我們的目標是在已知類的分層分類中找到它最接近的超類。爲此,我們提出了兩種不同的方法,稱爲自頂向下和扁平化方法,以及它們的組合。我們方法的基本組成部分是置信度校正分類器,數據重新標記以及在分層分類法下對新類進行建模的“一次退出”策略。此外,我們的方法可以生成分層嵌入,結合其他常用的語義嵌入,可以提高廣義零點學習性能。

arXiv:https://arxiv.org/abs/1804.00722

[計算機視覺論文速遞] 2018-04-19

SLAM

[2]《CodeSLAM - Learning a Compact, Optimisable Representation for Dense Visual SLAM》

CVPR 2018

[計算機視覺論文速遞] 2018-04-19

Abstract:實時三維感知系統中的幾何表示仍然是一個關鍵的研究問題。密集的地圖捕捉完整的表面形狀,並且可以增加語義標籤,但是它們的高維使得它們在存儲和處理上的計算成本高,並且不適合嚴格的概率推斷。基於稀疏特徵的表示可以避免這些問題,但只捕獲部分場景信息,並且主要用於本地化。

我們提出了一種新的緊湊但密集的場景幾何表示形式,它以單個圖像的強度數據爲條件,並由包含少量參數的代碼生成。我們受到來自圖像學習深度和自動編碼器的啓發。我們的方法適用於基於關鍵幀的單目密集SLAM系統:雖然每個帶有代碼的關鍵幀都可以生成深度圖,但代碼可以與姿態變量一起高效地進行優化,並與重疊關鍵幀的代碼一起進行優化,以獲得全局一致性。調整圖像上的深度圖允許代碼僅表示局部幾何圖形的不能直接從圖像預測的方面。我們解釋如何學習我們的代碼表示,並展示其在單目SLAM中的優勢特性。

arXiv:https://arxiv.org/abs/1804.00874

其它

[3]《Learning to Separate Object Sounds by Watching Unlabeled Video》

Abstract:感知一個場景最完整的需要所有的感官。 然而,建模物體外觀和聲音的方式是具有挑戰性的:大多數自然場景和事件包含多個對象,並且音軌將所有聲源混合在一起。 我們建議從未標記的視頻中學習視聽對象模型,然後利用視覺上下文在新視頻中執行音頻源分離。 我們的方法依賴於深度多實例多標籤學習框架來解決映射到單個視覺對象的音頻頻率庫,即使沒有單獨觀察/聽取這些對象。 我們展示瞭如何使用恢復的解開的基礎來指導音頻源分離以獲得更好分離的對象級聲音。 我們的工作是第一個在大型“wild”視頻中研究音頻源分離的。 我們在視覺輔助音頻源分離和音頻去噪方面獲得了最先進的成果。

arXiv:https://arxiv.org/abs/1804.01665

注:根據畫面對聲音進行分離,很有意思!

[4]《Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》

Abstract:我們提出了一種端到端的深度學習體系結構,可從單一顏色的圖像生成三角形網格中的三維形狀。 受限於深度神經網絡的性質,先前的方法通常表示體積或點雲中的3D形狀,將它們轉換爲更易於使用的網格模型比較難。與現有方法不同,我們的網絡在基於圖形的卷積神經網絡中表示3D網格,並通過逐漸變形橢球形成正確的幾何圖形,利用從輸入圖像中提取的感知特徵。 我們採用從粗到精的策略,使整個變形過程穩定,並定義各種網格相關損失以捕捉不同層次的屬性,以保證視覺吸引力和物理準確的3D幾何。 大量實驗表明,我們的方法不僅定性地生成具有更好細節的網格模型,而且與最先進的技術相比還實現了更高的3D形狀估計精度。

arXiv:https://arxiv.org/abs/1804.01654

[5]《Image Generation from Scene Graphs》

CVPR 2018

Abstract:爲了真正理解視覺世界,我們的模型不僅應該能夠識別圖像,還能夠生成它們。爲此,近期在自然語言描述中生成圖像方面取得了令人振奮的進展。這些方法在有限的領域(例如鳥類或花卉的描述)上提供了令人驚歎的結果,但卻難以忠實地複製具有許多對象和關係的複雜句子。爲了克服這個限制,我們提出了一種從場景圖生成圖像的方法,能夠明確地推理對象及其關係。我們的模型使用圖形卷積來處理輸入圖,通過預測對象的邊界框和分割掩模來計算場景佈局,並且將佈局轉換爲具有級聯精化網絡的圖像。網絡訓練敵對一對鑑別器,以確保實際輸出。我們通過Visual Genome和COCO-Stuff驗證了我們的方法,其中定性結果,消融和用戶研究證明了我們的方法能夠生成具有多個對象的複雜圖像。

arXiv:https://arxiv.org/abs/1804.01622

注:李飛飛大作!!!

[6]《A Unifying Contrast Maximization Framework for Event Cameras, with Applications to Motion, Depth, and Optical Flow Estimation》

CVPR 2018

Abstract:我們提出了一個統一的框架來解決事件相機的幾個計算機視覺問題:運動,深度和光流估計。 我們框架的主要思想是通過最大化一個目標函數找到圖像平面上與事件數據最佳對齊的點軌跡:warped events圖像的對比度。 我們的方法隱式地處理事件之間的數據關聯,因此不依賴於關於場景的額外外觀信息。 除了準確地恢復問題的運動參數外,我們的框架還生成具有高動態範圍的運動修正邊緣狀圖像,可用於進一步場景分析。 所提出的方法不僅簡單,而且更重要的是,據我們所知,第一種方法可以成功地應用於這樣一組具有事件相機的重要視覺任務。

arXiv:https://arxiv.org/abs/1804.01306

[7]《Density Adaptive Point Set Registration》

CVPR 2018

Abstract:點集配準(registration)的概率方法近年來已顯示出競爭性結果。這些技術估計點雲的概率分佈模型。雖然這樣的表示已經顯示出希望,但它對3D點密度的變化高度敏感。這個基本問題主要是由傳感器位置在點集上的變化引起的。我們重新審視概率註冊範式的基礎。與以前的作品相反,我們將場景的底層結構建模爲潛在概率分佈,從而引發不變以指向集合密度變化。場景的概率模型和配準參數都是通過最小化基於期望最大化框架的Kullback-Leibler散度來推斷的。我們的密度自適應配準能夠成功處理地面激光雷達應用中常見的嚴重密度變化。我們對幾個具有挑戰性的現實世界激光雷達數據集進行了大量實驗。結果表明,我們的方法勝過了用於多視圖註冊的最先進的概率方法,而不需要重新採樣。

arXiv:https://arxiv.org/abs/1804.01495

[8]《Left-Right Comparative Recurrent Model for Stereo Matching》

CVPR 2018

[計算機視覺論文速遞] 2018-04-19

Abstract:利用來自左視圖和右視圖的視差信息對於立體視差估計是至關重要的。通過參照來自相反觀點的信息,左右一致性檢查是增強差異估計的有效方法。然而,傳統的左右一致性檢查是一個獨立的後處理步驟,並且是手工製作的。本文提出了一種新的左右比較循環模型,與視差估計一起進行左右一致性檢驗。在每個循環步驟中,模型會爲兩個視圖生成視差結果,然後執行聯機左右比較以確定可能包含錯誤標記像素的不匹配區域。引入了一種軟性關注機制,該機制採用學習錯誤地圖更好地指導模型,有選擇性地關注下一個重複步驟中不可靠區域的細化。通過這種方式,所提出的復發模型逐漸改善了生成的視差圖。對KITTI 2015,Scene Flow和Middlebury基準的廣泛評估驗證了我們模型的有效性,證明了這種新模型可以實現最先進的立體視差估計結果。

arXiv:https://arxiv.org/abs/1804.00796

注:左右視圖的立體匹配,深度學習真的席捲了計算機視覺啊!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章