[計算機視覺論文速遞] 2018-05-10

通知:這篇文章有6篇論文速遞信息,涉及前景檢測、行爲分類、3D、SLAM和去模糊等方向(含2篇CVPR論文和一篇TIP論文)

編輯:Amusi

審稿:Amusi

Foreground Detection

[1]《A Fusion Framework for Camouflaged Moving Foreground Detection in the Wavelet Domain》

IEEE TIP 2018

[計算機視覺論文速遞] 2018-05-10

[計算機視覺論文速遞] 2018-05-10

Abstract:由於前景物體和背景之間的相似性,檢測僞裝的(camouflaged)移動前景物體是非常困難的。傳統方法由於它們之間的差異很小,所以不能區分前景和背景,因此對於僞裝的(camouflaged)前景對象的檢測率很低。在本文中,我們提出了一個融合框架來解決小波域(wavelet domain)中的這個問題。我們首先表明,圖像域的小差異可以在某些小波帶中突出顯示(highlight)。然後通過爲每個小波帶制定前景和背景模型來估計每個小波係數爲前景的可能性。所提出的框架基於小波變換的特徵有效地聚合來自不同小波帶的可能性。實驗結果表明,該方法在檢測僞裝前景物體方面明顯優於現有方法。具體而言,該算法的平均F-measure爲0.87,而其他最先進的方法則爲0.71至0.8。

注:文中的僞裝(camouflaged)其實是指前景和背景顏色和紋理等信息很相近

arXiv:https://arxiv.org/abs/1804.05984

Activity Classification

[2]《M-PACT: Michigan Platform for Activity Classification in Tensorflow》

[計算機視覺論文速遞] 2018-05-10

Abstract:行動分類是一項廣爲人知的研究領域,它提供了一種視頻理解的方法。現在並沒有包含最新技術(SOTA)模型且易於使用的平臺供給大衆使用。考慮到單個研究代碼並不是考慮最終用戶編寫的,並且在某些情況下代碼沒有發佈,即使是已發佈的文章,在減輕開發整個系統負擔的同時,能夠提供結果的通用統一平臺的重要性不能誇大。爲了嘗試和解決這些問題,我們開發一個基於tensorflow端到端的pipeline安裝方面,統一平臺減少了不必要的開銷,以允許用戶快速,輕鬆地prototype action classification models。通過在不同模型之間使用一致的編碼風格以及各種子模塊之間的無縫數據流,該平臺適用於各種數據集的各種SOTA方法的快速生成結果。所有這些功能都通過使用建立在一個小而強大的一套處理異步數據加載模塊的功能,模式初始化,指標計算的頂部完全預先定義的培訓和測試模塊成爲可能,保存和檢查站的負荷,並記錄結果。該平臺旨在輕鬆創建模型,最低要求是定義網絡體系結構,並從大量自定義層選擇和預處理功能中預處理步驟。 M-PACT目前擁有4個SOTA活動分類模型,其中包括I3D,C3D,ResNet50 + LSTM和TSN。對於HMDB51,ResNet50 + LSTM的分類性能達到43.86%,而C3D和TSN分別達到UCF101的93.66%和85.25%。

arXiv:https://arxiv.org/abs/1804.05879

github:https://github.com/MichiganCOG/M-PACT

注:很強大的code

3D

[3]《Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction》

CVPR 2018

[計算機視覺論文速遞] 2018-05-10

[計算機視覺論文速遞] 2018-05-10

Abstract:本論文的目的是比較基於表面的(surface-based)和基於體積的3D對象形狀表示,以及用於單視圖3D形狀預測的以觀察者爲中心和以對象爲中心的參考框架。我們提出了一種用於從多個視點預測深度圖的新算法,其中單個深度或RGB圖像作爲輸入。通過修改網絡和評估模型的方式,我們可以直接比較體素(voxels)與表面(surfaces)的優點,以及從RGB或深度圖像預測的熟悉與陌生物體的以觀察者爲中心與以物體爲中心的優點。在我們的研究結果中,我們顯示基於表面的方法勝過來自新類別的對象的體素表示併產生更高分辨率的輸出。我們還發現,使用以觀察者爲中心的座標對於新穎的物體是有利的,而以物體爲中心的表示對於更熟悉的物體更好。有趣的是,座標系顯著地影響所學的形狀表示,以物體爲中心更重視隱式識別物體類別和以觀察者爲中心的生成形狀表示,而對類別識別的依賴較小。

arXiv:https://arxiv.org/abs/1804.06032

SLAM

[4]《The TUM VI Benchmark for Evaluating Visual-Inertial Odometry》

[計算機視覺論文速遞] 2018-05-10

Abstract:視覺測距和SLAM方法在諸如增強現實或機器人等領域具有大量的應用。利用慣性測量補充視覺傳感器極大地提高了跟蹤精度和魯棒性,因此引起了人們對視覺 - 慣性(VI)測距方法發展的極大興趣。在本文中,我們提出了TUM VI基準,這是一種新穎的數據集,它在不同的場景中具有多種序列,用於評估VI odometry。它提供20 Hz下的1024x1024分辨率的照相機圖像,高動態範圍和光度校準。一個IMU測量3個軸上200Hz的加速度和角速度,而攝像頭和IMU傳感器在硬件上進行時間同步。對於軌跡評估,我們還可以在運動捕捉系統中以高頻(120 Hz)在序列的開始和結束處提供精確的姿態地面實況,這些序列與攝像機和IMU測量精確對齊。包含原始和校準數據的完整數據集是公開可用的。我們還在我們的數據集上評估了最先進的VI odometry方法。

arXiv:https://arxiv.org/abs/1804.06120

datasets:https://vision.in.tum.de/data/datasets/visual-inertial-dataset

Debluring

[5]《A Concatenated Residual Network for Image Deblurring》

Rejected by IJCAI 2018

[計算機視覺論文速遞] 2018-05-10

[計算機視覺論文速遞] 2018-05-10

Abstract:基於深度卷積神經網絡(CNN)的恢復(restoration)方法最近在低級視覺任務中獲得了相當大的進展,例如去噪,超分辨率,修復。然而,普通的CNN由於模糊退化造成嚴重的像素重疊而無法進行圖像去模糊。在本文中,我們提出了一種新穎的級聯殘餘CNN用於圖像去模糊。在基於最小均方誤差(MMSE)的區分性學習的驅動下,圖像去模糊的解決方案被有趣地展開爲一系列迭代殘差分量,並且被分析以展示迭代殘餘去卷積(IRD)的貢獻。此外,IRD激發了我們向前邁進一步,爲圖像去模糊設計CNN。具體來說,採用剩餘的CNN單元來替代殘差迭代,然後將它們連接起來並最終進行積分,從而產生連接的殘餘卷積網絡(CRCNet)。實驗結果表明,CRCNet不僅可以實現更好的定量指標,還可以恢復更多視覺上合理的紋理細節。

arXiv:https://arxiv.org/abs/1804.06042

注:這篇文章雖然被IJCAI拒了,但我覺得還是有點意思的

Reconstruction

[6]《PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image》

CVPR 2018

[計算機視覺論文速遞] 2018-05-10

[計算機視覺論文速遞] 2018-05-10

Abstract:本文提出了一種深度神經網絡(DNN),用於從單個RGB圖像中進行分段平面深度圖重構。儘管DNN在單圖像深度預測方面取得了顯著進展,但分段(piece-wise)平面深度圖重建需要結構化幾何表示,並且即使對於DNN也需要掌握很多任務。所提出的端到端DNN學習從單個RGB圖像直接推斷一組平面參數和相應的平面分割掩模。 我們已經爲大規模RGBD視頻數據庫ScanNet的ScanNet培訓和測試生成了超過50,000個分段平面深度圖。我們的定性和定量評估表明,所提出的方法在平面分割和深度估計精度方面均優於基線方法。據我們所知,本文介紹了從單個RGB圖像中分段平面重建的第一個端到端神經架構。

arXiv:

https://arxiv.org/abs/1804.06278

github:

https://github.com/art-programmer/PlaneNet

homepage:

http://art-programmer.github.io/planenet.html

注:一項很cool的工作,但Amusi不知道piecewise planar是個啥?!希望有童鞋可以補充一下

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章