[計算機論文速遞] 2018-04-13

通知:這篇文章有10篇論文速遞信息,涉及姿態估計、Re-ID、圖像檢索、視頻描述和數據增廣等方向

前戲

PS:Amusi前幾天在忙其它事,論文速遞耽擱了近一個星期,還請大家見諒。因爲時間因素,和往常一樣,每篇paper不附帶相應的圖示。如果本文中出現明顯重大的翻譯問題,還請大家指出,謝謝。

姿態估計

[1]《3D Pose Estimation and 3D Model Retrieval for Objects in the Wild》

CVPR 2018

Abstract:我們提出了一種可擴展,高效且準確的方法來檢索戶外物體的3D模型。 我們的貢獻有兩個。我們首先提出了一種針對對象類別的三維姿態估計方法,該方法明顯優於Pascal3D +中的最新技術。 其次,我們使用估計的姿態作爲先驗來檢索3D模型,其準確地表示RGB圖像中的對象的幾何形狀。 爲此,我們在我們的預測姿態下渲染來自3D模型的深度圖像,並使用基於CNN的多視圖度量學習方法將RGB圖像的學習圖像描述符與渲染深度圖像的描述符進行匹配。 通過這種方式,我們率先在Pascal3D +上報告三維模型檢索的定量結果,其中我們的方法平均選擇與人類註釋器相同的模型作爲驗證圖像的50%。 另外,我們證明我們的方法純粹是在Pascal3D +上進行訓練,通過ShapeNet從戶外物體的RGB圖像中檢索豐富而準確的3D模型。

arXiv:https://arxiv.org/abs/1803.11493

[計算機論文速遞] 2018-04-13

[2]《Cross-modal Deep Variational Hand Pose Estimation》

Abstract:人的手以複雜和高維的方式移動,從圖像估計3D手姿勢配置本身就是一項具有挑戰性的任務。在這項工作中,我們提出了一種方法,通過生成的深度神經網絡來學習由跨模態訓練的潛在空間表示的統計手模型。我們從VAE框架的變分下界推導出一個目標函數,並聯合優化得到的跨模態KL散度和後向重建目標,自然而然地接受一種訓練機制,導致跨多種模態的相干潛在空間,如RGB圖像,2D關鍵點檢測或3D手形配置。此外,它還提供了使用半監督的簡單方法。這個潛在的空間可以直接用於估計RGB圖像中的3D手勢,在不同的設置中勝過現有技術。此外,我們表明,我們提出的方法可以在不改變深度圖像的情況下使用,並且可以與專門的方法進行比較。最後,該模型是完全生成的,可以在不同模式下合成一致的手對配置。我們在RGB和深度數據集上評估我們的方法並定性分析潛在空間。

arXiv:https://arxiv.org/abs/1803.11404

Re-ID

[3]《Efficient and Deep Person Re-Identification using Multi-Level Similarity》

Abstract:行人重識別(ReID)要求比較在不同條件下拍攝的人員的兩幅圖像。基於神經網絡的現有工作通常計算單個卷積層的特徵映射的相似性。在這項工作中,我們提出了一個高效的端到端完全卷積連體網絡,計算多個層次的相似度。我們證明多級相似性可以在ReID問題中使用低複雜度的網絡結構大大提高準確性。具體來說,首先,我們使用幾個卷積層來提取兩個輸入圖像的特徵。然後,我們提出卷積相似網絡來計算輸入的相似度分數圖。我們使用空間變換網絡(STN)來確定空間關注。我們建議應用高效深度卷積來計算相似度。所提出的卷積相似性網絡可以被插入不同的卷積層以提取不同級別的視覺相似性。此外,我們使用改進的排名損失來進一步提高性能。我們的工作是首次提出計算ReID的低,中,高級視覺相似度。通過廣泛的實驗和分析,我們證明我們的系統緊湊而有效,可以通過更小的模型尺寸和計算複雜性來實現競爭結果。

arXiv:https://arxiv.org/abs/1803.11353

[4]《Learning View-Specific Deep Networks for Person Re-Identification》

IEEE TIP 2018

Abstract:近年來,越來越多的研究集中在人員重識別(re-id)的問題上。重識別技術試圖匹配來自不相交的非重疊攝像機視圖的行人圖像。 re-id的一個主要挑戰是the serious intra-class variations caused by changing viewpoints。爲了克服這個挑戰,我們提出了一個基於深度神經網絡的框架,它在特徵提取階段利用視圖信息。所提出的框架通過交叉視圖歐幾里得約束(CV-EC)和交叉視圖中心丟失(CV-CL)來學習針對每個攝像機視圖的視圖特定網絡。我們利用CV-EC降低不同視圖之間的特徵邊緣,並將中心損失度量擴展到視圖特定版本,以更好地適應重新生成問題。此外,我們提出了一種迭代算法來優化視圖特定網絡的參數從粗到細。實驗證明,我們的方法顯着提高了現有深度網絡的性能,並且在VIPeR,CUHK01,CUHK03,SYSU-mReId和Market-1501基準測試中的性能優於最新的方法。

arXiv:https://arxiv.org/abs/1803.11333

圖像檢索

[5]《Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking》

CVPR 2018

Abstract:在本文中,我們討論了在標準和流行的Oxford 5k和Paris 6k數據集上進行圖像檢索基準測試的問題。 特別是,註釋錯誤,數據集的大小以及挑戰的級別都得到了解決:兩個數據集的新註釋都被創建,同時還特別關注了基本事實的可靠性。 引入了三種不同難度的新協議。 協議允許在不同方法之間進行公平比較,包括使用數據集預處理階段的方法。 對於每個數據集,引入了15個具有挑戰性的新查詢。Finally, a new set of 1M hard, semi-automatically cleaned distractors is selected. 。

在新基準上進行了最先進方法的廣泛比較。評估了不同類型的方法,從基於本地特徵的方法到基於現代CNN的方法。 最好的結果是通過充分利用兩個世界來實現的。 最重要的是,圖像檢索似乎很難解決。

arXiv:https://arxiv.org/abs/1803.11285

其它

[6]《Guide Me: Interacting with Deep Networks》

CVPR 2018

Abstract:隨着機器學習方法轉變爲涉及最終用戶的實際應用,人類與智能機器之間的交互與協作變得越來越重要。雖然很多先前的工作都在於自然語言和視覺的交叉點,例如圖像字幕或從文本描述中生成圖像,但很少關注使用語言來指導或改進學習的視覺處理算法的性能。在本文中,我們探索通過用戶輸入靈活引導訓練的卷積神經網絡的方法,以提高其在推斷期間的性能。我們通過在網絡中插入一個充當空間語義指南的層來實現。本指南經過訓練,可以直接通過能量最小化方案修改網絡激活,也可以通過將人類語言查詢轉換爲互動權重的循環模型間接進行修改。學習口頭交互是完全自動的,不需要手動文本註釋。我們在兩個數據集上評估該方法,顯示指導預先訓練的網絡可以提高性能,並提供對指南和CNN之間交互的深入見解。

注:哇靠,還能這麼玩!

arXiv:https://arxiv.org/abs/1803.11544

[7]《Reconstruction Network for Video Captioning》

CVPR 2018

Abstract:在本文中,描述了用自然語言描述視頻序列的視覺內容的問題。與以前的視頻字幕工作主要利用視頻內容提示進行語言描述不同,我們提出了一種具有新型編解碼器 - 重構器架構的重構網絡(RecNet),其利用前向(視頻到句子)和後向(句子到視頻)流動視頻字幕。具體而言,編碼器 - 解碼器利用正向流程來基於編碼的視頻語義特徵來產生句子描述。兩種類型的重構器被定製爲採用反向流並且基於由解碼器生成的隱藏狀態序列來再現視頻特徵。由編碼器 - 解碼器產生的產生損失和由重建器引入的重構損失被共同引入到以端對端方式訓練建議的RecNet。基準數據集上的實驗結果表明,所提出的重構器可以提升編碼器 - 解碼器模型,並顯着提高視頻字幕的準確性。

arXiv:https://arxiv.org/abs/1803.11438

[8]《Parallel Grid Pooling for Data Augmentation》

Abstract:卷積神經網絡(CNN)架構利用下采樣層,這限制了後續層學習空間不變特徵,同時降低計算成本。 但是,這樣的下采樣操作使得不可能使用全頻譜的輸入特徵。 受此觀察的啓發,我們提出了一種新的稱爲並行網格池(PGP)的層,它適用於各種CNN模型。 PGP執行下采樣而不丟棄任何中間特徵。 它用作數據增強,並且是常用數據增強技術的補充。 此外,我們證明了擴張卷積可以自然地用PGP運算來表示,這表明擴張卷積也可以被認爲是一種數據增強技術。 基於流行的圖像分類基準的實驗結果證明了所提出方法的有效性。

arXiv:https://arxiv.org/abs/1803.11370

github:https://github.com/akitotakeki

[9]《Fast and Robust Subspace Clustering Using Random Projections》

Abstract:在過去的幾十年中,子空間聚類一直受到越來越多的關注並不斷取得進展。然而,由於缺少可擴展性和/或魯棒性,現有方法仍然難以處理同時具有三個特徵的數據:高維,大規模和嚴重損壞。爲了同時解決可伸縮性和魯棒性問題,在本文中,我們建議考慮一個叫做壓縮魯棒子空間聚類的問題,它是用壓縮數據執行魯棒子空間聚類,並且通過將原始高維數據投影到隨機選擇較低維的子空間。在給定這些隨機投影的情況下,所提出的行空間追蹤(RSP)方法不僅可以恢復真實的行空間,從而可以在某些條件下正確地獲得聚類結果,還可以恢復數據中可能存在的嚴重錯誤。隨機投影的壓縮特性爲我們的RSP提供了高計算和存儲效率,並且恢復特性使RSP能夠處理嚴重損壞的數據。在高維和/或大規模數據集上進行的大量實驗表明,RSP可以保持與普遍使用的方法相當的準確度,並大大縮短計算時間。

arXiv:https://arxiv.org/abs/1803.11305

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章