[計算機視覺論文速遞] 2018-04-23

原創

2021-02-02 21:28

通知：這篇文章有6篇論文速遞信息，涉及目標檢測、圖像分割、3D卷積等方向（含1篇CVPR論文）

目標檢測

[1]《Zero-Shot Object Detection》

Abstract：我們介紹和解決了Zero-Shot 目標檢測（ZSD）的問題，它旨在檢測訓練期間未觀察到的物體類別。我們與一組具有挑戰性的對象類一起工作，而不是將我們限制在類似和/或細粒度的類別中。之前的zero-shot classification工作。我們遵循一個原則性的方法，首先適應ZSD的視覺語義嵌入。然後我們討論與選擇背景類相關的問題，並激發兩種背景感知方法來學習魯棒檢測器。其中一個模型使用固定的背景類，另一個基於迭代的潛在分配。我們還概述了與使用有限數量的訓練類別相關的挑戰，並提出了基於使用大量類別的輔助數據對語義標籤空間進行密集採樣的解決方案。我們提出了兩種標準檢測數據集 - MSCOCO和VisualGenome的新型分割，並討論了廣泛的實證結果，以突出所提出的方法的優點。我們提供有用的insights into the algorithm，並通過提出一些開放問題來鼓勵進一步的研究。

arXiv：https://arxiv.org/abs/1804.04340

注：對Zero-Shot方向感興趣的同學可以自行google一下 zero-shot classification

圖像分割

[2]《Outline Objects using Deep Reinforcement Learning》

Abstract：圖像分割需要局部邊界位置信息和全局對象上下文信息。最近最先進的方法 - 全卷積網絡 - 的性能在端到端訓練風格中同時平衡兩種信息之後，由於神經網絡限制而出現瓶頸。爲了克服這個問題，我們將語義圖像分割成時間子任務。首先，我們找到一個物體邊界的可能像素位置; 然後在有限長度內按步驟追蹤邊界，直到整個對象被勾畫出來。我們提出了第一個深度強化學習方法來進行語義圖像分割，稱爲DeepOutline，它在Coco val2017數據集中的中等和大尺寸人員類別中優於Coco檢測排行榜中的其他算法。同時，它通過強化學習計算機視覺問題，提供了一種分而治之的方法。

arXiv：https://arxiv.org/abs/1804.04603

注：使用了強化學習（Reinforcement Learning），實在很6

[3]《A two-stage 3D Unet framework for multi-class segmentation on full resolution image》

Abstract：深度卷積神經網絡（CNN）已被廣泛用於多種類別的數據分割，並獲得了最先進的性能。然而，處理大型高分辨率3D數據時的一個常見問題是，由於計算設備的存儲容量有限，輸入深度CNN的體積必須進行裁剪（crop）或降採樣（downsample）。這些操作會導致輸入數據 batches 中分辨率的降低和類不平衡的增加，從而降低分割算法的性能。受到圖像超分辨率CNN（SRCNN）和self-normalization（SNN）的架構的啓發，我們開發了一個兩階段修改的Unet框架，它可以同時學習檢測整個體積內的ROI並對體素進行分類而不會丟失原始圖像解析度。對各種多模式音量的實驗表明，當用簡單加權的模子係數和我們定製的學習程序進行訓練時，該框架顯示比具有高級相似性度量標準的最先進的深CNN更好的分割性能。

arXiv：https://arxiv.org/abs/1804.04341

[4]《Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling》

CVPR 2018

Abstract：我們從一個圖像研究三維形狀建模，並從三個方面對其做出貢獻。首先，我們展示了Pix3D，這是一個不同圖像形狀對與像素級2D-3D對齊的大型benchmark。 Pix3D在形狀相關的任務中有着廣泛的應用，包括重建，檢索，視點估計等。然而，構建這樣的大規模數據集非常具有挑戰性; 現有數據集或者只包含合成數據，或者缺少2D圖像和3D圖形之間的精確對齊，或者僅包含少量圖像。其次，我們通過行爲研究來校準三維形狀重建的評估標準，並使用它們客觀地，系統地對Pix3D上的cutting-edge重建算法進行基準測試。第三，我們設計了一個同時進行三維重建和姿態估計的新模型; 我們的多任務學習方法可以在兩項任務中實現最先進的性能。

arXiv：https://arxiv.org/abs/1804.04610

homepage：http://pix3d.csail.mit.edu/

code：https://github.com/xingyuansun/pix3d

[5]《CubeNet: Equivariance to 3D Rotation and Translation》

Abstract：3D卷積神經網絡對應用於其輸入的轉換很敏感。這是一個問題，因爲3D對象的體素化版本（voxelized version）及其旋轉的克隆在通過網絡的最後一層之後看起來彼此不相關。相反，理想化的模型會保留體素化對象的有意義的表示，同時解釋兩個輸入之間的姿態差異。等變表示向量有兩個組成部分：不變身份（identity）部分和轉換的可辨別編碼。無法解釋姿態差異的模型會“稀釋”表示，以追求優化分類或迴歸損失函數。

我們引入了一個羣組（group）卷積神經網絡，它具有三維平移和直角旋轉的線性等變性。我們稱之爲網絡CubeNet，反映它的立方體狀對稱性。通過構建，這個網絡有助於保持3D形狀的全局和局部簽名，因爲它通過連續的層次進行轉換。我們將該網絡應用於各種3D推理問題，實現了ModelNet10分類挑戰的最新技術，以及ISBI 2012 Connectome分段基準測試的可比性能。就我們所知，這是第一個用於體素表示的3D旋轉等變CNN。

arXiv：https://arxiv.org/abs/1804.04458

注：一般2D對象都是用pixel，而3D對象是用voxel來計算，後者難度很大啊！

其它

[6]《Extraction of Airways using Graph Neural Networks》

Abstract：我們從圖像數據中提取樹結構（如氣道）的提取，作爲圖形細化任務。爲此，我們提出了一種圖形自動編碼器模型，該模型使用基於圖形神經網絡（GNN）的編碼器來學習來自輸入節點特徵的嵌入和解碼器以預測節點之間的連接。 GNN模型的性能與平均野外網絡相比，能夠從3D胸部CT掃描中提取氣道。

arXiv：[1804.04436] Extraction of Airways using Graph Neural Networks

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[計算機視覺論文速遞] 2018-04-23

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

imi在虎撲上億數據遷移實踐

STM32開發入門（一）——流水燈

[計算機視覺論文速遞] 2018-04-23

react路由嵌套路由及路由傳參

解決“Checking file system on C”

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結