[計算機視覺論文速遞] 2018-03-20

通知：這篇推文有13篇論文速遞信息，涉及圖像分割、SLAM、顯著性、深度估計、車輛計數等方向

往期回顧

[計算機視覺] 入門學習資料

[計算機視覺論文速遞] 2018-03-18

[計算機視覺論文速遞] 2018-03-16

圖像分割

[1]《Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation》

Abstract：我們提出了一種具有分層分類器的卷積網絡，用於每像素語義分割，能夠在多個異構數據集上訓練並利用其語義層次結構。我們的網絡是第一個同時訓練來自智能車輛領域的三個不同數據集，即Cityscapes，GTSDB和Mapillary Vistas，並且能夠處理不同的語義細節層次，類別不平衡和不同的註釋類型，即密集的每像素和稀疏邊界框標籤。我們通過比較平面非分層分類器評估我們的分層方法，並且我們顯示Cityscapes類的平均像素精度爲13.0％，Vistas類爲2.4％，GTSDB類爲32.3％。我們的實現在GPU上運行108個類的分辨率爲520 x 706時可實現17 fps的推導速率。

arXiv：https://arxiv.org/abs/1803.05675

[2]《An application of cascaded 3D fully convolutional networks for medical image segmentation》

Abstract：3D全卷積網絡（FCN）的最新進展已經使得生成體積圖像的密集體素預測成爲可能。在這項工作中，我們展示了一個多級三維FCN訓練手動標記的幾個解剖結構（從大型器官到薄血管）的CT掃描可以實現競爭性分割結果，同時避免手工製作功能或培訓課程的需要，具體型號。

爲此，我們提出了一個兩階段的，從粗到精的方法，它將首先使用3D FCN粗略定義候選區域，然後將其用作第二個3D FCN的輸入。這減少了第二個FCN必須分類的體素數量至〜10％，並允許它將重點放在更詳細的器官和血管分割上。

我們利用由331個臨牀CT影像組成的訓練和驗證集合，並對包含150次CT掃描的不同醫院採集的完全不可見的數據集進行測試，針對三個解剖器官（肝臟，脾臟和胰腺）。在胰腺等具有挑戰性的器官中，我們的級聯方法將骰子平均得分從68.5提高到82.2％，實現了此數據集報告的最高平均得分。我們在240個CT掃描的18個類別的獨立數據集上比較2D FCN方法，並在小器官和血管中實現顯着更高的性能。此外，我們探索微調我們的模型到不同的數據集。

我們的實驗說明了當前基於三維FCN的醫學圖像語義分割的前景和穩健性，實現了最先進的結果。我們的代碼和訓練有素的模型可供下載：https://github.com/holgerroth/3Dunet_abdomen_cascade

arXiv：https://arxiv.org/abs/1803.05431

github：https://github.com/holgerroth/3Dunet_abdomen_cascade

SLAM

[3]《Vision-Aided Absolute Trajectory Estimation Using an Unsupervised Deep Network with Online Error Correction》

IROS 2018

Abstract：我們提出了一種無監督的深度神經網絡方法來融合RGB-D圖像與慣性測量的絕對軌跡估計。我們的網絡被稱爲Visual-Inertial-Odometry Learner（VIOLearner），它學習在沒有慣性測量單元（IMU）固有參數（對應於陀螺儀和加速度計偏差或白噪聲）或者外部校準之間執行視覺慣性測距法（VIO） IMU和相機。網絡學習整合IMU測量結果並生成假設軌跡，然後根據相對於像素座標的空間網格的縮放圖像投影誤差的雅可比行爲在線校正假設軌跡。我們根據最先進的（SOA）視覺慣性測距法，視覺測距法以及KITTI Odometry數據集上的視覺同時定位和映射（VSLAM）方法評估我們的網絡，並展示競爭性測距性能。

arXiv：https://arxiv.org/abs/1803.05850

顯著性

[4]《Salient Region Segmentation》

Abstract：顯著性預測在計算機視覺中是一個研究得很好的問題。早期顯著性模型是基於從神經科學和心理物理學中獲得的見解中獲得的低級別手工特徵。在深度學習突破之後，基於神經網絡架構提出了一個新的模型隊列，在所有度量標準上允許比先前的淺層模型有更高的注視預測。

然而，大多數模型將顯著性預測視爲\ textit {regression}問題，並且高維數據的準確迴歸已知是一個難題。此外，還不清楚顯着程度的中間水平（即既非常高也非非常低）是有意義的：某些事情要麼是顯著的，要麼是顯著的，或者不是顯著的。

從這兩個觀察得出，我們將顯著性預測問題重新描述爲顯著區域\ textit {分割}問題。我們證明重構允許比經典迴歸問題更快的收斂性，而性能可以與最先進的技術相媲美。

我們還可視化模型學到的一般特徵，這些特徵與心理物理學的見解一致。

arXiv：https://arxiv.org/abs/1803.05759

[5]《What Catches the Eye? Visualizing and Understanding Deep Saliency Models》

Abstract：深卷積神經網絡近年來在固視預測中表現出了很高的性能。然而，他們如何實現這一目標卻沒有多少探索，他們仍然是黑匣子模型。在這裏，我們試圖揭示深度顯著性模型的內部結構，並研究它們提取的固定預測的特徵。具體來說，我們使用一個簡單但功能強大的架構，僅包含一個CNN和一個分辨率輸入，並結合一個新的丟失函數，用於自由觀看自然場景期間的像素式固定預測。我們表明，我們的簡單方法與最先進的複雜顯著性模型相比甚至更好。此外，我們提出了一種與顯著性模型評估指標相關的方法，以便對固定預測的深度模型進行可視化。我們的方法揭示了用於固定預測的深層模型的內部表示，並提供證據表明，人類所經歷的顯著性除了低級感知線索之外可能涉及高級語義知識。我們的結果可以用來衡量當前顯著性模型和人類觀察者間模型之間的差距，並建立新的模型來縮小差距。

arXiv：https://arxiv.org/abs/1803.05753

[6]《VEGAC: Visual Saliency-based Age, Gender, and Facial Expression Classification Using Convolutional Neural Networks》

Submitted to CVPR 2018

Abstract：本文探討了使用視覺顯著性來分類面部圖像的年齡，性別和麪部表情。對於多任務分類，我們提出了基於視覺顯著性的VEGAC方法。使用Deep Multi-level Network [17]和現成的人臉檢測器[2]，我們提出的方法首先檢測測試圖像中的人臉，並提取裁剪人臉上的CNN預測。 VEGAC的CNN在來自不同基準的收集數據集上進行了微調。我們的卷積神經網絡（CNN）使用VGG-16架構[3]，並在ImageNet上預先訓練用於圖像分類。我們證明了我們的方法在年齡估計，性別分類和麪部表情分類中的有用性。我們表明，我們在選定的基準上使用我們的方法獲得了競爭結果。我們所有的型號和代碼都將公開發布。

注：期待源碼！！！

arXiv：https://arxiv.org/abs/1803.05719

深度估計

[7]《Self-Supervised Monocular Image Depth Learning and Confidence Estimation》

Abstract：卷積神經網絡（CNN）需要大量的具有地面真實註釋的數據，這是一個具有挑戰性的問題，它限制了許多計算機視覺任務的CNNs的開發和快速部署。我們提出了一種新穎的基於單目圖像的深度估計框架，並且具有相應的自我監督方式的信心。基於零均值歸一化互相關（ZNCC）提出了一種全差分基於塊的成本函數，該算法將多尺度貼片作爲匹配策略。這種方法大大提高了深度學習的準確性和魯棒性。此外，所提出的基於補丁的成本函數可以提供0到1的置信度，然後用它來監督並行網絡的訓練以進行置信度學習和估計。對KITTI數據集的評估表明，我們的方法勝過了最先進的結果。

arXiv：https://arxiv.org/abs/1803.05530

其它

[8]《DeepN-JPEG: A Deep Neural Network Favorable JPEG-based Image Compression Framework》

DAC 2018

Abstract：作爲最引人入勝的機器學習技術之一，深度神經網絡（DNN）在諸如圖像分類等各種智能任務中表現出優異的性能。 DNN在很大程度上通過對大量訓練數據進行昂貴的培訓來實現這種性能。爲了減少智能資源受限物聯網（IoT）系統中的數據存儲和傳輸開銷，在傳輸實時生成的數據集以進行培訓或分類之前，有效的數據壓縮是“必備”功能。雖然有許多着名的圖像壓縮方法（如JPEG），但我們首次發現基於人類視覺的圖像壓縮方法（如JPEG壓縮）不是DNN系統的優化解決方案，特別是在高壓縮比。爲此，我們開發了一個專爲DNN應用而定製的圖像壓縮框架，名爲“DeepN-JPEG”，以支持DNN體系結構的深層級信息處理機制的性質。基於具有各種最先進的DNN的“ImageNet”數據集進行的大量實驗表明，“DeepN-JPEG”的壓縮率比流行的JPEG解決方案高出約3.5倍，同時保持圖像識別的相同精度水平，展示其在基於DNN的智能物聯網系統設計中具有巨大的存儲和電源效率潛力。

注：這也太硬了吧！DeepN-JPEG真是666666

arXiv：https://arxiv.org/abs/1803.05788

[9]《Feature Distillation: DNN-Oriented JPEG Compression Against Adversarial Examples》

Abstract：深度神經網絡（DNN）在衆多實際應用中取得了卓越的性能。然而，最近的研究表明，訓練有素的DNN很容易被敵對的例子（AE）誤導 - 通過引入小的不可察覺的輸入擾動來惡意製作輸入。諸如對抗訓練和防禦性蒸餾之類的現有緩解解決方案受到昂貴的再培訓成本的限制，並且針對CW家族對抗性例子等最先進的***顯示出邊際魯棒性的提高。在這項工作中，我們提出了一種新的低成本“特徵昇華”策略，通過重新設計流行的圖像壓縮框架“JPEG”來淨化AE的敵對輸入擾動。所提出的“特徵蒸餾”明智地最大化圖像壓縮期間AE干擾的惡意特徵損失，同時抑制對於高精確DNN分類至關重要的良性特徵的失真。實驗結果表明，我們的方法可以大幅降低CIFAR-10和ImageNet基準測試平均約60％的各種尖端AE***的成功率，而不會降低測試精度，優於現有的解決方案，如默認的JPEG壓縮和“功能擠壓”。

注：這篇paper和上篇paper第一作者是同一人

arXiv：https://arxiv.org/abs/1803.05787

[10]《Exploring Linear Relationship in Feature Map Subspace for ConvNets Compression》

Abstract：雖然卷積神經網絡（CNN）的研究進展很快，但這些模型的實際部署往往受計算資源和內存限制的限制。在本文中，我們通過提出一種新穎的濾波器修剪方法來壓縮和加速CNN來解決這個問題。我們的工作基於通過可視化特徵映射在不同特徵映射子空間中標識的線性關係。這種線性關係意味着CNN中的信息是多餘的。我們的方法通過將子空間聚類應用於特徵映射來消除卷積濾波器中的冗餘。這樣，網絡中的大多數代表性信息都可以保留在每個羣集中。因此，我們的方法提供了一個有效的解決方案來篩選修剪，大多數現有方法都是基於簡單的啓發式直接刪除過濾器。所提出的方法獨立於網絡結構，因此它可以被任何現成的深度學習庫採用。在不同的網絡和任務上進行的實驗表明，我們的方法在微調之前勝過現有的技術，並在微調之後達到最新的結果。

arXiv：https://arxiv.org/abs/1803.05729

[11]《LEGO: Learning Edge with Geometry all at Once by Watching Videos》

Accepted to CVPR 2018 as spotlight

Abstract：學習通過深卷積網絡觀察未標記的視頻來估計單個圖像中的3D幾何形狀正引起重大關注。在本文中，我們在管線內引入了一種“3D儘可能平滑（3D-ASAP）”的技術，該技術可實現對邊緣和三維場景的聯合估計，從而獲得精細細緻結構精度顯着提高的結果。具體來說，我們先定義3D-ASAP，如果沒有提供其他線索，則要求從3D圖像恢復的任何兩點都應位於現有平面上。我們設計了一個無人監督框架，一次完成學習邊緣和幾何（深度，正常）（LEGO）。預測邊被嵌入到深度和表面法線平滑項中，其中沒有邊之間的像素被約束以滿足先驗。在我們的框架中，預測的深度，法線和邊緣被迫始終保持一致。我們在KITTI上進行實驗以評估我們估計的幾何圖形和城市景觀以執行邊緣評估。我們展示了在所有任務中，即深度，正常和邊緣，我們的算法大大優於其他最先進的（SOTA）算法，證明了我們方法的好處。

arXiv：https://arxiv.org/abs/1803.05648

[12]《Fast End-to-End Trainable Guided Filter》

Accepted by CVPR 2018

Abstract：通過利用深度學習的功能，圖像處理和像素密集預測得到了進一步發展。深度學習的一箇中心問題是處理聯合上採樣（upsampling）的能力有限。我們爲聯合上採樣提供了一個深度學習構建模塊，即引導濾波層。該層旨在高效地生成高分辨率輸出，並給出相應的低分辨率輸出和高分辨率制導圖。所提出的層由導向濾波器組成，該濾波器被重新配置爲完全可微分塊。爲此，我們證明了一個引導濾波器可以表示爲一組空間變化的線性變換矩陣。該層可以與卷積神經網絡（CNN）集成並通過端到端訓練進行聯合優化。爲了進一步利用端到端培訓，我們插入了一個可訓練的轉換函數，可以生成特定於任務的指導圖。通過整合CNN和提出的層，我們形成深度導向濾波網絡。擬議的網絡在五個高級圖像處理任務上進行評估。 MIT-Adobe FiveK數據集上的實驗表明，所提出的方法運行速度提高了10-100倍，並達到了最先進的性能。我們還表明，提出的引導過濾層有助於提高多個像素密集預測任務的性能。該代碼可在此https://github.com/wuhuikai/DeepGuidedFilter中找到

arXiv：https://arxiv.org/abs/1803.05619

homepage：http://wuhuikai.me/DeepGuidedFilterProject/

github：https://github.com/wuhuikai/DeepGuidedFilter

[13]《Improving Object Counting with Heatmap Regulation》

Abstract：在本文中，我們提出了一種簡單而有效的方法來改善從圖像中進行物體計數的單外觀迴歸模型。我們使用類激活地圖可視化來說明學習計數任務的純粹一看回歸模型的缺點。基於這些見解，我們通過調整來自網絡最終卷積層的激活圖與簡單點註釋生成的粗糙地面真實激活圖來增強單看回歸計數模型。我們將這種策略稱爲熱圖調節（HR）。我們表明，這種簡單的增強有效地抑制了由相應的一眼基線模型生成的錯誤檢測，並且還改善了假陰性方面的性能。在四個不同的計數數據集上進行評估 - 兩個用於汽車計數（CARPK，PUCPR +），一個用於人羣計數（WorldExpo），另一個用於生物細胞計數（VGG-Cells）。與簡單的單一基準模型相比，將HR添加到簡單的VGG前端可以提高所有這些基準測試的性能，併爲汽車計數帶來最先進的性能。

arXiv：https://arxiv.org/abs/1803.05494

[計算機視覺論文速遞] 2018-03-20

重磅來襲，世界最大電池來了：功率高達12億瓦

玩轉Linux必備的金鑰匙之源碼安裝mysql依賴程序

Linux環境安裝node以及解決問題

喜報！中國移動雲能力中心工程師謝昌龍成爲國內首個GLUSTER社區Peer（Committer）

No.13 SELinux安全子系統

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結