[計算機視覺論文速遞] 2018-03-16

通知：這篇推文有14篇論文速遞信息，涉及目標檢測、圖像分割、顯著性目標檢測、人臉識別和GAN等方向

最近有些忙，論文速遞頻率快下降至兩天一更了，希望大家可以體諒。

前文回顧

[計算機視覺] 入門學習資料

[計算機視覺論文速遞] 2018-03-14

[計算機視覺論文速遞] 2018-03-11

目標檢測

[1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》

Abstract：對於行人檢測來說，色彩 - 熱量對的多光譜圖像比單一顏色通道更有效，特別是在具有挑戰性的照明條件下。但是，如何有效融合這兩種模式仍然缺乏研究。在本文中，我們深入比較了六種不同的卷積網絡融合體系結構並分析了它們的適應性，使得vanilla architecture能夠獲得與最新結果相媲美的檢測性能。此外，我們發現，來自彩色或熱圖像的行人檢測可信度與照明條件相關。考慮到這一點，我們提出了一種照明感知更快的R-CNN（IAF RCNN）。具體而言，引入照明感知網絡來給出輸入圖像的照明度量。Then we adaptively merge color and thermal sub-networks via a gate function defined over the illumination value. The experimental results on KAIST Multispectral Pedestrian Benchmark validate the effectiveness of the proposed IAF R-CNN.

arXiv：https://arxiv.org/abs/1803.05347

[2]《Rotation-Sensitive Regression for Oriented Scene Text Detection》

CVPR 2018

Abstract：自然圖像中的文本具有任意方向，需要根據定向邊界框進行檢測。通常情況下，多導向的文本檢測器往往涉及兩個關鍵任務：1）文本存在檢測，這是一個無視文本方向的分類問題; 2）面向邊界框的迴歸，它關注文本的方向。以前的方法依賴於這兩個任務的共享功能，由於兩個任務不兼容導致性能下降。爲了解決這個問題，我們提出對不同設計的兩個網絡分支提取不同特徵的特徵進行分類和迴歸。具體而言，迴歸分支通過主動旋轉卷積濾波器來提取旋轉敏感特徵，而分類分支通過彙集旋轉敏感特徵來提取旋轉不變特徵。所提出的方法名爲旋轉敏感迴歸檢測器（RRD），在三個面向文本的基準數據集（包括ICDAR 2015，MSRA-TD500，RCTW-17和COCO-Text）上實現了最先進的性能。此外，RRD在船舶採集數據集上實現了重大改進，證明了其在面向對象檢測方面的一般性。

arXiv：https://arxiv.org/abs/1803.05265

[3]《Knowledge-based Recurrent Attentive Neural Network for Traffic Sign Detection》

Abstract：準確的交通標誌檢測（TSD）可以幫助駕駛員根據交通規則做出更好的決策。 TSD作爲一種典型的小型物體檢測問題，在自動駕駛和先進的駕駛輔助系統領域是非常重要的。但是，小物體檢測仍然是一個懸而未決的問題。在本文中，我們提出了一個人腦啓發網絡來處理這個問題。注意機制是我們大腦的基本功能，我們使用了一種新穎的週期性注意神經網絡，以精細獲得的方式提高檢測精度。此外，由於我們人類可以結合領域特定知識和直覺知識來解決棘手的任務，因此我們提出了一個假設，即交通標誌的位置服從反向高斯分佈，這意味着位置在每張圖片的中心偏向附近。實驗結果表明，我們的方法比目標檢測中使用的幾種常用方法取得了更好的性能。

arXiv：https://arxiv.org/abs/1803.05263

[4]《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》

Abstract：顯著目標檢測是一個已被詳細考慮的問題，並提出了許多解決方案。在本文中，我們認爲迄今爲止的工作已經解決了一個相對不合適的問題。具體而言，當多個觀察者被詢問時，對於什麼構成顯著目標並沒有普遍的一致意見。這意味着一些目標比其他目標更有可能被判斷爲顯著，並且意味着顯著物體上存在相對等級。本文提出的解決方案解決了考慮相對等級的這個更一般的問題，並且我們提出了適合測量相對對象顯著性landscape成功的數據和度量。基於相對顯著性和分階段細化的分層表示，提出了一種新穎的深度學習解決方案。我們還表明，顯著對象subitizing的問題可以用同一網絡來解決，而且我們的方法超越了所有考慮的指標（傳統和新提出的）的任何先前工作的性能。

arXiv：https://arxiv.org/abs/1803.05082

圖像分割

[5]《Combining Multi-level Contexts of Superpixel using Convolutional Neural Networks to perform Natural Scene Labeling》

Abstract：現代深度學習算法引發了各種圖像分割方法。然而，其中大多數涉及基於像素的分割。但是，超像素提供了一定程度的上下文信息，同時降低了計算成本。在我們的方法中，我們已經執行了超像素級別的語義分割，考慮3個不同層次作爲語義上下文的鄰居。此外，我們已經招募了一些集合方法，如最大投票和加權平均。我們還使用了Dempster-Shafer不確定性理論來分析各種類別之間的混淆。我們的方法已被證明在同一數據集上優於許多不同的現代方法。

注：厲害厲害，superpixel semantic segmentation

arXiv：https://arxiv.org/abs/1803.05200

[6]《Topology guaranteed segmentation of the human retina from OCT using convolutional neural networks》

Abstract：光學相干斷層掃描（OCT）是一種無創成像模式，可用於獲取視網膜的深度圖像。因此可以通過分析這些OCT圖像來量化變化的層厚度，而且已經顯示這些變化與多發性硬化症中的疾病進展相關。最近的自動視網膜層分割工具使用機器學習方法來執行像素方式標記和圖形方法以保證圖層分層結構或拓撲結構。然而，像距離和平滑度約束等圖形參數必須通過視網膜區域和病理進行實驗指定，從而降低整個框架的靈活性和時間效率。在本文中，我們開發了級聯深度網絡，以在單前饋傳播中提供拓撲正確的視網膜層分割。第一個網絡（S-Net）執行按像素標記，第二個迴歸網絡（R-Net）採用拓撲不受約束的S-Net結果，並輸出每層和每個位置的層厚度。 Relu激活被用作R-Net的最終操作，其保證了輸出層厚度的非負性。由於分割邊界位置是通過對相應的非負層厚度求和而獲得的，所以即使在邊界之間的距離可以爲零的中心凹處也保證了重構邊界的層次排序（即，拓撲結構）。 R-Net使用模擬掩模進行訓練，因此可以推廣到爲其他分層結構提供拓撲保證分割。這個深度網絡已經達到可比較的平均絕對邊界誤差（2.82微米）到最先進的圖形方法（2.83微米）。

arXiv：https://arxiv.org/abs/1803.05120

人臉

[7]《Face-MagNet: Magnifying Feature Maps to Detect Small Faces》

Abstract：在本文中，我們介紹面部放大器網絡（Face-MageNet），它是一種基於Faster-RCNN框架的人臉檢測器，可以將小尺度人臉的識別信息流傳送給分類器，而不會出現任何跳躍或殘留連接。爲了實現這個目標，Face-MagNet在區域提議網絡（RPN）中部署了一套ConvTranspose（也稱爲去卷積）層，並在感興趣區域（RoI）池層之前部署了另一套ConvTranspose，以便於檢測更精細的人臉。此外，我們還設計，培訓和評估其他三個精心設計的架構，這些架構代表了規模問題的常規解決方案：上下文池，跳過連接和縮放分區。這三個網絡中的每一個都可以獲得與最先進的面部檢測器相媲美的結果。經過大量實驗，我們證明基於VGG16架構的Face-MagNet比最近提出的基於ResNet101的HR方法在WIDER數據集上的人臉檢測任務上獲得了更好的結果，並且在hard set上也獲得了與我們的其他方法SSH類似的結果。

arXiv：https://arxiv.org/abs/1803.05258

GAN

[8]《Image Colorization with Generative Adversarial Networks》

Abstract：在過去的十年中，灰度圖像的彩色化和老化和/或退化圖像的恢復，自動着色的過程已經被徹底研究。由於顏色信息分配過程中的自由度非常大，因此這個問題非常不恰當。自動彩色化的近期發展包括在整個培訓期間包含共同主題的圖像，和/或需要高度處理的數據（如語義地圖）作爲輸入數據。在我們的方法中，我們試圖使用有條件的深度卷積生成對抗網絡（DCGAN）完全概括這個過程。該網絡通過公開可用的數據集進行培訓，如CIFAR-10和Places365。比較生成模型和傳統深層神經網絡的結果。

arXiv：https://arxiv.org/abs/1803.05400

其它

[9]《Deep Image Demosaicking using a Cascade of Convolutional Residual Denoising Networks》

Abstract：去馬賽克和去噪是現代數碼相機pipelines中最關鍵的步驟之一。同時，聯合圖像去噪 - 去馬賽克是一種非常不適合的反演問題，其中至少有三分之二的信息丟失，其餘的信息被噪聲破壞。這對於獲得有意義的重建提出了巨大的挑戰，並且需要特別注意有效處理該問題。雖然最近有幾種機器學習方法被用來解決這個問題，但在這項工作中，我們提出了一種新穎的深度學習體系結構，它受到強大的經典圖像正則化方法和大規模凸面優化技術的啓發。因此，與其他競爭深度學習方法相比，我們派生的網絡更加透明並且有着明確的解釋。我們廣泛的實驗表明，我們的網絡在噪聲和無噪數據方面都優於以前的任何方法。重建質量的這種提高歸功於我們設計網絡架構的原則性方式，與當前最先進的深度網絡解決方案相比，這種方法所需的可訓練參數也更少。最後，我們表明，即使在小數據集上進行訓練時，我們的網絡仍具有良好的泛化能力，同時保持低參數總數。

arXiv：https://arxiv.org/abs/1803.05215

[10]《Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning》

Abstract：視覺問題回答需要圖像的高階推理，這是機器系統遵循複雜指令所需的基本能力。最近，模塊化網絡已被證明是執行視覺推理任務的有效框架。雖然模塊化網絡最初設計時具有一定程度的模型透明度，但它們在複雜的視覺推理基準上的表現還很欠缺。當前最先進的方法不能提供理解推理過程的有效機制。在本文中，我們關閉了可解釋模型和最先進的視覺推理方法之間的性能差距。我們提出了一組視覺推理原語，它們在組成時表現爲能夠以明確可解釋的方式執行復雜推理任務的模型。基元輸出的保真度和可解釋性使得無與倫比的能力可以診斷所得模型的優點和缺點。重要的是，我們顯示這些原始數據是高性能的，在CLEVR數據集上達到了99.1％的最高精確度。我們還表明，當提供包含新穎對象屬性的少量數據時，我們的模型能夠有效地學習廣義表示。使用CoGenT概括任務，我們顯示出比現有技術水平提高了20個百分點。

注：視覺推理VOA再次Mark

arXiv：https://arxiv.org/abs/1803.05268

[11]《EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching》

Abstract：最近卷積神經網絡（CNN）極大地促進了立體匹配的發展。特別是那些端到端的立體方法實現最佳性能。然而，對編碼上下文信息的關注較少，簡化了兩階段視差學習管道，並改善了視差圖中的細節。不同的是，我們專注於這些問題。首先，我們提出了一種基於一階段上下文金字塔的殘差金字塔網絡（CP-RPN）進行視差估計，其中嵌入了上下文金字塔以明確地對多尺度上下文線索進行編碼。接下來，我們設計了一個名爲EdgeStereo的基於CNN的多任務學習網絡，利用邊緣檢測任務中的中級特徵來恢復視差圖中的缺失細節。在EdgeStereo中，CP-RPN與基於雙重多任務交互的建議邊緣檢測器HEDβ集成在一起。端到端EdgeStereo直接從立體對輸出邊緣地圖和視差圖，而無需任何後期處理或正則化。我們發現邊緣檢測任務和立體匹配任務可以在我們的EdgeStereo框架中互相幫助。諸如Scene Flow和KITTI 2015等立體基準的全面實驗表明，我們的方法達到了最先進的性能。

arXiv：https://arxiv.org/abs/1803.05196

[12]《LCANet: End-to-End Lipreading with Cascaded Attention-CTC》

Abstract：機器脣部讀取是一種特殊類型的自動語音識別（ASR），它通過視覺解釋包括嘴脣，臉部和舌頭在內的相關臉部區域的運動來轉錄人類言語。最近，基於深度神經網絡的脣線閱讀方法顯示出巨大的潛力，並且在一些基準數據集中超過了經驗豐富的人類脣線筆的準確性。然而，脣讀仍遠未解決，現有方法對野生數據的錯誤率往往較高。在本文中，我們提出LCANet，一種基於端到端深度神經網絡的脣讀系統。 LCANet使用堆疊的3D卷積神經網絡（CNN），高速公路網絡和雙向GRU網絡對輸入視頻幀進行編碼。編碼器有效捕獲短時和長時空時信息。更重要的是，LCANet集成了一個級聯注意-CTC解碼器來生成輸出文本。通過級聯CTC注意力，它可以部分消除隱藏的神經層中CTC的條件獨立性假設的缺陷，並且這產生顯着的性能改進以及更快的收斂。實驗結果表明，所提出的系統在GRID語料庫數據庫上實現了1.3％的CER和3.0％的WER，與最先進的方法相比，導致了12.3％的改進。

注：CNN都能用到脣讀上了，膩害膩害！

arXiv：https://arxiv.org/abs/1803.04988

[13]《Averaging Weights Leads to Wider Optima and Better Generalization》

Abstract：深度神經網絡通常通過使用SGD變量優化損失函數以及衰減學習率來訓練，直到收斂。我們表明，沿着SGD的軌跡的多個點的簡單平均，具有周期性或恆定的學習率，導致比傳統訓練更好的泛化。我們還表明，這種隨機加權平均（SWA）程序發現比SGD更廣泛的最優化，並且近似於最近的使用單個模型的快速幾何集成（FGE）方法。使用SWA，我們在CIFAR-10，CIFAR-100和ImageNet上與傳統的SGD培訓相比，在一系列最先進的殘留網絡，PyramidNets，DenseNets和Shake-Shake網絡上實現了測試精度的顯着提高。簡而言之，SWA非常容易實現，改進了泛化，幾乎沒有計算開銷。

注：SWA？？？

arXiv：https://arxiv.org/abs/1803.05407

[14]《Approximate Query Matching for Image Retrieval》

Abstract：傳統圖像識別涉及通過單個對象焦點（ILSVRC，AlexNet和VGG）識別縱向型圖像中的關鍵對象。更近期的方法考慮密集圖像識別 - 用合適的邊界框分割圖像並在這些邊界框內執行圖像識別（語義分割）。 Visual Genome數據集[5]試圖將這些不同的方法連接到每個子任務邊界框生成，圖像識別，字幕和一項新操作（場景圖生成）的粘性數據集上。我們的重點是使用這樣的場景圖來對圖像數據庫執行圖搜索以基於搜索標準整體檢索圖像。我們開發了一種方法，在圖形數據庫（使用Neo4J）中存儲場景圖形和元數據，並基於圖形搜索查詢執行圖像的快速近似檢索。我們處理比單個對象搜索更復雜的查詢，例如“女孩喫蛋糕”檢索包含指定關係以及變體的圖像。

arXiv：https://arxiv.org/abs/1803.05401

[計算機視覺論文速遞] 2018-03-16

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

凹凸技術揭祕 · 技術精進與業務發展兩不誤

[計算機視覺論文速遞] 2018-03-16

使用docker部署springboot項目小白教程

編程之美：燒餅排序算法

spring boot 上傳文件到指定目錄

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結