【今日CV 計算機視覺論文速覽 第138期】Mon, 1 Jul 2019

今日CS.CV 計算機視覺論文速覽
Mon, 1 Jul 2019
Totally 71 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚***PointFlow基於連續norm流生成點雲, 提出了一種點雲的生成方法PointFlow,通過構建點雲分佈的 分佈來進行建模並在概率框架下實現點雲生成。研究人員利用兩級的層級分佈來處理這個問題,第一層用於處理形狀的分佈,第二層用於處理給定形狀下的點雲分佈。(from 康奈爾)
在這裏插入圖片描述
這使得研究人員可以在採樣形狀的同時也可以採樣任意數量的點。這種方法通過連續的歸一化流來學習兩個不同層級的分佈。這種可逆的歸一化流可以在訓練時計算似然,並使得模型可以實現變分推理。
模型的架構,訓練時的編碼器對輸入點雲進行編碼,並同時輸出三個損失,在測試時直接利用z進行形狀和點雲的採樣:
在這裏插入圖片描述
生成的點雲結果:
在這裏插入圖片描述
project:https://www.guandaoyang.com/PointFlow/
code:https://github.com/stevenygd/PointFlow

📚基於弱監督的多任務U-Net, 基於粗糙的數據標籤和少數像素級別標註的數據進行多類別分割任務(laze label data,食物的掃描電鏡圖像ice cream SEM images )。將實例的粗分割、分離出沒有清晰邊界的物體,以及像素級的分割來尋找精確的邊界三個任務進行融合。(from 劍橋)
在這裏插入圖片描述

📚Deep Radar Detector對於雷達信號檢測進行處理, 將深度學習對於激光雷達的處理拓張到了微波雷達中,同時提出了數據集和雷達數據增強技術。(from Tel-Aviv University)
在這裏插入圖片描述

📚教會cnn設計時尚衣服紋理, 提出了一種自動探索、檢測合成時裝的新方法(from Myntra Designs 印度 KDD 2019 Workshop)
在這裏插入圖片描述
一些得到的結果:
在這裏插入圖片描述
在這裏插入圖片描述


Daily Computer Vision Papers

PointFlow: 3D Point Cloud Generation with Continuous Normalizing Flows
Authors Guandao Yang, Xun Huang, Zekun Hao, Ming Yu Liu, Serge Belongie, Bharath Hariharan
隨着3D點雲成爲多視覺和圖形應用的選擇,合成或重建高分辨率,高保真點雲的能力變得至關重要。儘管深度學習模型最近在點雲的判別任務中取得了成功,但生成點雲仍然具有挑戰性。本文提出了一個原理概率框架,通過將它們建模爲分佈分佈來生成三維點雲。具體來說,我們學習了兩級分佈層次,其中第一層是形狀的分佈,第二層是給定形狀的點的分佈。這個公式允許我們對形狀進行採樣並從形狀中採樣任意數量的點。我們的生成模型,名爲PointFlow,通過連續的標準化流程來學習每個級別的分佈。歸一化流的可逆性使得能夠在訓練期間計算可能性,並允許我們在變分推理框架中訓練我們的模型。根據經驗,我們證明PointFlow在點雲生成方面實現了最先進的性能。我們還表明,我們的模型可以忠實地重建點雲,並以無人監督的方式學習有用的表示。代碼將在

On the notion of number in humans and machines
Authors Norbert B tfai, D vid Papp, Gerg Bogacsovics, M t Szab , Viktor Szil rd Simk , M ri Bersenszki, Gergely Szab , Lajos Kov cs, Ferencz Kov cs, Erik Szilveszter Varga
在本文中,我們進行了兩種類型的軟件實驗來研究人體和機器中的數量級分類。專注於特定類型任務的實驗被稱爲語義MNIST或簡稱爲SMNIST,其中必須確定放置在圖像中的對象的數量。用於人類的SMNIST實驗旨在測量人類目標文件系統的容量。在這種類型的實驗中,測量結果與認知心理學文獻中已知的值非常一致。名爲SMNIST for Machines的實驗用於類似的目的,但他們調查現有的,衆所周知但最初爲其他目的和正在開發的深度學習計算機程序開發的。這些測量結果可以解釋爲類似於SMNIST對人類的結果。本文的主要論文可以在機器中制定如下:當這些數值小於人類OFS的能力時,圖像分類人工神經網絡可以學習區分數值更高的精度。最後,我們概述了一個概念框架,用於研究人類和機器中數字的概念。

Adversarial Pixel-Level Generation of Semantic Images
Authors Emanuele Ghelfi, Paolo Galeone, Michele De Simoni, Federico Di Mattia
生成性對抗網絡GAN在生成逼真圖像方面取得了非凡的成功,這是一種可接受較低像素級精度的領域。我們研究了從先前的分佈開始生成語義圖像的問題,但尚未在文獻中解決。直觀地,可以使用標準方法和體系結構來解決該問題。然而,需要更合適的方法來避免產生模糊,幻覺和因此不可用的圖像,因爲諸如語義分割之類的任務需要像素級精確性。在這項工作中,我們提出了一種新穎的架構,用於學習生成像素級準確的語義圖像,即語義生成對抗網絡SemGAN。實驗評估表明,在許多語義圖像生成任務中,我們的架構從定量和定性的角度都優於標準架構。

A Deep Decoder Structure Based on WordEmbedding Regression for An Encoder-Decoder Based Model for Image Captioning
Authors Ahmad Asadi, Reza Safabakhsh
近年來,生成圖像的文本描述一直是計算機視覺和自然語言處理研究人員的一個有吸引力的問題。已經提出了許多基於深度學習的模型來解決這個問題。現有方法基於配備有關注機制的神經編碼器解碼器結構。這些方法努力訓練解碼器以最小化給定先前的句子中的下一個單詞的對數似然性,這導致輸出空間的稀疏性。在這項工作中,我們提出了一種新的方法來訓練解碼器,使相對於先前的單詞嵌入下一個單詞的單詞,而不是最小化對數似然。所提出的方法能夠學習和提取長期信息,並且可以生成更長的細粒度字幕而不引入任何外部存儲器單元。此外,通過所提出的技術訓練的解碼器可以在生成字幕時考慮所生成的字的重要性。此外,提出了一種新穎的語義注意機制,通過圖像引導注意點,同時考慮先前生成的單詞的含義。我們使用MS COCO數據集評估建議的方法。所提出的模型優於最先進的模型,特別是在生成更長的字幕時。它獲得了等於125.0的CIDEr分數和等於50.5的BLEU 4分數,而現有技術模型的最佳分數分別爲117.1和48.0。

Deep Radar Detector
Authors Daniel Brodeski, Igal Bilik, Raja Giryes
自從引入深度學習以來,相機和激光雷達處理已經發生了革命性的變化,雷達處理仍然依賴於經典工具。在本文中,我們介紹了雷達處理的深度學習方法,直接與雷達複雜數據一起工作。爲了克服雷達標記數據的缺乏,我們僅依靠雷達校準數據進行訓練,並引入新的雷達增強技術。我們在雷達4D檢測任務上評估我們的方法,並且與傳統方法相比表現出優越的性能,同時保持實時性能。對雷達數據應用深度學習具有幾個優點,例如每次都不需要昂貴的雷達校準過程,並且能夠以幾乎爲零的開銷對檢測到的物體進行分類。

Reconstructing Perceived Images from Brain Activity by Visually-guided Cognitive Representation and Adversarial Learning
Authors Ziqi Ren, Jie Li, Xuetong Xue, Xin Li, Fan Yang, Zhicheng Jiao, Xinbo Gao
基於功能磁共振成像fMRI測量的腦信號重建感知圖像是腦驅動計算機視覺中的重要且有意義的任務。然而,fMRI信號和視覺圖像之間的不一致分佈和表示導致異質性差異,這使得學習它們之間的可靠映射具有挑戰性。此外,考慮到fMRI信號具有極高的維度並且包含許多視覺上無關的信息,有效地降低噪聲並編碼用於圖像重建的強大視覺表示也是一個開放的問題。我們表明,通過學習由相應視覺特徵引導的fMRI信號的視覺相關潛在表示,並通過對抗性學習恢復感知圖像,可以克服這些挑戰。得到的框架稱爲雙變分自動編碼器生成對抗網絡D VAE GAN。通過使用新穎的3階段訓練策略,它通過雙結構變分自動編碼器D VAE編碼認知和視覺特徵,以使認知特徵適應視覺特徵空間,然後學習利用生成對抗網絡GAN重建感知圖像。對三個fMRI記錄數據集的大量實驗表明,與現有技術方法相比,D VAE GAN實現了更精確的視覺重建。

A multi-task U-net for segmentation with lazy labels
Authors Rihuan Ke, Aur lie Bugeau, Nicolas Papadakis, Peter Schuetz, Carola Bibiane Sch nlieb
對勞動密集型像素明確註釋的需求是許多用於圖像分割的完全監督學習方法的主要限制。在本文中,我們提出了一種用於多類分割的深度卷積神經網絡,通過在粗略數據標籤上訓練並且僅使用具有像素明確註釋的非常少量的圖像來訓練該問題。我們將這種新的標籤策略稱爲懶惰標籤。然後將圖像分割分層爲三個連接的任務,粗略檢測類實例,分離錯誤連接的對象而沒有清晰的邊界,以及像素分割以找到每個對象的準確邊界。這些問題被集成到多任務學習框架中,並且模型以半監督的方式端到端地進行訓練。該方法應用於食物顯微鏡圖像的數據集。我們表明,即使大多數帶註釋的數據缺少精確的邊界標籤,該模型也能提供準確的分割結果。通過收集比精確分割的圖像更加懶惰的粗略註釋,這允許更多的靈活性和效率來訓練在手動註釋昂貴的實際環境中數據飢餓的深度神經網絡。

Filter Early, Match Late: Improving Network-Based Visual Place Recognition
Authors Stephen Hausler, Adam Jacobson, Michael Milford
CNN在執行位置識別方面具有優勢,特別是當神經網絡針對當前環境條件下的定位進行優化時。在本文中,我們研究了特徵映射過濾的概念,其中,不使用卷積張量內的所有激活,而是僅使用最有用的激活。由於特定要素圖編碼不同的視覺特徵,因此目標是移除特徵貼圖,這些特徵貼圖會降低在外觀變化中識別位置的能力。我們的關鍵創新是在早期卷積層中過濾特徵圖,但隨後繼續運行網絡並使用同一網絡中的後一層提取特徵向量。通過過濾早期視覺特徵並從更高,更多視點不變的後期層提取特徵向量,我們證明了改進的條件和視點不變性。我們的方法需要從部署環境進行訓練的圖像對,但我們表明,只需一個訓練圖像對就可以定期實現最先進的性能。進行詳盡的實驗分析以確定早期層過濾和後期層提取之間的因果關係的全部範圍。爲了有效性,我們使用三個數據集Oxford RobotCar,Nordland和Gardens Point,實現了NetVLAD的整體優越性能。這項工作提供了許多探索CNN優化的新途徑,沒有經過全面的培訓。

Are you really looking at me? A Framework for Extracting Interpersonal Eye Gaze from Conventional Video
Authors Minh Tran, Taylan Sen, Kurtis Haut, Mohammad Rafayet Ali, Mohammed Ehsan Hoque
儘管視頻攝像機在我們日常生活中的普遍性發生了革命,但非常有意義的非語言情感交流形式之一,人際視線注視,即相對於會話夥伴的目光注視,並不能從普通視頻中獲得。我們介紹了Interpersonal Calibrating Eye凝視編碼器ICE,它可以自動從視頻錄製中提取人際凝視,無需專門的硬件,也無需事先了解參與者位置。利用個人花費大量對話看彼此的直覺,使ICE動態聚類算法能夠提取人際凝視。我們使用具有紅外凝視跟蹤器F1 0.846,N 8的客觀度量在視頻聊天中驗證ICE,以及​​與眼接觸r 0.37,N 170的專家評級評估的面對面通信。然後,我們使用ICE來分析兩種不同但重要的情感交流領域中的行爲,基於欺騙檢測的審訊和快速約會中的溝通技巧評估。我們發現,在回答問題時,誠實的證人打破了人際關係的凝視聯繫,並且比欺騙性的證人往往更容易往下看p 0.004,d 0.79。在預測速度約會視頻中的專家溝通技能評級時,我們證明單獨的人際凝視比面部表情具有更強的預測能力。

Road-network-based Rapid Geolocalization
Authors Yongfei Li, Dongfang Yang, Shicheng Wang, Hao He
利用地理信息協助無人駕駛飛行器的導航一直是研究的熱點。本文提出了一種基於路網的定位方法。我們將測量圖像中的道路與參考道路矢量地圖進行匹配,並在與整個城市一樣大的區域上實現成功定位。道路網絡匹配問題被視爲二維投影變換下的點雲配準問題,並在假設和測試框架下求解。爲了處理投影點雲配準問題,提出了一種全局投影不變特徵,它由兩條道路交叉點組成,並增加了它們的切線信息。我們稱之爲兩個道路交叉點元組。我們推導出用於確定來自一對匹配的兩個道路交叉元組的對齊變換的封閉形式解決方案。此外,我們提出了元組匹配的必要條件。這可以減少候選匹配元組,從而在很大程度上加速搜索。我們在假設和測試框架下測試所有候選匹配元組以搜索最佳匹配。實驗表明,我們的方法可以在一個cpu上在1秒內在400區域內定位目標區域。

New pointwise convolution in Deep Neural Networks through Extremely Fast and Non Parametric Transforms
Authors Joonhyun Jeong, Sung Ho Bae
諸如離散Walsh Hadamard變換DWHT和離散餘弦變換DCT的一些常規變換已被廣泛用作圖像處理中的特徵提取器,但很少應用於神經網絡。然而,我們發現這些傳統變換具有捕獲跨信道相關性的能力,而DNN中沒有任何可學習的參數。本文首先提出將常規變換應用於逐點卷積,表明這種變換顯着降低了神經網絡的計算複雜度,而沒有精度性能下降。特別是對於DWHT,它不需要浮點乘法,只需要加法和減法,這可以大大減少計算開銷。此外,其快速算法進一步降低了從mathcal O n 2到mathcal O n log n的浮點加法的複雜性。這些不錯的屬性在數字參數和操作中構建了非常有效的網絡,從而獲得了準確性。我們提出的基於DWHT的模型與CIFAR 100數據集上的基線模型MoblieNet V1相比,準確度提高了1.49,參數減少了79.1,FLOP減少了48.4。

Gesture Recognition in RGB Videos UsingHuman Body Keypoints and Dynamic Time Warping
Authors Pascal Schneider, Raphael Memmesheimer, Ivanna Kramer, Dietrich Paulus
手勢識別爲人類直觀地與機器交互開闢了新途徑。特別是對於服務機器人,手勢可以是通信手段的有價值的補充,例如,將機器人的注意力吸引到某人或某物上。從視頻數據中提取手勢並對其進行分類是一項具有挑戰性的任務,並且多年來已經提出了各種方法。本文提出了一種RGB視頻中的手勢識別方法,該方法使用OpenPose提取人的姿勢,動態時間扭曲DTW與一個最近鄰1NN一起用於時間序列分類。這種方法的主要特徵是任何特定硬件的獨立性和高度靈活性,因爲可以通過僅添加幾個示例將新手勢添加到分類器。我們利用基於深度學習的OpenPose框架的穩健性,同時避免自己訓練神經網絡的數據密集型任務。我們使用公共數據集演示了我們方法的分類性能。

LipReading with 3D-2D-CNN BLSTM-HMM and word-CTC models
Authors Dilip Kumar Margam, Rohith Aralikatti, Tanay Sharma, Abhinav Thanda, Pujitha A K, Sharad Roy, Shankar M Venkatesan
近年來,基於深度學習的機器脣讀已經獲得了突出地位。爲此,已經提出了諸如LipNet,LCANet和其他幾種體系結構,與在DCT特徵上訓練的傳統脣形DNN HMM混合系統相比,其表現非常好。在這項工作中,我們提出了一個更簡單的3D 2D CNN BLSTM網絡架構,帶有瓶頸層。我們還對這種架構的兩種不同的脣讀方法進行了分析。在第一種方法中,3D 2D CNN BLSTM網絡在字符ch CTC上訓練CTC丟失。然後,在傳統的ASR訓練管道中,從3D 2D CNN BLSTM ch CTC網絡中提取的瓶頸脣部特徵訓練BLSTM HMM模型。在第二種方法中,相同的3D 2D CNN BLSTM網絡在CTC上的字標籤上訓練CTC丟失。第一種方法表明,與DCT功能相比,瓶頸功能表現更好。使用Grid語料庫中的第二種方法看到揚聲器測試集,我們報告1.3 WER相對於LCANet有55改進。在看不見的揚聲器測試裝置上,我們報告了8.6 WER,相對於LipNet,這是24.5的改進。我們還在我們收集的81個揚聲器的第二個數據集上驗證了該方法。最後,我們還討論了特徵重複對BLSTM HMM模型性能的影響。

Gray Level Image Threshold Using Neutrosophic Shannon Entropy
Authors Vasile Patrascu
本文介紹了一種通過最小化香農中性熵來分割灰度圖像的新方法。對於所提出的分割方法,中性信息分量,即真實度,中性程度和虛假程度是在考慮到屬於分割區域並且同時考慮到分離閾值區域的情況下定義的。該方法的原理簡單易懂,可導致多個閾值。使用一些測試灰度圖像說明該方法的功效。實驗結果表明,該方法具有良好的灰度閾值分割性能。

Localizing Unseen Activities in Video via Image Query
Authors Zhu Zhang, Zhou Zhao, Zhijie Lin, Jingkuan Song, Deng Cai
未修剪視頻中的動作本地化是視頻理解領域中的重要主題。但是,現有的動作本地化方法僅限於預先定義的一組動作,並且無法本地化看不見的活動。因此,我們考慮通過圖像查詢本地化視頻中看不見的活動的新任務,命名爲基於圖像的活動本地化。該任務面臨三個固有挑戰:1如何消除圖像查詢中語義上不必要內容的影響2如何處理不準確圖像查詢的模糊定位3如何確定目標片段的精確邊界。然後,我們提出了一種新穎的自我關注交互定位器,以端到端的方式檢索看不見的活動。具體來說,我們首先設計一種具有相對位置編碼的區域自我關注方法,以學習細粒度圖像區域表示。然後,我們採用局部變壓器編碼器來構建圖像和視頻內容的多步融合和推理。我們接下來採用訂單敏感的本地化程序來直接檢索目標段。此外,我們通過重新組織ActivityNet數據集來構建新的數據集ActivityIBAL。大量實驗表明了該方法的有效性。

Teaching DNNs to design fast fashion
Authors Abhianv Ravi, Arun Patro, Vikram Garg, Anoop Kolar Rajagopal, Aruna Rajan, Rajdeep Hazra Banerjee
快速時尚引領時尚界最大的破壞,使得能夠設計彈性供應鏈,以快速響應不斷變化的時尚潮流。商業製造中的傳統設計過程通常通過世界各地的趨勢或主流敷料模式來表示,這表明對於給定時間框架的新形式表達,循環模式和流行的表達模式的突然興趣。在這項工作中,我們提出了一個全自動系統,通過設計具有社交媒體源生成的時間序列信號的服裝的代表性原型,探索,檢測並最終將時尚趨勢綜合到設計元素中。我們的系統設想是Fast Fashion設計的第一步,從設計開始到製造的服裝生產週期旨在快速響應當前趨勢。它還通過在設計生成時接受客戶對可銷售性的反饋來減少時裝生產中的浪費。我們還提供了一個界面,其中設計師可以在時尚中使用多種趨勢樣式,並將設計可視化爲這些樣式元素的插值。我們的目標是通過爲設計師創造有趣和鼓舞人心的組合來幫助創作過程,通過在關鍵客戶中運行它們來考慮。

Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks
Authors Zhu Zhang, Zhou Zhao, Zhijie Lin, Jingkuan Song, Xiaofei He
開放式視頻問答的目的是根據給定的問題從引用的視頻內容中自動生成自然語言答案。目前,大多數現有方法關注於具有多模式重複編碼器解碼器網絡的短格式視頻問題應答。雖然這些作品已經取得了很好的表現,但由於缺乏遠程依賴建模和巨大的計算成本,它們仍可能無法有效地應用於長視頻視頻問答。爲了解決這些問題,我們提出了一種快速的分層卷積自注意編碼器解碼器網絡HCSA。具體地說,我們首先開發一種分層卷積自注意編碼器,以有效地對長格式視頻內容進行建模,從而構建視頻序列的層次結構,並從視頻上下文中捕獲問題感知的長距離依賴性。然後,我們設計了一個多尺度的注意力解碼器,以結合用於答案生成的多層視頻表示,這避免了頂部編碼器層的信息丟失。大量實驗表明了該方法的有效性和有效性。

Place recognition in gardens by learning visual representations: data set and benchmark analysis
Authors Maria Leyva Vallina, Nicola Strisciuglio, Nicolai Petkov
視覺位置識別是攝像機定位和循環閉合檢測系統的重要組成部分。它涉及僅基於視覺線索識別先前訪問過的地點。儘管對於室內和城市環境來說這是一個被廣泛研究的問題,但由於花園般環境的挑戰性外觀,最近使用機器人來實現農業和園藝任務的自動化已經產生了新的問題。花園場景主要包含綠色,以及重複的圖案和紋理。在花園和自然環境中記錄的可用數據的缺乏使得視覺定位算法的改進變得困難。在本文中,我們提出了TB Places數據集的擴展版本,該數據集用於測試視覺位置識別的算法。它包含在不同季節的真實花園中記錄的真實相機姿勢的圖像,具有不同的光線條件。我們爲所有可能的圖像對構建併發布了一個基本事實,表明它們是否描繪了相同的位置。我們提出了基於卷積神經網絡的方法基準分析的結果,用於整體圖像描述和位置識別。我們訓練現有網絡,即ResNet,DenseNet和VGG NetVLAD,作爲具有對比損失功能的雙向架構的骨幹。我們獲得的結果表明,學習園區定製的表示有助於提高性能,儘管泛化能力有限。

Fully automatic computer-aided mass detection and segmentation via pseudo-color mammograms and Mask R-CNN
Authors Hang Min, Devin Wilson, Yinhuang Huang, Samuel Kelly, Stuart Crozier, Andrew P Bradley, Shekhar S. Chandra
目的提出增強乳房X線照相質量的僞彩色乳房X線照片作爲快速計算機輔助檢測CAD系統的一部分,該系統可在無需任何用戶干預的情況下同時檢測和分割腫塊。方法提出的僞彩色乳房X線照片,其三個通道包含原始灰度乳房X線照片和兩個形態增強圖像,用於爲病變提供僞彩色對比。形態增強可以像乳房X線照相模式一樣篩選質量,從而改善檢測和分割。我們構建了一個快速,全自動的同步質量檢測和分割CAD系統,使用彩色乳房X線照片作爲轉移學習的輸入,使用Mask R CNN,這是一種先進的深度學習框架。這項工作的源代碼已在線提供。結果在公開的乳腺X線攝影數據集INbreast上進行評估,該方法優於現有技術方法,通過在每個圖像0.9假陽性和0.88的質量分割的平均Dice相似性指數達到0.90的平均真陽性率,同時花費20.4秒平均處理每個圖像。結論該方法在不超過半分鐘的情況下提供準確,全自動的乳房腫塊檢測和分割結果,無需任何用戶干預,同時優於最先進的方法。

A linear method for camera pair self-calibration and multi-view reconstruction with geometrically verified correspondences
Authors Nikos Melanitis, Petros Maragos
我們在無序的未校準圖像集中檢查建築場景的3D重建。我們引入線性方法進行自校準並找到相機對的度量重建。我們假設未知和不同的焦距,但是已知的內部相機參數和相機對的已知投影重建。我們在太空中恢復了兩種可能的相機配置,並使用Cheirality條件,即所有3D場景點都位於兩個相機的前面,以消除解決方案的歧義。我們在兩個定理中展示,首先是兩個解決方案處於鏡像位置,然後是它們的觀察方向之間的關係。我們的新方法使用標準方法Kruppa方程Delta R 3.77 circ進行自校準和5點算法進行相機中位數旋轉誤差Delta R 3.49 circ,用於相機對的校準度量重建。我們通過引入一種方法來檢查錯誤的圖像對應,以檢查點對應是否沿着圖像對中的x,y圖像軸以相同的順序出現。我們通過它的精確度和召回率來評估這種方法,並表明它提高了建築和一般場景中點匹配的魯棒性。最後,我們將所有引入的方法集成到3D重建管道中。我們利用旋轉平均算法和平均焦距估計的新方法利用衆多相機對度量重構。

Background Subtraction using Adaptive Singular Value Decomposition
Authors G nther Reitberger, Tomas Sauer
處理傳感器數據時的一個重要任務是區分相關數據和不相關數據。本文描述了一種迭代奇異值分解的方法,該方法通過跨越圖像空間子空間的奇異向量來維持背景模型,從而提供一種確定輸入幀中包含的新信息量的方法。我們以計算有效的方式更新跨越背景空間的奇異向量,並提供執行塊智能更新的能力,從而實現快速且穩健的自適應SVD計算。在定性和定量評估中都示出了這兩種性質的效果以及整體方法在執行現有技術背景扣除方面的成功。

ProtoNet: Learning from Web Data with Memory
Authors Yi Tu, Li Niu, Dawei Cheng, Liqing Zhang
近年來,從網絡數據中學習吸引了許多研究興趣。然而,爬行的網絡圖像通常具有兩種類型的噪聲,標籤噪聲和背景噪聲,這導致有效利用它們的額外困難。大多數現有方法要麼依賴於人爲監督,要麼忽略背景噪聲。在本文中,我們提出了新穎的ProtoNet,它能夠一起處理這兩種類型的噪聲,而不需要在訓練階段監控乾淨的圖像。特別是,我們使用內存模塊來識別每個類別的代表性和判別性原型。然後,我們藉助內存模塊從Web數據集中刪除噪聲圖像和噪聲區域提議。我們的方法很有效,可以輕鬆集成到任意CNN模型中。對四個基準數據集的大量實驗證明了我們方法的有效性。

BTEL: A Binary Tree Encoding Approach for Visual Localization
Authors Huu Le, Tuan Hoang, Michael Milford
由於相機技術和基於視覺的技術的最新進展,視覺定位算法已經在性能方面取得了顯着的改進。然而,仍然存在一個關鍵的警告,基於圖像檢索的所有當前方法當前最大程度地與環境的大小線性地相關於存儲,並且因此在大多數方法中,查詢時間。這種限制嚴重削弱了自治系統在各種計算,功率,存儲,尺寸,重量或成本受限應用(如無人機)中的能力。在這項工作中,我們提出了一種新的二叉樹編碼方法,用於視覺定位,可以作爲現有量化和索引技術的替代方案。所提出的樹結構允許我們導出壓縮訓練方案,該方案在所需存儲和推理時間中實現子線性。可以容易地配置編碼存儲器以滿足不同的存儲約束。此外,我們的方法適用於可選的序列過濾機制,以進一步改善定位結果,同時保持相同的存儲量。我們的系統與前端描述符完全無關,允許它在最新的最先進的圖像表示之上使用。實驗結果表明,該方法在有限的存儲約束下明顯優於現有技術方法。

Convolution Based Spectral Partitioning Architecture for Hyperspectral Image Classification
Authors Ringo S.W. Chu, Ho Cheung Ng, Xiwei Wang, Wayne Luk
高光譜圖像HSI可以區分具有大量光譜帶的材料,這在遙感應用中被廣泛採用,並且在高精度土地覆蓋分類中具有優勢。然而,HSI處理與高維度和有限數量的標記數據的問題糾纏在一起。爲了應對這些挑戰,本文提出了一種深度學習架構,該架構使用三維卷積神經網絡和譜分割來執行有效的特徵提取。我們使用美國宇航局機載可見紅外成像光譜儀獲得的印度松樹和薩利納斯場景進行實驗。與先前的結果相比,我們的架構顯示了當前方法的分類結果的競爭性能。

A Utility-Preserving GAN for Face Obscuration
Authors Hanxiang Hao, David G era, Amy R. Reibman, Edward J. Delp
從電視新聞到谷歌街景,臉部矇昧已被用於隱私保護。由於深度學習領域的最新進展,諸如高斯模糊和像素化之類的遮蔽方法不能保證隱藏身份。在本文中,我們提出了一種實用保留生成模型UP GAN,它能夠提供有效的面部遮擋,同時保持面部效用。通過實用性保留,我們的意思是保留不顯示身份的面部特徵,例如年齡,性別,膚色,姿勢和表情。我們表明,所提出的方法在遮蔽和實用性保存方面達到了最佳性能。

Datasets for Face and Object Detection in Fisheye Images
Authors Jianglin Fu, Ivan V. Bajic, Rodney G. Vaughan
我們提出了兩個新的魚眼圖像數據集,用於訓練面部和物體檢測模型VOC 360和Wider 360.魚眼圖像是通過後處理從兩個衆所周知的數據集(VOC2012和Wider Face)收集的常規圖像創建的,使用定期映射到魚眼的模型在Matlab中實現的圖像。 VOC 360包含39,575個魚眼圖像,用於物體檢測,分割和分類。更廣泛的360包含63,897個魚眼圖像用於面部檢測。這些數據集將用於開發面部和物體檢測器以及用於魚眼圖像的分割模塊,同時正在努力收集和手動註釋真實的魚眼圖像。

Homography from two orientation- and scale-covariant features
Authors Daniel Barath, Zuzana Kukelova
本文提出了角度和尺度的幾何解釋,其中定向和尺度協變特徵檢測器,例如, SIFT,提供。在比例和旋轉上導出兩個新的一般約束,可以在任何幾何模型估計任務中使用。使用這些公式,引入了兩個關於單應性估計的新約束。利用導出的方程,提出了用於從最小數量的兩個對應關係估計單應性的求解器。此外,還示出了點對應的歸一化如何影響旋轉和比例參數,從而實現數值穩定的結果。由於僅需要兩個特徵對,所以可以使用穩健的估計器,例如,與使用四點算法相比,RANSAC的迭代次數要少得多。使用協變特徵時,例如SIFT,有關比例和方向的信息是免費提供的。所提出的單應性估計方法在合成環境和公開可用的現實世界數據集中進行測試。

Learning from Discovering: An unsupervised approach to Geographical Knowledge Discovery using street level and street network images
Authors Stephen Law, Mateo Neira
最近的研究表明,機器學習方法在地理和城市分析中的使用越來越多,主要是從空間和時間數據中提取特徵和模式。研究,將地理過程整合到機器學習模型中,利用地理信息來更好地解釋這些方法的研究很少。這項研究有助於我們展示如何從無監督學習方法中學習的潛在變量可用於地理知識發現。特別是,我們提出了一種簡單而新穎的方法,稱爲卷積PCA ConvPCA,它應用於街道和街道網絡圖像,找到一組不相關的視覺潛在響應。該方法允許使用地理和生成可視化的組合來探索潛在空間的有意義的解釋,並且示出如何使用學習的嵌入來預測諸如街道級別封閉和街道網絡密度的城市特徵。

Data Extraction from Charts via Single Deep Neural Network
Authors Xiaoyi Liu, Diego Klabjan, Patrick NBless
從圖表中自動提取數據具有挑戰性,原因有兩個,即圖表中對象之間存在許多關係,這在一般計算機視覺問題中並不常見,並且不同類型的圖表可能無法由同一模型處理。爲了解決這些問題,我們提出了一個單一深度神經網絡的框架,它由對象檢測,文本識別和對象匹配模塊組成。該框架處理條形圖和餅圖,並且還可以通過略微修改和擴充訓練數據擴展到其他類型的圖表。我們的模型在79.4的測試模擬條形圖和88.0的測試模擬餅圖上成功執行,而對於訓練域之外的圖表,它分別降低了57.5和62.3。

A synthetic dataset for deep learning
Authors Xinjie Lan
在本文中,我們提出了一種生成服從高斯分佈的合成數據集的新方法。與具有未知分佈的常用基準數據集相比,合成數據集具有明確的分佈,即高斯分佈。同時,它具有與基準數據集MNIST相同的特徵。因此,我們可以輕鬆地在合成數據集上應用Deep Neural Networks DNN。該綜合數據集提供了一種新的實驗工具來驗證所提出的深度學習理論。

Effective degrees of freedom for surface finish defect detection and classification
Authors Natalya Pya Arnqvist, Blaise Ngendangenzwa, Eric Lindahl, Leif Nilsson, Jun Yu
汽車工業中產品質量控制的主要問題之一是自動檢測鏡面車身表面上的小尺寸缺陷。針對特徵提取和k近鄰概率分類器的樣條平滑方法,提出了一種新的表面完成缺陷檢測統計學習方法。由於表面是鏡面的,因此採用結構化閃電反射技術進行圖像採集。降低的等級三次迴歸樣條用於平滑像素值,而所獲得的平滑的有效自由度用作特徵向量的分量。該方法的一個關鍵優勢是,當應用標準學習分類器時,它允許達到接近零的錯誤分類錯誤率。我們還提出基於概率的績效評估指標作爲傳統指標的替代方案。這些的使用提供了用於分類器的預測性能的不確定性估計的手段。從位於瑞典Ume aa的沃爾沃GTO駕駛室工廠的試驗系統獲得的圖像的實驗分類結果表明,所提出的方法比比較方法更有效。

Video Action Classification Using PredNet
Authors Roshan Rane, Vageesh Saxena, Edit Sz gyi
在本文中,我們在Something something動作數據集上評估PredNet cite lotter16引用farzaneh18並實現PredNet,我們以多任務方式訓練它以輸出分類標籤和預測。我們的想法是相互制定視頻預測和行動分類。我們討論了關於PredNet的一系列觀察,並得出結論,它並不完全遵循預測編碼框架的原則。

Comparing Machine Learning Approaches for Table Recognition in Historical Register Books
Authors St phane Clinchant, Herv D jean, Jean Luc Meunier, Eva Lang, Florian Kleber
我們在本文中提出了表格識別手冊中的實驗書籍。我們首先解釋如何對行和列檢測的問題進行建模,然後比較兩種機器學習方法條件隨機場和圖形卷積網絡來檢測這些表元素。對Passau教區檔案館提供的死亡記錄進行了評估。兩種方法都顯示相似的結果,89 F1得分,允許信息提取的質量。軟件和數據集是開源數據。

A database for face presentation attack using wax figure faces
Authors Shan Jia, Chuanbo Hu, Guodong Guo, Zhengquan Xu
與2D面部呈現攻擊相比,例如通過呈現3D特徵或類似於真實面部的材料,3D打印照片和視頻回放對於面部識別系統FRS來說更具挑戰性。然而,現有的3D面部欺騙數據庫主要基於3D掩模,由於生產困難和高成本而限於小數據大小或不良真實性。在這項工作中,我們引入了第一個蠟像人臉數據庫WFFD,作爲一種超現實的3D演示攻擊來欺騙FRS。該數據庫由2200張真實和蠟像面孔組成,共有4400張面孔,與在線收藏品有很大差異。該數據庫的實驗首先調查了三種流行的FRS對這種新攻擊的脆弱性。此外,我們評估了幾種面部呈現攻擊檢測方法的性能,以顯示這種超逼真的面部欺騙數據庫的攻擊能力。

Lidar based Detection and Classification of Pedestrians and Vehicles Using Machine Learning Methods
Authors Farzad Shafiei Dizaji
本文的目的是將LiDAR傳感器映射的對象分類爲不同的類別,如車輛,行人和騎自行車的人。利用基於LiDAR的物體檢測器和基於神經網絡的分類器,基本上針對輔助自駕車輛識別和分類在駕駛過程中遇到的其他物體並且相應地進行,提出了一種新穎的實時物體檢測。我們使用機器學習方法討論我們的工作,以解決在自動駕駛汽車的機器學習應用中發現的常見高級問題,即從3D LiDAR傳感器獲得的pointcloud數據的分類。

InsectUp: Crowdsourcing Insect Observations to Assess Demographic Shifts and Improve Classification
Authors L onard Boussioux, Tom s Giro Larraz, Charles Guille Escuret, Mehdi Cherti, Bal zs K gl
昆蟲在生態系統中發揮着如此重要的作用,即少數物種的人口變化會對環境,社會和經濟層面產生破壞性後果。儘管如此,昆蟲人口統計學的評估受到以足夠規模收集人口普查數據的困難的嚴重限制。我們提出了一種方法來收集和利用旁觀者,徒步旅行者和昆蟲學愛好者的觀察結果,以便爲研究人員提供可以顯着幫助預測和識別環境威脅的數據。最後,我們表明雙方確實對這種合作感興趣。

On Physical Adversarial Patches for Object Detection
Authors Mark Lee, Zico Kolter
在本文中,我們展示了針對物體探測器的物理對抗性補丁攻擊,尤其是YOLOv3探測器。與先前關於物理對象檢測攻擊的工作不同,後者要求補丁與被錯誤分類的對象重疊或避免檢測,我們表明正確設計的補丁幾乎可以抑制圖像中所有檢測到的對象。也就是說,我們可以將貼片放置在圖像中的任何位置,導致圖像中的所有現有對象完全被探測器遺漏,即使遠離貼片本身也是如此。這反過來又開啓了針對物體檢測系統的新線路物理攻擊,這些物理攻擊不需要修改場景中的物體。可以在以下位置找到該系統的演示

Classifying logistic vehicles in cities using Deep learning
Authors Salma Benslimane, Simon Tamayo CAOR , Arnaud de La Fortelle CAOR
由於運輸卡車和輕型商用車輛的使用正在發展,因此城市地區的交付和貨運的快速增長正在增加。主要城市可以使用交通計數作爲監控運載工具存在的工具,以實施智能城市規劃措施。用於計數車輛的傳統方法使用機械,電磁或氣動傳感器,但是這些裝置昂貴,難以實施並且僅在不提供關於其類別,模型或軌跡的信息的情況下檢測車輛的存在。本文提出了一種深度學習工具,用於在考慮不同類別的物流車輛(即輕型,中型和重型車輛)的同時對給定圖像中的車輛進行分類。所提出的方法產生了兩個主要貢獻,首先我們開發了一個架構來創建一個註釋和平衡的物流車輛數據庫,減少了手動註釋工作。其次,我們建立了一個分類器,可以準確地對通過給定道路的物流車輛進行分類。這項工作的結果首先是一個包含4個車輛類別的72 000個圖像的數據庫和第二個2個重新訓練的卷積神經網絡InceptionV3和MobileNetV2,能夠對精度超過90的車輛進行分類。

Labeling, Cutting, Grouping: an Efficient Text Line Segmentation Method for Medieval Manuscripts
Authors Michele Alberti, Lars Voe gtlin, Vinaychandran Pondenkandath, Mathias Seuret, Rolf Ingold, Marcus Liwicki
本文介紹了一種基於深度學習的預分類和最新分割方法的文本行提取方法。複雜手寫文檔中的文本行提取對於最現代的計算機視覺算法提出了重大挑戰。歷史手稿是一類特別難以處理的文件,因爲它們呈現出幾種形式的噪音,例如降解,滲透,線性光澤和精心製作的文字。在這項工作中,我們提出了一種新的方法,它使用像素級的語義分割作爲中間任務,然後是文本行提取步驟。我們在最近的挑戰中世紀手稿的數據集上測量了我們的方法的性能,並通過將誤差減少80.7來超越最先進的結果。此外,我們證明了我們的方法在用不同腳本編寫的各種其他數據集上的有效性。因此,我們的貢獻是兩倍。首先,我們證明語義像素分割可以在執行文本行提取之前用作強去噪預處理步驟。其次,我們介紹了一種新穎,簡單而強大的算法,該算法利用高質量的語義分段,在具有挑戰性的數據集上實現99.42行IU的文本行提取性能。

HalalNet: A Deep Neural Network that Classifies the Halalness Slaughtered Chicken from their Images
Authors A. Elfakharany, R. Yusof, N. Ismail, R. Arfa, M. Yunus
食品中的清真要求對全世界數百萬穆斯林來說非常重要,尤其是肉類和雞肉產品,確保屠宰場遵守這一要求是一項具有挑戰性的手工任務。在本文中,提出了一種方法,該方法使用攝像機在屠宰場的傳送帶上拍攝屠宰雞的圖像,然後通過深度神經網絡分析圖像,以分類圖像是否是清真屠宰的雞。然而,傳統的深度學習模型需要大量的數據進行訓練,在這種情況下,這些數據量很難收集特別是非清真屠宰雞的圖像,因此本文展示瞭如何使用一次性學習1和轉移學習2可以在少量可用數據上達到高精度。所使用的體系結構基於Siamese神經網絡體系結構,該體系結構對兩個輸入3之間的相似性進行排序,同時使用Xception網絡4作爲雙網絡。我們稱之爲HalalNet。這項工作是作爲符合SYCUT syriah標準的屠宰系統的一部分完成的,該系統是一個監測系統,監測屠宰場屠宰雞的清真度。用於培訓和驗證HalalNet的數據來自馬來西亞雪蘭莪的Azain屠宰場Semenyih,其中包含清真和非清真屠宰雞的圖像。

Fine-grained zero-shot recognition with metric rescaling
Authors Boris N. Oreshkin, Negar Rostamzadeh, Pedro O. Pinheiro, Christopher Pal
我們解決了學習細粒度交叉模態表示的問題。我們在聯合視覺和文本空間中提出了基於實例的深度量學習方法。最重要的是,我們推導出一種度量重新縮放方法,它解決了廣義零鏡頭學習設置中的一個非常常見的問題,即將來自看不見的類的測試圖像分類爲訓練期間看到的類之一。我們在兩個細粒度零射擊學習數據集CUB和FLOWERS上評估我們的方法。我們發現,在廣義零射擊分類任務中,所提出的方法始終優於兩個數據集上的現有方法。我們證明了所提出的方法,儘管其實施和培訓簡單,但優於我們所知的使用相同評估框架的所有最新技術方法。

Characterizing Bias in Classifiers using Generative Models
Authors Daniel McDuff, Shuang Ma, Yale Song, Ashish Kapoor
從現實世界數據中學習的模型通常是有偏見的,因爲用於訓練它們的數據是有偏見的。這可以傳播存在的系統性人類偏見,並最終導致對人,特別是少數民族的不公平待遇。爲了表徵學習分類器中的偏差,現有方法依賴於人類神諭標記真實世界的例子來識別分類器的盲點,這些盲點由於所需的人工勞動和現有圖像示例的有限性而最終受限。我們提出了一種基於模擬的方法,用於以系統的方式使用生成對抗模型來詢問分類器。我們採用漸進式條件生成模型來合成照片逼真的面部圖像和貝葉斯優化,以有效地查詢獨立的面部圖像分類系統。我們展示瞭如何使用這種方法有效地表徵商業系統中的種族和性別偏見。

Deep Eyedentification: Biometric Identification using Micro-Movements of the Eye
Authors Lena A. J ger, Silvia Makowski, Paul Prasse, Sascha Liehr, Maximilian Seidler, Tobias Scheffer
我們研究眼睛的無意識微動作以進行生物識別。雖然先前的研究從基於視頻的眼睛跟蹤系統的輸出中提取較低頻率的宏觀運動並且設計這些宏觀運動的顯式特徵,但是我們開發了一種處理原始眼睛跟蹤信號的深度卷積結構。與先前的工作相比,網絡的誤碼率降低了一個數量級,並且速度提高了兩個數量級,可在幾秒內準確識別用戶。

Coloring With Limited Data: Few-Shot Colorization via Memory-Augmented Networks
Authors Seungjoo Yoo, Hyojin Bahng, Sunghyo Chung, Junsoo Lee, Jaehyuk Chang, Jaegul Choo
儘管最近在基於深度學習的自動着色方面取得了進步,但是當涉及到很少的鏡頭學習時,它們仍然是有限的。現有模型需要大量的訓練數據。爲了解決這個問題,我們提出了一種新穎的記憶增強色彩模型MemoPainter,它可以用有限的數據產生高質量的色彩。特別是,我們的模型能夠捕獲罕見的實例併成功着色它們。我們還提出了一種新的閾值三重態丟失,它可以在不需要類標籤的情況下實現對存儲器網絡的無監督訓練。實驗表明,我們的模型在少量鏡頭和一次鏡片着色任務中都具有卓越的品質。

A Preliminary Study on Data Augmentation of Deep Learning for Image Classification
Authors Benlin Hu, Cheng Lei, Dong Wang, Shu Zhang, Zhenyu Chen
深度學習模型具有大量的自由參數,需要通過對大量訓練數據的模型進行有效訓練來計算,以提高其泛化性能。然而,數據獲取和標記在實踐中是昂貴的。數據增加是緩解此問題的方法之一。在本文中,我們對三種變量增強方法,每個標籤基本數據集的增大率和大小如何影響圖像分類深度學習的準確性進行了初步研究。該研究提供了一些指導方針1,最好使用改變圖像幾何形狀的轉換,而不是那些只是照明和顏色的轉換。 2 2 3倍的增強率足以進行訓練。 3數據量越小,貢獻就越明顯。

Traffic Light Recognition Using Deep Learning and Prior Maps for Autonomous Cars
Authors Lucas C. Possatti, R nik Guidolini, Vinicius B. Cardoso, Rodrigo F. Berriel, Thiago M. Paix o, Claudine Badue, Alberto F. De Souza, Thiago Oliveira Santos
自主地面車輛必須能夠感知交通燈並識別其當前狀態以與人類駕駛員共享街道。大多數時候,人類駕駛員可以輕鬆識別相關的交通燈。爲了解決這個問題,自動駕駛汽車的通用解決方案是將識別與先前的地圖集成。然而,需要額外的解決方案來檢測和識別交通信號燈。深度學習技術表現出很強的性能和泛化能力,包括與交通相關的問題。在深度學習的進步的推動下,一些最近的作品利用一些最先進的深度探測器來定位和進一步識別來自2D相機圖像的交通燈。然而,它們都沒有將基於深度學習的探測器的功率與先前的地圖結合以識別相關交通燈的狀態。在此基礎上,這項工作提出將基於深度學習的檢測功能與我們的汽車平臺IARA首字母縮略詞用於智能自主機器人汽車的先前地圖相結合,以識別預定路線的相關交通信號燈。該過程分爲兩個階段:地圖構建和交通燈註釋的離線階段和交通燈識別和相關識別的在線階段。擬議的系統在Vit ria市的五個測試案例路線上進行了評估,每個案例由視頻序列和先前的地圖組成,其中包含該路線的相關交通燈。結果表明,該技術能夠正確識別沿軌跡的相關交通燈。

Robust Classification with Sparse Representation Fusion on Diverse Data Subsets
Authors Chun Mei Feng, Yong Xu, Zuoyong Li, Jian Yang
稀疏表示SR技術將測試樣本編碼爲所有訓練樣本的稀疏線性組合,然後將測試樣本分類爲具有最小殘差的類。 SR技術的分類取決於測試樣本的表示能力。然而,這些模型中的大多數將測試樣本的表示問題視爲確定性問題,忽略了表示的不確定性。不確定性是由兩個因素引起的,即樣本中的隨機噪聲和樣本集的內在隨機性,這意味着如果我們捕獲一組樣本,所獲得的樣本集將在不同條件下不同。在本文中,我們提出了一種基於協同表示的新方法,它是SR的一個特殊實例,具有封閉形式的解決方案。它基於訓練樣本SRFDS的多樣子集執行稀疏表示融合,減少了樣本集隨機性的影響,提高了分類結果的魯棒性。所提出的方法適用於多種類型的數據,並且不需要任務的模式類型。此外,SRFDS不僅可以保留封閉形式的解決方案,還可以大大提高分類性能。各種數據集的有希望的結果可以作爲SRFDS比其他基於SR的方法更好的性能的證據。可以訪問SRFDS的Matlab代碼

Identifying Emotions from Walking using Affective and Deep Features
Authors Tanmay Randhavane, Aniket Bera, Kyra Kapsaskis, Uttaran Bhattacharya, Kurt Gray, Dinesh Manocha
我們提出了一種新的數據驅動模型和算法,以根據他們的行走方式識別個體的感知情緒。給定個人行走的RGB視頻,我們以一系列3D姿勢的形式提取他的步行步態。我們的目標是利用步態特徵將人類的情緒狀態分爲快樂,悲傷,憤怒或中立的四種情緒之一。我們的感知情緒識別方法基於使用通過LSTM在標記的情感數據集上學習的深層特徵。此外,我們將這些特徵與使用姿勢和運動線索從步態計算出的情感特徵相結合。使用隨機森林分類器對這些特徵進行分類。我們表明,我們在組合特徵空間和感知情緒狀態之間的映射在識別感知情緒方面提供了80.07的準確性。除了對離散的情緒類別進行分類之外,我們的算法還可以根據步態預測感知效價和覺醒的價值。我們還提供了一個EWalk Emotion Walk數據集,其中包含步態個體的步態和標記情緒的視頻。據我們所知,這是第一個基於步態的模型,用於識別行走個體視頻中的感知情緒。

Unsupervised Learning of Object Keypoints for Perception and Control
Authors Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds, Andrew Zisserman, Volodymyr Mnih
計算機視覺中對象表示的研究主要集中在開發對圖像分類,對象檢測或語義分割有用的表示作爲下游任務。在這項工作中,我們的目標是學習對控制和強化學習RL有用的對象表示。爲此,我們引入了Transporter,一種神經網絡架構,用於根據關鍵點或圖像空間座標發現簡潔的幾何對象表示。我們的方法通過使用關鍵點瓶頸在視頻幀之間傳輸學習的圖像特徵,以完全無監督的方式從原始視頻幀中學習。發現的關鍵點比最近的類似方法更準確地跟蹤長時間視野中的對象和對象部分。此外,一致的長期跟蹤使得控制域1中的兩個顯着結果使用關鍵點座標和相應的圖像特徵作爲輸入使得高度樣本有效的強化學習2通過控制關鍵點位置來學習探索大大減少了搜索空間,從而實現深入探索通過隨機行動探索無法獲得的狀態,沒有任何外在獎勵。

Explicit Disentanglement of Appearance and Perspective in Generative Models
Authors Nicki Skafte Detlefsen, S ren Hauberg
解纏結的表示學習發現緊湊,獨立且易於解釋的數據因素。已經證明學習這樣的需要歸納偏差,我們在圖像的生成模型中明確地編碼。具體來說,我們提出了一個帶有兩個潛在空間的模型,一個表示輸入數據的空間變換,另一個表示變換後的數據。我們發現後者自然地捕獲了數據的內在外觀。爲了實現生成模型,我們提出了一種變分推斷的變換自動編碼器VITAE,它將空間變換器結合到變分自動編碼器中。我們展示瞭如何通過仔細設計編碼器並將轉換類限制爲微分同構來有效地在模型中進行推理。根據經驗,我們的模型將視覺風格與MNIST上的數字類型分開,並分離人體圖像中的形狀和姿勢。

Style Generator Inversion for Image Enhancement and Animation
Authors Aviv Gabbay, Yedid Hoshen
培養高質量圖像生成模型的主要動機之一是它們作爲圖像處理工具的潛在用途。最近,生成對抗性網絡GAN已經能夠生成具有顯着質量的圖像。不幸的是,經過對側訓練的無條件發電機網絡作爲圖像先驗並不成功。網絡作爲生成圖像之前的主要要求之一是能夠從目標分佈生成每個可能的圖像。對抗性學習經常會出現模式崩潰,這表現在無法生成某些目標分佈模式的生成器中。通常不滿足的另一個要求是可逆性,即在給定所需輸出圖像的情況下具有找到有效輸入潛碼的有效方式。在這項工作中,我們表明,與早期的GAN不同,最近提出的樣式生成器很容易反轉。我們使用這個重要的觀察來提出樣式生成器作爲通用圖像先驗。我們展示了樣式生成器優於其他GAN以及Deep Image Prior作爲圖像增強任務的先驅。由樣式生成器跨越的潛在空間滿足線性身份姿勢關係。潛在的空間線性與可逆性相結合,使我們能夠在沒有監督的情況下爲靜止的面部圖像製作動畫。進行了大量實驗以支持本文的主要貢獻。

Comparing Energy Efficiency of CPU, GPU and FPGA Implementations for Vision Kernels
Authors Murad Qasaimeh, Kristof Denolf, Jack Lo, Kees Vissers, Joseph Zambreno, Phillip H. Jones
開發高性能嵌入式視覺應用程序需要平衡運行時性能和能量限制。鑑於存在用於嵌入式計算機視覺的硬件加速器的混合,例如多核CPU,GPU和FPGA及其相關的供應商優化視覺庫,開發人員在這個分散的解決方案空間中進行導航成爲一項挑戰。爲了幫助確定哪種嵌入式平臺最適合其應用,我們對各種視覺內核的運行時性能和能效進行了全面的基準測試。我們討論了爲什麼給定的底層硬件架構根據一系列視覺內核類別的特性天生地表現良好或不良的原理。具體來說,我們的研究是針對嵌入式視覺應用ARM57 CPU,Jetson TX2 GPU和ZCU102 FPGA的三種常用硬件加速器,使用其供應商優化的視覺庫OpenCV,VisionWorks和xfOpenCV。我們的結果表明,與簡單內核的GPU相比,GPU的能量幀減少率爲1.1 3.2倍。對於更復雜的內核和完整的視覺流水線,FPGA的能量幀縮減率爲1.2 22.3x,優於其他FPGA。還觀察到隨着視覺應用的管道複雜性的增加,FPGA的性能越來越好。

Deep Learning-Based Classification Of the Defective Pistachios Via Deep Autoencoder Neural Networks
Authors Mehdi Abbaszadeh, Aliakbar Rahimifard, Mohammadali Eftekhari, Hossein Ghayoumi Zadeh, Ali Fayazi, Ali Dini, Mostafa Danaeian
開心果主要以生食,鹽醃或烤制的形式食用,因爲它具有高營養特性和良好的口感。具有殼和核缺陷的開心果除了不被消費者接受外,還易於受到昆蟲損害,黴菌腐爛和黃麴黴毒素污染。在這項研究中,開發了一種基於深度學習的成像算法來改進堅果的分類,其中殼和核缺陷表明黃麴黴毒素污染的風險,例如深色污漬,油性污漬,粘附的船體,真菌腐爛和麴黴菌。本文提出了一種基於深度自動編碼器神經網絡對缺陷和令人不快的開心果進行分類的無監督學習方法。在驗證數據集上對設計的神經網絡進行測試表明,具有深色斑點,油性污漬或粘附的船體,精度爲80.3的堅果可以與普通堅果區分開來。由於大學HPC的內存有限,結果是合理且合理的。

Making CNNs for Video Parsing Accessible
Authors Zijin Luo, Matthew Guzdial, Mark Riedl
爲高分辨率電子競技遊戲提取遊戲事件序列的能力傳統上需要訪問遊戲引擎。這對於不具備此訪問權限的團體來說是一個障礙。可以應用深度學習從遊戲視頻中導出這些日誌,但它需要計算能力作爲額外的障礙。這些小組將受益於訪問這些日誌,例如小型電子競技比賽組織者,他們可以更好地可視化遊戲玩法,以通知觀衆和評論員。在本文中,我們提出了一種組合解決方案,以減少所需的計算資源和時間來應用卷積神經網絡CNN從電子遊戲視頻中提取事件。該解決方案包括更快地訓練CNN的技術和更快地執行預測的方法。這擴展了能夠訓練和運行這些模型的機器類型,從而擴展了使用這種方法提取遊戲日誌的訪問權限。我們評估DOTA2領域的方法,DOTA2是最受歡迎的電子競技項目之一。我們的結果表明我們的方法優於標準的反向傳播基線。

Uncertainty Based Detection and Relabeling of Noisy Image Labels
Authors Jan M.K hler, Maximilian Autenrieth, William H. Beluch
深度神經網絡DNN是計算機視覺任務中的強大工具。然而,在許多現實場景中,標籤噪聲在訓練圖像中是普遍的,並且過度擬合這些噪聲標籤會顯着損害DNN的泛化性能。我們提出了一種新技術,用於根據來自DNN的預測不確定性對清潔和噪聲數據的不同分佈來識別具有噪聲標籤的數據。另外,在訓練過程中不確定性的行爲有助於識別最佳可用於重新標記噪聲標籤的網絡權重。因此,可以在迭代過程中清潔具有噪聲標籤的數據。我們提出的方法可以很容易地實現,並且在CIFAR 10和CIFAR 100上的噪聲標籤檢測任務上表現出很好的性能。

Team JL Solution to Google Landmark Recognition 2019
Authors Yinzheng Gu, Chuanpeng Li
在本文中,我們描述了我們在Kaggle上舉行的Google Landmark Recognition 2019挑戰賽的解決方案。由於大量的類,噪聲數據,不平衡的類大小以及測試集中存在大量干擾物,我們的方法主要基於具有全局和本地CNN方法的檢索技術。在對模型進行整合並應用幾個重新排名策略後,我們的完整渠道在私人排行榜上獲得0.37606 GAP,贏得了比賽的第一名。

VolMap: A Real-time Model for Semantic Segmentation of a LiDAR surrounding view
Authors Hager Radi, Waleed Ali
本文介紹了VolMap,一種用於自動駕駛車輛中3D LiDAR環繞視圖系統語義分割的實時方法。我們設計了一個優化的深度卷積神經網絡,可以精確地分割由360度LiDAR設置產生的點雲,其中輸入包括體積鳥瞰圖,其中LiDAR高度層用作輸入通道。我們進一步研究了多LiDAR設置的使用及其對語義分割任務性能的影響。我們的評估是在包含LiDAR繭設置和KITTI數據集的大規模3D物體檢測基準上進行的,其中每點分割標籤來自3D邊界框。我們證明了VolMap在CPU的高精度和實時運行之間取得了很好的平衡。

Using Self-Supervised Learning Can Improve Model Robustness and Uncertainty
Authors Dan Hendrycks, Mantas Mazeika, Saurav Kadavath, Dawn Song
自我監督爲下游任務提供有效的表示,無需標籤。然而,現有方法落後於完全監督的訓練,並且除了避免註釋的需要之外通常不被認爲是有益的。我們發現自我監督可以通過各種方式獲得穩健性,包括對抗性示例的穩健性,標籤損壞和常見的輸入損壞。此外,自我監督極大地有利於在困難的近分佈異常值上進行分佈檢測,以至於它超出了完全監督方法的性能。這些結果表明,自我監督有望提高穩健性和不確定性評估,並將這些任務建立爲未來自我監督學習研究的新評估軸。

Modelling Airway Geometry as Stock Market Data using Bayesian Changepoint Detection
Authors Kin Quan, Ryutaro Tanno, Michael Duong, Arjun Nair, Rebecca Shipley, Mark Jones, Christopher Brereton, John Hurst, David Hawkes, Joseph Jacob
許多肺部疾病,例如特發性肺纖維化IPF,表現出氣道擴張。準確測量擴張能夠評估疾病的進展。不幸的是,圖像噪聲和氣道分叉的組合導致橫截面區域的輪廓的高度可變性,使得對受影響區域的識別非常困難。在這裏,我們介紹了一種噪聲魯棒方法,用於在不同時間點獲得同一氣道的兩個輪廓,自動檢測進行性氣道擴張的位置。我們提出了概率之間突然相對變化的概率模型,並通過可逆跳躍馬爾可夫鏈蒙特卡羅採樣進行推理。我們證明了所提出的方法對健康氣道圖像的兩個數據集的有效性,模擬擴張ii對以1年爲間隔獲得的IPF影響氣道的實際圖像。我們的模型能夠在模擬數據上檢測氣道擴張的起始位置,精確度爲2.5mm。 IPF數據集上的實驗顯示與放射科醫師的合理協議。我們可以計算氣道容積的相對變化,這可能有助於量化IPF疾病進展。

Adversarial optimization for joint registration and segmentation in prostate CT radiotherapy
Authors Mohamed S. Elmahdy, Jelmer M. Wolterink, Hessam Sokooti, Ivana I gum, Marius Staring
聯合圖像配準和分割一直是醫學成像研究的一個活躍領域。在這裏,我們使用對抗性學習在深度學習環境中重新解決這個問題。我們考慮固定和移動圖像及其分割可用於訓練的情況,而在測試放射治療中的常見情況期間無法進行分割。所提出的框架包括3D端到端生成器網絡,其以無監督的方式估計固定和運動圖像之間的變形矢量場DVF,並將該DVF應用於運動圖像及其分割。訓練鑑別器網絡以評估運動圖像和分割與固定圖像和分割的對齊程度。對用於圖像引導放射治療的後續前列腺CT掃描訓練和評估所提出的網絡,其中使用估計的DVF將計劃CT輪廓傳播到每日CT圖像。與使用texttt elastix的常規配準進行定量比較表明,所提出的方法提高了性能並大大縮短了計算時間,從而實現了在線自適應放射治療所需的實時輪廓傳播。

Accurate Retinal Vessel Segmentation via Octave Convolution Neural Network
Authors Zhun Fan, Jiajie Mo, Benzhang Qiu
視網膜血管分割是診斷和篩查各種疾病(包括糖尿病,眼科疾病和心血管疾病)的關鍵步驟。在本文中,我們提出了一種有效的方法,使用基於編碼器解碼器的倍頻程卷積網絡對彩色眼底圖像進行精確的血管分割。與利用香草卷積進行特徵提取的其他基於卷積網絡的方法相比,該方法採用倍頻程卷積進行多個空間頻率特徵學習,從而可以更好地捕獲不同大小和形狀的視網膜脈管系統。我們憑經驗證明低頻核的特徵圖響應於主要的血管樹,而高頻特徵圖可以更好地捕獲低對比度細血管的微小細節。爲了提供學習如何解碼多頻特徵的網絡能力,我們擴展了八度音程卷積,並提出了一種新的操作,稱爲八度轉置卷積,採用相同的多頻方法。我們還提出了一種基於編碼器解碼器的新型完全卷積網絡,稱爲Octave UNet,可在單前向饋送中生成高分辨率的血管分割。所提出的方法在四個公開可用的數據集DRIVE,STARE,CHASE DB1和HRF數據集上進行評估。大量實驗結果表明,所提出的方法以最快的處理速度實現了對現有技術方法的更好或兼容的性能。

Densely Residual Laplacian Super-Resolution
Authors Saeed Anwar, Nick Barnes
超分辨率卷積神經網絡最近證明了單個圖像的高質量恢復。然而,現有算法通常需要非常深的架構和長的訓練時間。此外,目前用於超分辨率的卷積神經網絡無法利用多個尺度的特徵並對它們進行相同的權衡,從而限制了它們的學習能力。在本次論述中,我們提出了一種緊湊而精確的超分辨率算法,即密集殘差拉普拉斯網絡DRLN。所提出的網絡在殘餘結構上採用級聯殘差,以允許低頻信息的流動集中於學習高級和中級特徵。此外,通過密集連接的殘差塊設置實現深度監督,這也有助於從高級複雜特徵中學習。此外,我們建議拉普拉斯注意模擬關鍵特徵,以瞭解特徵圖之間的層間和層內依賴關係。對低分辨率,噪聲低分辨率和真實歷史圖像基準數據集的全面定量和定性評估表明,我們的DRLN算法在視覺和準確方面對最先進的方法表現出良好的效果。

Studying the Impact of Mood on Identifying Smartphone Users
Authors Khadija Zanna, Sayde King, Tempestt Neal, Shaun Canavan
本文探討了當受試者感到快樂,心煩或壓力不足或存在時收集某些樣本時智能手機用戶的識別。我們使用StudentLife數據集收集了來自19個受試者的數據,該數據集是達特茅斯學院研究人員收集的數據集,最初收集該數據集是爲了將智能手機使用模式所表現的行爲與壓力和學習成績的變化相關聯。雖然許多先前關於行爲生物特徵識別的研究表明情緒是人體內變異的來源,這可能影響生物特徵表現,但我們的結果與這一假設相矛盾。我們的研究結果表明,當移除受試者可能感到快樂,不安或壓力時產生的樣本時,性能會惡化。因此,沒有跡象表明情緒會對錶現產生負面影響。但是,我們發現智能手機使用模式中存在的變化可能與情緒有關,包括鎖定,音頻,位置,呼叫,主屏幕和電子郵件習慣的變化。因此,我們表明雖然情緒是人內變異的來源,但生物識別系統尤其是移動生物識別可能受情緒影響可能是不準確的假設。

Supervise Thyself: Examining Self-Supervised Representations in Interactive Environments
Authors Evan Racah, Christopher Pal
自我監督的方法,其中代理僅通過觀察其動作的結果來學習表示,在不提供密集的獎勵信號或具有標籤的環境中變得至關重要。在大多數情況下,這些方法用於下游任務的預訓練或輔助任務,例如控制,探索或模仿學習。但是,不清楚哪種方法的表示最能捕獲環境的有意義的特徵,哪種方法最適合哪種類型的環境。我們在兩個視覺環境Flappy Bird和Sonic The Hedgehog上展示了一個關於自我監督方法的小規模研究。特別地,我們在兩個上下文中定量地評估從這些任務中學習的表示,表示方式捕獲代理的真實狀態信息的程度以及這些表示對新情況(例如新級別和紋理)的一般化。最後,我們通過可視化他們關注的環境部分來評估這些自我監督的功能。我們的結果表明,表示的效用高度依賴於環境的視覺和動態。

HEMELB Acceleration and Visualization for Cerebral Aneurysms
Authors Sahar Soheilian Esfahani, Xiaojun Zhai, Minsi Chen, Abbes Amira, Faycal Bensaali, Julien AbiNahed, Sarada Dakua, Georges Younes, Robin A. Richardson, Peter V. Coveney
導致血管擴張或膨脹的腦動脈壁的弱點被稱爲腦動脈瘤。最佳治療需要快速準確地診斷動脈瘤。 HemeLB是一種用於複雜幾何形狀的流體動力學求解器,用於爲神經外科醫生提供與動脈瘤內和周圍血液流動相關的信息。在具有成本效益的平臺上,HemeLB可以在醫院中使用,以便爲外科醫生提供實時的模擬結果。在這項工作中,我們開發了一個改進版的HemeLB,用於GPU實現和結果可視化。還提供了一個可視化平臺,用於與最終用戶的順暢交互。最後,報告了對該實施的綜合評估。結果表明,所提出的實施方案實現了每秒15,168,964次站點更新的最大性能,並且能夠加速HemeLB在醫院和臨牀調查中的部署。

A New Compensatory Genetic Algorithm-Based Method for Effective Compressed Multi-function Convolutional Neural Network Model Selection with Multi-Objective Optimization
Authors Luna M. Zhang
近年來,已經出現了許多流行的卷積神經網絡CNN,例如Google的Inception V4,它們在各種圖像分類問題上表現得非常好。這些常用的CNN模型通常對卷積層中的所有神經元使用相同的激活函數,例如RELU,它們是單功能CNN。但是,SCNN可能並不總是最佳的。因此,已經證明,對於不同神經元使用不同激活函數的多功能CNN MCNN優於SCNN。此外,CNN通常具有非常大的架構,其使用大量存儲器並且需要大量數據以便被良好地訓練。因此,他們往往也有很高的培訓和預測時間。一個重要的研究問題是如何自動有效地找到具有高分類性能和緊湊架構的最佳CNN,具有高訓練和預測速度,小功率使用和小內存大小,適用於任何圖像分類問題。從大量候選MCNN中智能地找到有效,快速,節能且存儲有效的壓縮多功能CNN CMCNN非常有用。利用新的遺傳算法GA創建了一種新的補償算法,以找到最佳的CMCNN,並在性能和體系結構尺寸之間進行理想的補償。最佳的CMCNN具有最佳性能和最小的架構尺寸。使用CIFAR10數據集的模擬顯示,新的補償算法可以找到在分類性能F1得分,速度,功率使用和內存使用方面優於非壓縮MCNN的CMCNN。基於流行的CNN架構的其他有效,快速,高效且節省內存的CMCNN將被開發用於重要的現實世界應用中的圖像分類問題,例如腦信息學和生物醫學成像。

DVDnet: A Fast Network for Deep Video Denoising
Authors Matias Tassano, Julie Delon, Thomas Veit
在本文中,我們提出了一種基於卷積神經網絡架構的最先進的視頻去噪算法。先前基於神經網絡的視頻去噪方法不成功,因爲它們的性能不能與基於補丁的方法的性能競爭。但是,我們的方法在顯着降低計算時間方面優於其他基於補丁的競爭對手。與其他現有的神經網絡降噪器相比,我們的算法具有多種理想的特性,例如較小的內存佔用,以及使用單一網絡模型處理各種噪聲級別的能力。它的去噪性能和較低的計算負荷之間的結合使得該算法對於實際的去噪應用具有吸引力。我們將我們的方法與不同的現有算法進行比較,包括視覺和客觀質量指標。實驗表明,我們的算法與其他現有技術方法相比具有優勢。視頻示例,代碼和模型可在網址上公開獲取

From Data Quality to Model Quality: an Exploratory Study on Deep Learning
Authors Tianxing He, Shengcheng Yu, Ziyuan Wang, Jieqiong Li, Zhenyu Chen
如今,人們努力提高深度學習模型的準確性。但是,很少有工作集中在數據集的質量上。實際上,數據質量決定了模型質量。因此,研究數據質量如何影響模型質量對我們來說非常重要。在本文中,我們主要考慮數據質量的四個方面,包括數據集均衡,數據集大小,標籤質量,數據集污染。我們設計了MNIST和Cifar 10的實驗,並試圖找出這四個方面對模型質量的影響。實驗結果表明,四個方面都對模型質量起決定性作用。這意味着這些方面的數據質量下降會降低模型的準確性。

Instant automatic diagnosis of diabetic retinopathy
Authors Gwenol Quellec, Mathieu Lamard, Bruno Lay, Alexandre Le Guilcher, Ali Erginay, B atrice Cochener, Pascale Massin
本研究的目的是評估OphtAI系統的性能,用於自動檢測可誘發的糖尿病視網膜病變DR和使用彩色眼底照相自動評估DR嚴重程度。 OphtAI依賴於訓練的卷積神經網絡的集合,以識別眼睛偏側性,檢測可參考的DR並評估DR嚴重性。系統可以處理單個圖像或完整的檢查記錄。爲了記錄自動診斷,產生準確的熱圖。該系統使用來自OPHDIAT篩查程序的164,660個篩選程序的763,848個圖像的數據集開發和驗證。爲了進行比較,還在公共Messidor 2數據集中對其進行了評估。使用愛荷華大學的參考標準95 CI 0.984 0.994,可以在Messidor 2數據集中使用AUC 0.989的ROC曲線下面積檢測相關DR。這明顯優於FDA授權的唯一AI系統,在完全相同的條件下進行評估AUC 0.980。 OphtAI還可以檢測威脅視力的DR,其AUC爲0.997 95 CI 0.996 0.998,增殖性DR的AUC爲0.997 95 CI 0.995 0.999。系統使用圖形處理單元在0.3秒內運行,不到2秒即可運行。 OphtAI比目前FDA授權的唯一AI系統更安全,更快速,更全面。現在可以進行即時DR診斷,這有望簡化DR篩查併爲更多糖尿病患者提供DR篩查的便捷途徑。

The Impact of an Inter-rater Bias on Neural Network Training
Authors Or Shwartzman, Harel Gazit, Ilan Shelef, Tammy Riklin Raviv
通常在醫學圖像的手動標記的背景下討論了評價者間變異性的問題。假設被基於自動模型的圖像分割方法繞過,這被認爲是客觀的,提供單一的,確定性的解決方案。然而,諸如深度神經網絡DNN之類的數據驅動方法的出現及其在監督語義分割中的應用使得評估者對這一問題的分歧回到了前面階段。在本文中,我們強調了評估者間偏差的問題,而不是隨機的觀察者間變異性,並證明了它對DNN訓練的影響,導致相同輸入圖像的不同分割結果。實際上,如果訓練和測試分段具有不同的評分者,則計算較低的Dice分數。此外,我們證明了在考慮測試數據的分割預測時,訓練樣本中的評估者間偏差被放大。我們支持我們的研究結果,表明在自動分割預測而非測試評註被測試時,基於其手動註釋區分評估者的訓練分類器DNN表現得更好。

Optimizing CNN-based Hyperspectral ImageClassification on FPGAs
Authors Shuanglong Liu, Ringo S.W. Chu, Xiwei Wang, Wayne Luk
高光譜圖像HSI分類已廣泛應用於涉及需要高分類精度和實時處理速度的遙感圖像分析的應用中。基於卷積神經網絡CNN的方法已被證明在分類HSI方面實現了最先進的準確性。然而,與傳統方法(例如支持向量機SVM)相比,由於HSI的高維性質,CNN模型通常計算量太大而無法實現實時響應。此外,HSI中使用的先前CNN模型並非專爲在FPGA等嵌入式設備上有效實施而設計。本文提出了一種新的基於CNN的HSI分類算法,該算法考慮了硬件效率。然後提出一種定製架構,其使得所提出的算法能夠有效地映射到FPGA資源上,以支持具有低功耗的實時板載分類。實施結果表明,我們在Xilinx Zynq 706 FPGA板上提出的加速器比Intel 8核Xeon CPU快70倍以上,比NVIDIA GeForce 1080 GPU快3倍。與之前基於SVM的FPGA加速器相比,我們實現了可比較的處理速度,但提供了更高的分類精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章