【今日CV 計算機視覺論文速覽 第101期】Wed, 17 Apr 2019

今日CS.CV 計算機視覺論文速覽
Wed, 17 Apr 2019
Totally 65 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚Pyramid-context ENcoder Network (PEN-Net)基於金字塔編碼器的高質量圖像修復, 利用Unet結構通過編碼圖像內容信息並解碼,訓練了具有高層級語義特徵圖注意力的編碼器,並可將這些注意力轉移到低層級特徵圖上,可以將缺失的部分特徵從深層向淺層轉移,並在視覺和語義上修復缺失部分。最後通過金字塔損失和對抗損失訓練解碼器實現快速訓練和有效infer。(from 中山大學 微軟亞研)
在這裏插入圖片描述
一些結果:
在這裏插入圖片描述
code:https://github.com/researchmm/PEN-Net-for-Inpainting

📚超分辨綜述,基於結構不同來進行算法解構,並基於參數量、算法設置和訓練細節、結構創新等來分析了模型的各方面能力。並在6個公開數據集上進行了公開評測。未來可能的研究方向:與先驗(場景、傳感器、拍攝條件等)結合、目標函數和度量、通用解決方案、非監督、高/任意SR比例,真實/仿真的退化過程。 (from CSIRO, Australia)
在這裏插入圖片描述
各種模型架構:
在這裏插入圖片描述
六個公開數據集:
在這裏插入圖片描述
計算量參數量的影響:
在這裏插入圖片描述
各種屬性總結:
在這裏插入圖片描述

📚RIDNet基於特徵注意力的真實圖像去噪, 深度圖像去噪在真實非均勻噪聲上表現不佳,需要多級神經網絡處理。研究人員利用殘差單元促進了低頻信息的流動,並應用特徵注意力來探索了通道依賴性,實現了單階段的真實圖像去噪模型。(from 澳大利亞國立)
在這裏插入圖片描述
在這裏插入圖片描述在這裏插入圖片描述
相關方法:NLM [11] and BM3D [16], SADCT [24], SAPCA [18], NLB [34], and INLM [26]

📚Objects as Points基於中心點檢測的高效CenterNet, 在先前的目標檢測工作中模型幾乎會遍歷每個可能的位置給出邊界框並分類,浪費了大量的算力。CenterNet則使用了單個點爲物體建模,基於關鍵點估計來獲取中心點,並基於中心點回歸出框大小、3D位置和位姿以及方向等屬性。研究人員還基於相同的方法估計了3Dbbox和人體位姿。實現了很高的mAP(from 德克薩斯奧斯丁)
基於中心的檢測方法和一些結果:
在這裏插入圖片描述在這裏插入圖片描述
不同檢測任務:
在這裏插入圖片描述
速度和表現:
在這裏插入圖片描述在這裏插入圖片描述
與其他方法比較:
在這裏插入圖片描述
位姿估計和3Dbbox:
在這裏插入圖片描述
code:https://github.com/xingyizhou/CenterNet


📚音視頻分離,通過從視頻中分離相似物體的聲音,同時爲每一個訓練對產生精確的視頻級音頻,解耦了視頻和音頻間的關係,並最終實現了視覺引導的音頻分離和去噪。(from 德克薩斯奧斯丁)
在這裏插入圖片描述
訓練過程:
在這裏插入圖片描述
dataset:MUSIC, AudioSet, and AV-Bench datasets

📚低功耗視覺綜述, Low-Power Image Recognition Challenge (LPIRC) 挑戰賽,綜述。基於TFlite在移動端實現、coffe2在tx2上實現、線上實現。(from 普渡)
在這裏插入圖片描述

📚Total Denoising無監督三維點雲去噪, 在流型空間上進行去噪,將不合符隨機分佈的點雲噪聲進行整體考慮。(from 德國烏爾姆大學)
在這裏插入圖片描述
點雲流型和點雲非結構化編解碼:
在這裏插入圖片描述

📚RS-CNN相關形狀CNN用於點雲分析, 主要集中於學習點之間的幾何拓撲相關性,並基於幾何先驗學習出高層級的相關性。局部準確的空間佈局可以被精確表示。(from 中科院自動化所)
在這裏插入圖片描述
用於分類和分割的不同配置,分割包含了長程鏈接:
在這裏插入圖片描述

📚Complexer-YOLO語義點雲實時3D識別追蹤, 提出了結合三維檢測和語義分割的聯合模型,利用語義分割輔助了三維點雲檢測和追蹤。並利用規模化旋轉變化SRTs提高了推理速度。(from valeo.com )
架構圖和效果圖:
在這裏插入圖片描述
在這裏插入圖片描述

📚Fashion-AttGAN基於多主體GAN的時尚元素編輯, AttGAN可以用於時尚元素的編輯和生成,通過隱空間編輯可保持其他屬性不變的情況下改變服飾的樣式,並提出了包含22屬性的14221個圖像的數據集。(from VIPSHOP US Inc唯品會美國)
重建的一些結果,3-6列改變袖子,後面改變顏色:
在這裏插入圖片描述
code and dataset:https://github.com/ChanningPing/Fashion_Attribute_Editing

📚基於貝葉斯的圖像先驗, 在先前深度圖像先驗Deep Image prior的基礎上研究人員將高斯過程引入了圖像修復、重建和去噪的任務中,研究發現深度圖像先驗在每一層通道趨於無窮時將漸近高斯過程,並能得到對應的高斯核。研究人員在infer過程中引入了貝葉斯方法,通過隨機梯度郎之萬動力學實現後驗推理避免了過早停止,並改善了重建和去噪的結果。(from 麻省大學)
在這裏插入圖片描述
一些實驗結果及不確定性圖:
在這裏插入圖片描述在這裏插入圖片描述
project:https://people.cs.umass.edu/~zezhoucheng/gp-dip/
code:https://github.com/ZezhouCheng/GP-DIP

📚人羣運動估計, 通過監控信息估計人羣的流動方向,將有效避免羣體擁堵和事故的發生。(from Indian Institute of Technology Bhubaneswar)
人羣建模和提出的網絡結構:
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述
分割與抽取:
在這裏插入圖片描述
在這裏插入圖片描述

📚防瞌睡數據集和方法, 用於檢測瞌睡早期跡象,給出了數據集和基於層級多尺度長短時神經網絡HM-LSTM的方法。 (from 德克薩斯阿靈頓)
數據集/判斷指標和提出的HM-LSTM方法:
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述
RLDD dataset: sites.google.com/view/utarldd/home
code:https://github.com/rezaghoddoosian

📚Focus Is All You Need事件相機的損失函數,用一系列運動補償函數爲事件相機更好的應用。提出了聚焦損失函數用於事件對齊,可用於旋轉移動、深度和光流估計。 (from 蘇黎世大學)
在這裏插入圖片描述


Daily Computer Vision Papers

Matrix and tensor decompositions for training binary neural networks
Authors Adrian Bulat, Jean Kossaifi, Georgios Tzimiropoulos, Maja Pantic
本文是關於改進二元神經網絡的訓練,其中激活和權重都是二元的。雖然用於神經網絡二值化的現有方法獨立地對每個濾波器進行二值化,但是我們建議使用矩陣或張量分解來參數化每個層的權重張量。然後通過量化函數,例如量化函數,使用這種潛在的參數化來執行二值化處理。符號函數應用於重建的權重。我們的方法的一個關鍵特徵是,當重建被二值化時,潛在分解空間中的計算在真實域中完成。這具有若干優點,潛在因子分解在二值化之前強制執行濾波器的耦合,這顯着提高了訓練模型的準確性。 ii,在訓練時,使用實值矩陣或張量分解對每個卷積層的二進制權值進行參數化,在推理期間,我們僅使用重構的二進制權重。因此,我們的方法在模型壓縮和加速推理方面不會犧牲二進制網絡的任何優勢。作爲進一步的貢獻,不是像在先前的工作中那樣分析地計算二元權重縮放因子,而是建議通過反向傳播來區別地學習它們。最後,我們表明,當對人體姿態估計的挑戰性任務進行測試時,我們的方法明顯優於現有方法,超過4項改進,而ImageNet分類最多可達5項性能提升。

Objects as Points
Authors Xingyi Zhou, Dequan Wang, Philipp Kr henb hl
檢測將對象標識爲圖像中的軸對齊框。大多數成功的物體探測器列舉了潛在物體位置的幾乎詳盡的列表並對每個物體進行分類。這是浪費,低效,並且需要額外的後期處理。在本文中,我們採取了不同的方法。我們將對象建模爲其邊界框中心點的單個點。我們的探測器使用關鍵點估計來查找中心點並回歸到所有其他對象屬性,例如大小,3D位置,方向甚至姿勢。我們的基於中心點的方法CenterNet比相應的基於邊界框的檢測器端到端可微,更簡單,更快速,更準確。 CenterNet實現了MS COCO數據集的最佳速度準確性折衷,其中28.1 AP爲142 FPS,37.4 AP爲52 FPS,45.1 AP爲1.4 FPS多尺度測試。我們使用相同的方法來估計KITTI基準中的3D邊界框和COCO關鍵點數據集上的人體姿勢。我們的方法與複雜的多階段方法競爭性地實時運行。

Active Adversarial Domain Adaptation
Authors Jong Chyi Su, Yi Hsuan Tsai, Kihyuk Sohn, Buyu Liu, Subhransu Maji, Manmohan Chandraker
我們提出了一種主動學習方法,用於跨域轉移表示。我們的方法,主動對抗域適應AADA,探討了兩個相關問題之間的對偶性,對抗域對齊和重要性抽樣,以適應跨域的模型。前者使用域判別模型來對齊域,而後者使用它來權衡樣本以考慮分佈變化。具體而言,我們的重要性權重促進了分類和多樣性與標記示例具有較大不確定性的樣本,因此可用作主動學習的樣本選擇方案。我們表明,當源域有許多標記的示例而目標域沒有時,這兩個視圖可以在一個框架中統一用於域自適應和轉移學習。當兩個領域密切相關時,AADA對基於微調的方法和其他抽樣方法提供了重大改進。在具有挑戰性的域適應任務(例如,對象檢測)上的結果表明,即使在數百個示例被主動註釋之後,也保留了優於基線方法的優點。

Temporal Cycle-Consistency Learning
Authors Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Pierre Sermanet, Andrew Zisserman
我們介紹了一種基於視頻之間時間對齊任務的自我監督表示學習方法。該方法使用時間週期一致性TCC訓練網絡,TCC是可區分的週期一致性損失,可用於在多個視頻中查找跨時間的對應關係。通過使用學習的嵌入空間中的最近鄰居簡單地匹配幀,可以使用所得到的每幀嵌入來對齊視頻。

Double Transfer Learning for Breast Cancer Histopathologic Image Classification
Authors Jonathan de Matos, Alceu de S. Britto Jr., Luiz E. S. Oliveira, Alessandro L. Koerich
這項工作提出了一種乳腺癌組織病理學圖像HI的分類方法,該方法使用轉移學習從使用ImageNet數據集預訓練的Inception v3 CNN提取HI的特徵。我們還使用轉移學習在組織標記的結腸直腸癌數據集上訓練支持向量機SVM分類器,目的是過濾來自乳腺癌HI的斑塊並去除不相關的斑塊。我們顯示在訓練第二個SVM分類器之前去除不相關的補丁,提高了對乳腺癌圖像上的惡性和良性腫瘤進行分類的準確性。我們能夠使用特徵提取轉移學習提高3.7中的分類準確度,使用不相關的補丁消除提高0.7。所提出的方法在乳腺癌數據集的四個放大因子中的三個中優於現有技術。

Visual Relationship Detection with Language prior and Softmax
Authors Jaewon Jung, Jongyoul Park
視覺關係檢測是一種中間圖像理解任務,它檢測兩個對象並對解釋圖像中兩個對象之間關係的謂詞進行分類。這三個組成部分在語言和視覺上相關,例如磨損與人和襯衫有關,而筆記本電腦與桌子有關,因此,解決方案空間很大,因爲它們之間有很多可能的情況。利用語言和視覺模塊,提出複雜的空間矢量。這項工作中的模型優於藝術狀態,沒有昂貴的語言知識從大型文本語料庫中升級並構建複雜的損失函數。所有實驗僅在視覺關係檢測和視覺基因組數據集上進行評估。

AT-GAN: A Generative Attack Model for Adversarial Transferring on Generative Adversarial Nets
Authors Xiaosen Wang, Kun He, Chuan Guo, Kilian Q. Weinberger, John E. Hopcroft
最近的研究發現了深度神經網絡DNN對於對抗性例子的脆弱性,這些例子對人類來說是不可察覺的,但很容易欺騙DNN。用於製作對抗性示例的現有方法主要基於向原始圖像添加小幅度擾動,使得所生成的對抗性示例受到小矩陣範數內的良性示例的約束。在這項工作中,我們提出了一種名爲AT GAN的新攻擊方法,該方法使用生成對抗網絡GAN直接從隨機噪聲中生成對抗性示例。關鍵的想法是轉移預先訓練的GAN以生成要攻擊的目標分類器的對抗性示例。一旦模型轉移進行攻擊,AT GAN可以有效地生成各種對抗性示例,這有助於潛在地加速防禦的對抗性訓練。我們在MNIST手寫數字數據庫的典型防禦方法下,在半白盒和黑盒設置中評估AT GAN。與現有攻擊基線的經驗比較表明,AT GAN可以實現更高的攻擊成功率。

The ALOS Dataset for Advert Localization in Outdoor Scenes
Authors Soumyabrata Dev, Murhaf Hossari, Matthew Nicholson, Killian McCabe, Atul Nautiyal, Clare Conran, Jian Tang, Wei Xu, Fran ois Piti
在線視頻數量的快速增長爲營銷和廣告代理商提供了充分的機會來接觸他們的觀衆。最廣泛使用的策略之一是產品放置或嵌入式營銷,其中新廣告無縫地集成到視頻中的現有廣告中。這樣的策略涉及在視頻編輯階段手動地或通過使用機器學習框架準確地在圖像幀中定位廣告的位置。然而,這些機器學習技術和深度神經網絡需要大量的數據用於訓練。在本文中,我們提出併發布了第一個在室外場景中捕獲的廣告牌的大型數據集。我們還在我們提出的數據集上對幾種最先進的語義分割算法進行了基準測試。

Weakly Supervised Gaussian Networks for Action Detection
Authors Basura Fernando, Cheston Tan Yin Chet, Hakan Bilen
檢測視頻中人類行爲的時間範圍是一個具有挑戰性的計算機視覺問題,需要詳細的手動監督,包括幀級標籤。這種昂貴的註釋過程限制了在有限數量的類別上部署動作檢測器。我們提出了一種新的動作識別方法,稱爲WSGN,可以學習檢測來自弱監督,視頻級標籤的動作。 WSGN學習利用視頻特定和數據集範圍的統計數據來預測每個幀與動作類別的相關性。我們表明,本地和全球渠道的結合可以在THUMOS14和Charades兩個標準基準測試中取得顯着進步。我們的方法在弱監督基線上提高了超過12 mAP,優於其他弱監督的現有技術方法,僅落後於THUMOS14數據集中用於動作檢測的現有技術監督方法。類似地,我們的方法僅僅是在挑戰Charades數據集進行動作定位的現有技術監督方法背後0.3 mAP。

Cryo-Electron Microscopy Image Analysis Using Multi-Frequency Vector Diffusion Maps
Authors Yifeng Fan, Zhizhen Zhao
冷凍電子顯微鏡EM單粒子重建是用於大分子複合物的3D結構測定的完全通用技術。然而,因爲圖像是以低電子劑量拍攝的,所以很難以低對比度和高噪聲水平觀察單個粒子。在本文中,我們提出了一種稱爲多頻率矢量擴散圖MFVDM的新方法,以提高低溫EM 2D圖像分類和去噪的效率和準確性。該框架結合了相似圖像之間估計對準的不同不可縮減表示。此外,我們提出了一種圖形濾波方案,使用MFVDM矩陣的特徵值和特徵向量對圖像進行去噪。通過模擬和公開可用的實際數據,我們證明了與現有技術的低溫EM 2D類平均和圖像恢復算法相比,我們提出的方法對噪聲有效且魯棒。

Co-Separating Sounds of Visual Objects
Authors Ruohan Gao, Kristen Grauman
瞭解物體如何從視頻中發出聲音具有挑戰性,因爲它們通常在單個音頻通道中重疊。目前用於視覺引導音頻源分離的方法通過使用人工混合視頻剪輯進行訓練來回避該問題,但是這對訓練數據收集提出了笨拙的限制,甚至可能妨礙學習真正混合聲音的屬性。我們引入了一種共同分離訓練範例,該範例允許從未標記的多源視頻中學習對象級聲音。我們的新穎訓練目標要求深度神經網絡爲相似的觀察對象分離音頻,使其始終可識別,同時爲每個源訓練對再現精確的視頻級音頻軌道。我們的方法在真實的測試視頻中解開聲音,即使在訓練期間沒有單獨觀察物體的情況下也是如此。我們獲得了MUSIC,AudioSet和AV Bench數據集的視覺引導音頻源分離和音頻去噪的最新結果。我們的視頻結果

Low-Power Computer Vision: Status, Challenges, Opportunities
Authors Sergei Alyamkin, Matthew Ardi, Alexander C. Berg, Achille Brighton, Bo Chen, Yiran Chen, Hsin Pai Cheng, Zichen Fan, Chen Feng, Bo Fu, Kent Gauen, Abhinav Goel, Alexander Goncharenko, Xuyang Guo, Soonhoi Ha, Andrew Howard, Xiao Hu, Yuanjun Huang, Donghyun Kang, Jaeyoun Kim, Jong Gook Ko, Alexander Kondratyev, Junhyeok Lee, Seungjae Lee, Suwoong Lee, Zichao Li, Zhiyu Liang, Juzheng Liu, Xin Liu, Yang Lu, Yung Hsiang Lu, Deeptanshu Malik, Hong Hanh Nguyen, Eunbyung Park, Denis Repin, Liang Shen, Tao Sheng, Fei Sun, David Svitov, George K. Thiruvathukal, Baiwu Zhang, Jingchi Zhang, Xiaopeng Zhang, Shaojie Zhuo
計算機視覺近年來取得了令人矚目的進展。同時,手機已成爲數百萬人的主要計算平臺。除了移動電話之外,許多自治系統依賴於可視數據來做出決策,並且這些系統中的一些具有有限的能量,例如也稱爲無人機和移動機器人的無人駕駛飛行器。這些系統依賴電池和能效是至關重要的。本文有兩個主要目的1檢查低功率解決方案的最新技術,以檢測圖像中的對象。自2015年以來,IEEE年度國際低功耗圖像識別挑戰LPIRC一直致力於識別最節能的計算機視覺解決方案。本文總結了2018年的獲獎者解決方案。 2建議研究方向以及低功耗計算機視覺的機會。

Semantically Aligned Bias Reducing Zero Shot Learning
Authors Akanksha Paul, Narayanan C. Krishnan, Prateek Munjal
零鏡頭學習ZSL旨在通過利用已見和未見過的類之間的語義關係來識別看不見的類。 ZSL算法面臨的兩個主要問題是樞紐問題和對所見類的偏見。現有的ZSL方法僅關注常規和通用ZSL設置中的這些問題之一。在這項工作中,我們提出了一種新穎的方法,即語義對齊偏置減少SABR ZSL,它專注於解決這兩個問題。它通過學習潛在空間來克服集線器問題,該潛在空間在編碼關於類的區分信息的同時保留標籤之間的語義關係。此外,我們還提出了通過歸納設置中的簡單交叉驗證過程和轉換設置中的新的弱傳遞約束來減少所看到的類的偏差的方法。對三個基準數據集的大量實驗表明,在傳統的ZSL設置中,所提出的模型明顯優於現有技術算法1.59,在廣義ZSL中,對於歸納和轉換設置,顯着優於現有技術。

LBVCNN: Local Binary Volume Convolutional Neural Network for Facial Expression Recognition from Image Sequences
Authors Sudhakar Kumawat, Manisha Verma, Shanmuganathan Raman
識別面部表情是計算機視覺中的核心問題之一。時間圖像序列具有用於識別表達的有用的時空特徵。在本文中,我們提出了一種新的3D卷積神經網絡CNN,可以在不使用面部標誌的情況下,對時間圖像序列上的面部表情識別進行端到端訓練。更具體地,提出了一種新的3D卷積層,我們稱之爲局部二進制卷LBV層。當LBV層與我們新提出的LBVCNN網絡一起使用時,與基於CK或OBC CASIA和UNBC McMaster肩部疼痛數據集的圖像序列的基於地標的模型相比,獲得了可比較的結果。此外,與傳統的3D卷積層相比,我們的LBV層將可訓練參數的數量減少了很多。事實上,與3x3x3傳統3D卷積層相比,LBV層使用的可訓練參數少27倍。

SparseMask: Differentiable Connectivity Learning for Dense Image Prediction
Authors Huikai Wu, Junge Zhang, Kaiqi Huang
在本文中,我們的目標是自動搜索有效的網絡架構進行密集圖像預測。特別是,我們遵循編碼器解碼器風格,專注於自動設計解碼器的連接結構。爲實現這一目標,我們首先設計一個密集連接的網絡,其中包含名爲Fully Dense Network的可學習連接,其中包含大量可能的最終連接結構。然後,我們採用梯度下降來搜索密集連接的最佳連接。搜索過程由新的損失函數引導,該函數將每個連接的權重推動爲二進制並且連接是稀疏的。發現的連通性在兩個分割數據集上實現了競爭結果,與現有技術方法相比,運行速度提高了三倍以上,所需參數不到一半。大量實驗表明,所發現的連通性與各種骨幹兼容,並且可以很好地推廣到其他密集圖像預測任務。

Total Denoising: Unsupervised Learning of 3D Point Cloud Cleaning
Authors Pedro Hermosilla, Tobias Ritschel, Timo Ropinski
我們表明,3D點雲的去噪可以無人監督地學習,直接來自嘈雜的3D點雲數據。這是通過將最近的想法從學習無監督圖像去噪器擴展到非結構化3D點雲來實現的。無監督圖像去噪器在假設噪聲像素觀察是圍繞乾淨像素值的分佈的隨機實現的假設下操作,這允許對該分佈的適當學習最終收斂到正確值。遺憾的是,這種假設對於非結構化點是無效的.3D點雲受到總噪聲的影響,即。例如,所有座標的偏差,沒有可靠的像素網格。因此,觀察可以是實現整個清潔3D點的流形,這使得無監督圖像去噪器對3D點雲的延伸是不切實際的。克服這個問題,我們引入了一個空間先驗項,它將轉向收斂到歧管上許多可能模式中唯一最接近的項。我們的結果證明了無監督的去噪性能類似於帶有乾淨數據的監督學習,當給出足夠的訓練樣例時,我們不需要任何一對嘈雜和乾淨的訓練數據。

Relation-Shape Convolutional Neural Network for Point Cloud Analysis
Authors Yongcheng Liu, Bin Fan, Shiming Xiang, Chunhong Pan
點雲分析非常具有挑戰性,因爲不規則點中隱含的形狀難以捕捉。在本文中,我們提出了RS CNN,即關係形狀卷積神經網絡,它將規則網格CNN擴展到不規則配置以進行點雲分析。 RS CNN的關鍵是從關係中學習,即點之間的幾何拓撲約束。具體地,局部點集的卷積權重被迫從預定義的幾何先驗中學習來自該點集的採樣點與其他點之間的高級關係表達式。通過這種方式,可以獲得具有關於點的空間佈局的明確推理的歸納局部表示,這導致了很多形狀感知和魯棒性。通過這種卷積作爲基本運算符RS CNN,可以開發分層架構以實現用於點雲分析的上下文形狀感知學習。針對三個任務的挑戰性基準測試的廣泛實驗驗證了RS CNN實現了現有技術水平。

Detecting the Unexpected via Image Resynthesis
Authors Krzysztof Lis, Krishna Nakka, Mathieu Salzmann, Pascal Fua
經典的語義分割方法,包括最近的深度學習方法,假設在訓練期間已經看到在測試時觀察到的所有類。在本文中,我們將解決更加真實的場景,即未知類的意外對象可以在測試時出現。該領域的主要趨勢是利用預測不確定性的概念來標記低信度區域未知,或者依賴自動編碼器並突出顯示解碼不良的區域。觀察到,在這兩種情況下,檢測到的區域通常不對應於意外的對象,在本文中,我們引入了一種截然不同的策略。它依賴於網絡將在描繪意外對象的區域中產生虛假標籤的直覺。因此,從得到的語義圖重新合成圖像將產生相對於輸入圖像的顯着外觀差異。換句話說,我們將檢測未知類的問題轉化爲識別不良再合成圖像區域的問題。我們表明,它優於不確定性和基於自動編碼器的方法。

Patch alignment manifold matting
Authors Xuelong Li, Kang Liu, Yongsheng Dong, Dacheng Tao
圖像消光通常被建模爲從顏色空間到α空間的空間變換。通過估計模型的α因子,可以提取圖像的前景。但是,在alpha空間中存在一些尺寸信息冗餘。它通常導致前景和背景之間邊界附近的一些像素的誤判。在本文中,提出了一種稱爲Patch Alignment Manifold Matting的流形消光框架用於圖像消光。特別地,我們首先提出局部圖像塊中的顏色空間的部分建模。然後,我們使用子空間重建誤差執行整個對齊優化以近似α結果。此外,我們利用Nesterov算法來解決優化問題。最後,我們在框架中應用了一些流形學習方法,並獲得了幾種圖像匹配方法,如命名爲ISOMAP matting及其派生的Cascade ISOMAP matting。實驗結果表明,與幾種有代表性的消光方法相比,歧管消光框架及其兩個實例是有效的。

Long-Term Video Generation of Multiple FuturesUsing Human Poses
Authors Naoya Fushishita, Antonio Tejero de Pablos, Yusuke Mukuta, Tatsuya Harada
從輸入視頻預測近期是自動駕駛和機器人等應用的有用任務。雖然大多數先前的作品預測單個未來,但可能會出現具有不同行爲的多個未來。此外,如果預測的未來太短,則人類或其他系統可能無法完全使用。在本文中,我們提出了一種新的未來視頻預測方法,能夠產生多個長期期貨。這使得預測更適合於實際應用。首先,從輸入的人類視頻中,我們通過對抗性學習生成未來人體姿勢的序列作爲其身體關節的圖像座標。我們通過輸入潛在代碼的生成器組合來反映各種行爲以及反映各種軌跡的吸引點來生成多個未來。此外,我們使用基於一維卷積神經網絡的新方法生成長期未來人類姿勢。最後,我們根據生成的可視化姿勢生成輸出視頻。我們使用三個標準評估生成的未來姿勢和視頻,即真實性,多樣性和準確性,並表明我們提出的方法優於其他最先進的工作。

Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds
Authors Martin Simon, Karl Amende, Andrea Kraus, Jens Honer, Timo S mann, Hauke Kaulbersch, Stefan Milz, Horst Michael Gross
準確檢測3D物體是計算機視覺中的基本問題,並且對自動駕駛汽車,增強的虛擬現實和機器人技術中的許多應用具有巨大影響。在這項工作中,我們提出了基於神經網絡的最先進的3D檢測器和自動駕駛環境中的視覺語義分割的新穎融合。此外,我們還引入了比例旋轉平移分數SRT,這是一種快速且可高度參數化的評估指標,用於比較對象檢測,從而將我們的推理時間加速到20,並將訓練時間減半。最重要的是,我們在對象測量上應用最先進的在線多目標特徵跟蹤,以利用時間信息進一步提高準確性和魯棒性。我們在KITTI上的實驗表明,我們在所有相關類別中獲得與現有技術相同的結果,同時保持性能和準確性權衡,並且仍然實時運行。此外,我們的模型是第一個融合視覺語義與3D對象檢測的模型。

Disentangling Pose from Appearance in Monochrome Hand Images
Authors Yikang Li, Chris Twigg, Yuting Ye, Lingling Tao, Xiaogang Wang
由於光照,外觀和背景的變化,來自單眼2D圖像的手姿勢估計具有挑戰性。雖然使用深度神經網絡已經取得了一些成功,但它們通常需要收集大量數據集,以充分採樣手部圖像的所有變化軸。因此,找到手姿勢的表示將是有用的,該表姿獨立於圖像外觀,如手紋理,光照,背景,以便我們可以通過混合姿勢外觀組合來合成看不見的圖像。在本文中,我們提出了一種新技術,在2D單色圖像中解開姿勢表示與互補外觀因子。我們使用一個網絡監督這個解開過程,該網絡學習使用指定的姿勢外觀特徵生成手的圖像。與以前的工作不同,我們不需要具有匹配姿勢的圖像對,我們使用已經可用的姿勢註釋並引入循環一致性的新穎用途以確保因子之間的正交性。實驗結果表明,我們的自解法方案成功地將手部圖像分解爲姿勢及其與使用配對數據的方法相當的質量的互補外觀特徵。另外,通過重新混合來自不同圖像的姿勢和外觀因素,利用具有看不見的手部外觀組合的額外合成圖像訓練模型可以改善2D姿勢估計性能。

A Deep Journey into Super-resolution: A survey
Authors Saeed Anwar, Salman Khan, Nick Barnes
基於超分辨率的深度卷積網絡是一個快速增長的領域,具有許多實際應用。在本次博覽會上,我們廣泛地比較了30個最先進的超分辨率卷積神經網絡CNN,超過三個經典和三個最近引入的挑戰性數據集,以基準單圖像超分辨率。我們引入了基於深度學習的超分辨率網絡的分類法,將現有方法分爲九類,包括線性,殘差,多分支,遞歸,漸進,基於注意力和對抗性設計。我們還在網絡複雜性,內存佔用,模型輸入和輸出,學習細節,網絡損耗類型和重要架構差異(例如深度,跳過連接,過濾器)方面提供模型之間的比較。進行了廣泛的評估,顯示了過去幾年中準確性的一致和快速增長,以及模型複雜性和大規模數據集的可用性的相應提升。還觀察到,被確定爲基準的開創性方法已經明顯優於當前的競爭者。儘管近年來取得了進展,但我們發現了現有技術的一些缺點,併爲解決這些開放性問題提供了未來的研究方向。

A Deep Optimization Approach for Image Deconvolution
Authors Zhijian Luo, Siyu Chen, Yuntao Qian
在盲圖像去卷積中,通常利用先驗來約束解空間,從而減輕不確定性。與解卷積任務分開訓練的引物往往不穩定或無效。我們提出了高爾夫優化器,這是一種新穎但簡單的網絡形式,可以從具有更好傳播行爲的數據中學習深層原理。就像打高爾夫球一樣,我們的方法首先使用一個網絡估計積極的傳播朝向最優,並且反覆應用殘餘CNN來學習先前的梯度,以便在恢復時進行精細校正。實驗表明,我們的網絡在GoPro數據集上實現了競爭性能,與現有技術相比,我們的模型非常輕巧。

Shared Predictive Cross-Modal Deep Quantization
Authors Erkun Yang, Cheng Deng, Chao Li, Wei Liu, Jie Li, Dacheng Tao
隨着數據量的爆炸性增長和數據模態的不斷增加的多樣性,跨模態相似性搜索(其在不同模態中進行最近鄰搜索)已經引起越來越多的關注。本文提出了一種深度緊湊的代碼學習解決方案,用於高效的跨模態相似性搜索最近的許多研究已經證明,基於量化的方法通常比基於哈希的方法在單模態相似性搜索上表現更好。在本文中,我們提出了一種深度量化方法,這是利用深度神經網絡進行基於量化的交叉模態相似性搜索的早期嘗試之一。我們的方法,稱爲共享預測深度量化SPDQ,明確地爲不同的模態和兩個私有子空間制定共享子空間用於單個模態,並且通過將它們嵌入到再生核Hilbert空間中來同時學習共享子空間和私有子空間中的表示。可以明確地比較不同模態分佈的平均嵌入。另外,在共享子空間中,學習量化器以藉助於標籤對齊產生保留緊湊代碼的語義。由於這種新穎的網絡架構與監督量化訓練相結合,SPDQ可以儘可能地保持模內和模間的相似性,並大大減少量化誤差。兩個流行基準測試的實驗證實,我們的方法優於最先進的方法。

End-to-End Denoising of Dark Burst Images Using Recurrent Fully Convolutional Networks
Authors Di Zhao, Lan Ma, Songnan Li, Dahai Yu
在昏暗的光線環境下拍攝照片時,由於光線進入量很小,拍攝的圖像通常非常暗,噪點很大,而且顏色無法反映真實世界的顏色。在這種情況下,用於單圖像去噪的傳統方法總是不能有效。一個常見的想法是採用相同場景的多個幀來增強信噪比。本文提出了一種經常性的完全卷積網絡RFCN,用於處理在極低光照條件下拍攝的突發照片,並獲得具有改善亮度的去噪圖像。我們的模型將原始突發圖像直接映射到sRGB輸出,以產生最佳圖像或生成多幀去噪圖像序列。事實證明,這個過程能夠完成低級別的去噪任務,以及色彩校正和增強的高級任務,所有這些都是通過我們的網絡進行端到端處理。我們的方法取得了比現有技術方法更好的結果。此外,我們已經應用了由一種類型的相機訓練的模型,而不對由不同相機捕獲的照片進行微調,並且已經獲得了類似的端到端增強。

GradMask: Reduce Overfitting by Regularizing Saliency
Authors Becks Simpson, Francis Dutil, Yoshua Bengio, Joseph Paul Cohen
由於樣本太少或模型參數太多,過度擬合會抑制將預測推廣到新數據的能力。在醫學成像中,當特徵被錯誤地指定爲重要性(例如,不同的醫院特定工件)時,這可能發生,導致來自不具有這些特徵的不同機構的新數據集的不良性能,這是不期望的。大多數正則化方法沒有明確地懲罰這些特徵與目標類的錯誤關聯,因此無法解決此問題。我們提出了一種正則化方法GradMask,當它們與病變分割不一致時,它懲罰從分類器梯度推斷的顯着性圖。這可以防止非腫瘤相關特徵有助於不健康樣本的分類。我們證明,與沒有GradMask的基線相比,這種方法可以將測試精度提高到1 3之間,表明它對減少過度擬合有影響。

Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting
Authors Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo
高質量的圖像修復需要填充具有合理內容的損壞圖像中的缺失區域。現有作品要麼通過複製圖像塊來填充區域,要麼從區域上下文生成語義連貫的塊,而忽略了視覺和語義合理性都是高度需求的事實。在本文中,我們提出了一個金字塔上下文編碼器網絡PEN網絡,用於深度生成模型的圖像修復。 PEN Net建立在U Net結構之上,它可以通過從全分辨率輸入編碼上下文語義來恢復圖像,並將學習的語義特徵解碼回圖像。具體地,我們提出了金字塔上下文編碼器,其通過關注從高級語義特徵映射逐步學習區域親和性,並將學習的注意力轉移到先前的低級特徵映射。由於缺失的內容可以通過金字塔方式從深度到淺度的注意力轉移來填充,因此可以確保用於圖像修復的視覺和語義一致性。我們進一步提出了一種多尺度解碼器,其具有深度監督的金字塔損失和對抗性損失。這樣的設計不僅導致訓練中的快速收斂,而且在測試中產生更真實的結果。對各種數據集的廣泛實驗表明,所提出的網絡具有優越的性能

Super Resolution Convolutional Neural Network Models for Enhancing Resolution of Rock Micro-CT Images
Authors Ying Da Wang, Ryan Armstrong, Peyman Mostaghimi
基於超分辨率卷積神經網絡的單圖像超分辨率SISR技術SRCNN應用於砂岩和碳酸鹽巖的微觀計算機斷層掃描μCT圖像。數字岩石成像受到掃描裝置的能力的限制,導致分辨率和視野之間的折衷,並且在該研究中測試的超分辨率方法旨在補償這些限制。 SRCNN型號SR Resnet,增強型深度SR EDSR和寬激活深度SR WDSR用於4x下采樣圖像的數字岩石超分辨率1 DRSRD1數據集,包括2000個高分辨率800x800 Bentheimer砂岩和Estaillades碳酸鹽的原始微CT圖像。經過訓練的模型應用於數據集內的驗證和測試數據,與雙三次插值相比,圖像質量提高了3.5 dB,所有測試模型的性能均在0.1 dB範圍內。差異圖表示在訓練模型範圍內的圖像中完全恢復邊緣清晰度,僅有高頻噪聲相關的細節損失。我們發現除了生成高分辨率圖像之外,應用於合成降級圖像的超分辨率方法的有益副作用是去除圖像噪聲,同時恢復有利於分割過程的邊緣銳度。該模型還針對Bentheimer岩石的真實低分辨率圖像進行了測試,並通過圖像增強來解釋自然噪聲和模糊。 SRCNN方法被證明在這些情況下充當圖像分割的預處理器,這自然導致將來進一步開發和訓練直接分割圖像的模型。 SRCNN在岩石圖像上的圖像恢復具有比傳統方法更高的質量,並且表明SRCNN方法是數字岩石工作流程中可行的處理步驟。

Deep Neural Network Based Hyperspectral Pixel Classification With Factorized Spectral-Spatial Feature Representation
Authors Jingzhou Chen, Siyu Chen, Peilin Zhou, Yuntao Qian
深度學習由於其產生深度特徵表示的能力而被廣泛用於高光譜像素分類。然而,如何構建適用於高光譜數據的高效強大的網絡仍在探索中。本文設計了一種新的神經網絡模型,充分利用高光譜數據的光譜空間結構。首先,我們通過具有監督預訓練方案的子網從豐富但冗餘的光譜帶中提取基於像素的固有特徵。其次,爲了利用像素之間的局部空間相關性,我們將先前的子網共享爲圖像塊中每個像素的光譜特徵提取器,之後將片中所有像素的光譜特徵組合並饋入隨後的分類子網。最後,整個網絡進一步微調,以提高其分類性能。特別地,譜空間分解方案應用於我們的模型架構中,使得網絡大小和參數的數量遠小於用於高光譜圖像分類的現有光譜空間深度網絡。對高光譜數據集的實驗表明,與一些現有的深度學習方法相比,我們的方法在網絡尺寸更小,參數更少的情況下實現了更好的分類結果。

Fashion-AttGAN: Attribute-Aware Fashion Editing with Multi-Objective GAN
Authors Qing Ping, Jiangbo Yuan, Bing Wu, Wanying Ding
在本文中,我們將屬性感知時尚編輯(一種新穎的任務)引入時尚領域。我們重新定義了AttGAN的總體目標,併爲這項新任務提出了Fashion AttGAN模型。爲此任務構建了一個數據集,其中包含14,221和22個屬性,這些屬性已公開可用。實驗結果表明我們的Fashion AttGAN對原始AttGAN的時尚編輯有效。

A Bayesian Perspective on the Deep Image Prior
Authors Zezhou Cheng, Matheus Gadelha, Subhransu Maji, Daniel Sheldon
最近將深度圖像先驗作爲自然圖像的先驗介紹。它將圖像表示爲具有隨機輸入的卷積網絡的輸出。對於推理,執行梯度下降以調整網絡參數以使輸出匹配觀察。該方法在一系列圖像重建任務中產生良好性能。我們證明了深度圖像先驗漸近地等於先前的靜態高斯過程,因爲網絡的每一層中的信道數量變爲無窮大,並導出相應的內核。這通知貝葉斯方法進行推理。我們表明,通過使用隨機梯度Langevin進行後驗推斷,我們避免了早期停止的需要,這是當前方法的缺點,並且改善了去噪和重繪任務的結果。我們在許多一維和二維信號重建任務中說明了這些直覺。

Point cloud registration: matching a maximal common subset on pointclouds with noise (with 2D implementation)
Authors Jorge Arce Garro, David Jim nez L pez
我們分析了確定2D中的2個給定點雲(具有任何不同的基數和任意數量的異常值)是否具有可通過剛性運動匹配的相同大小的子集的問題。這個問題很重要,例如,在使用不完整數據的指紋匹配時。我們提出了一種算法,在對噪聲容限的假設下,允許找到最大可能大小的相應子云。我們的程序優化了這樣做的潛在能量函數,這首先受到靜電中點電荷之間發生的潛在能量相互作用的啓發。

Decoupling Localization and Classification in Single Shot Temporal Action Detection
Authors Yupan Huang, Qi Dai, Yutong Lu
視頻時間動作檢測旨在臨時定位和識別未修剪視頻中的動作。現有的一階段方法主要集中於統一兩個子任務,即行動建議的本地化和通過完全共享的主幹對每個提議的分類。然而,在一個網絡中封裝兩個子任務的所有組件的這種設計可能通過忽略每個子任務的專用特性來限制訓練。在本文中,我們提出了一種新的解耦單次射擊時間動作檢測解耦SSAD方法,通過在一級方案中解耦定位和分類來緩解這種問題。特別地,兩個單獨的分支被並行設計以使每個組件能夠私下擁有表示以進行精確定位或分類。每個分支通過將解卷積應用於主流的特徵映射來生成一組動作錨點層。每個分支通過將解卷積應用於主流的特徵映射來生成一組特徵映射。因此,結合來自較深層的高級語義信息以增強特徵表示。我們對THUMOS14數據集進行了大量實驗,並展示了優於現有技術方法的卓越性能。我們的代碼可在線獲取。

Photofeeler-D3: A Neural Network with Voter Modeling for Dating Photo Rating
Authors Agastya Kalra, Ben Peterson
在過去的二十年中,在線約會已經獲得了極大的歡迎,因此選擇最好的約會檔案照片比以往任何時候都更加重要。爲此,我們建議Photofeeler D3成爲第一個卷積神經網絡,對照片的評分進行評分,以確定該主題的智能性,可信度和吸引力。我們將此任務命名爲約會照片評級DPR。 Photofeeler D3利用Photofeeler的約會數據集PDD擁有超過100萬張圖像和數千萬張選票,與現有的DPR在線AI平臺相比,人工投票的相關性高出28倍。我們介紹了選民建模的新概念,並用它來實現這個基準。我們模型的吸引力輸出也可用於面部美容預測FBP並實現最先進的結果。如果不對HotOrNot數據集中的單個圖像進行訓練,我們可以獲得比文獻中任何模型高10的相關性。最後,我們證明了Photofeeler D3與10個非標準化和未加權的人類投票達到了大致相同的相關性,使其成爲DPR和FBP這兩項任務的最新技術。

Shortest Paths in HSI Space for Color Texture Classification
Authors Mingxin Jin, Yongsheng Dong, Lintao Zheng, Lingfei Liang, Tianyu Wang, Hongyan zhang
顏色紋理表示是紋理分類任務中的重要步驟。最短路徑用於從RGB和HSV顏色空間中提取顏色紋理特徵。在本文中,我們建議在HSI空間中使用最短路徑來構建用於分類的紋理表示。特別地,兩個無向圖分別用於模擬H通道和S和I通道,以便表示顏色紋理圖像。此外,根據紋理圖像的不同比例和方向,通過使用四對像素來構造最短路徑。彩色Brodatz和USPTex數據庫的實驗結果表明,我們提出的方法是有效的,Brodatz數據庫中的最高分類準確率爲96.93。

Single Pixel Reconstruction for One-stage Instance Segmentation
Authors Jinghan Yao, Zhou Yu, Jun Yu, Dacheng Tao
對象實例分割是計算機視覺中最基本但具有挑戰性的任務之一,它需要像素級圖像理解。大多數現有方法通過將掩模預測分支添加到具有區域提議網絡RPN的兩級對象檢測器來解決該問題。雖然產生了良好的分割結果,但這兩種方法的效率遠遠不能令人滿意,限制了它們在實踐中的適用性。在本文中,我們提出了一個單階段框架SPRNet,它通過將單個像素重建SPR分支引入現成的一級檢測器來執行有效的實例分割。添加的SPR分支直接從卷積特徵圖中的每個單個像素重建像素級掩模。使用相同的ResNet 50骨幹網,SPRNet以更高的推理速度實現了與掩模R CNN相當的掩模AP,並且與RetinaNet相比,在每個尺度上都獲得了盒AP的全面改進。

What I See Is What You See: Joint Attention Learning for First and Third Person Video Co-analysis
Authors Huangyue Yu, Minjie Cai, Yunfei Liu, Feng Lu
近年來,通過可穿戴式相機從第一人稱視角捕獲越來越多的視頻。除了傳統的第三人稱視頻之外,這種第一人稱視頻提供了附加信息,因此具有廣泛的應用。然而,用於分析第一人稱視頻的技術可以與第三人視頻的技術根本不同,並且從兩個視點探索共享信息甚至更加困難。在本文中,我們提出了一種新的第一和第三人稱視頻合作分析方法。我們方法的核心是聯合關注的概念,指示在不同視點中對應於共享關注區域的可學習表示,從而鏈接兩個視點。爲此,我們開發了一個具有三重損失的多分支深度網絡,通過自我監督學習從第一和第三人視頻中提取共同關注。我們使用交叉視點視頻匹配任務評估公共數據集上的方法。我們的方法在質量和數量上都優於現有技術。我們還通過一系列額外的實驗證明了學習的聯合注意力如何使各種應用受益。

Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression
Authors Xinyao Wang, Liefeng Bo, Li Fuxin
熱圖迴歸已成爲局部化面部標誌的主流方法之一。隨着卷積神經網絡CNN和遞歸神經網絡RNN在解決計算機視覺任務中變得越來越流行,已經對這些架構進行了廣泛的研究。然而,很少研究熱圖迴歸的損失函數。在本文中,我們分析了面部對齊問題中熱圖迴歸的理想損失函數屬性。然後我們提出一種新的損失函數,稱爲自適應翼損失,它能夠使其形狀適應不同類型的地面真實熱圖像素。這種適應性將前景像素上的損失減少到零,同時在背景像素上留下一些損失。爲了解決前景像素和背景像素之間的不平衡問題,我們還提出了加權損失圖,它在前景和難以處理的背景像素上分配高權重,以幫助訓練過程更多地關注對地標定位至關重要的像素。爲了進一步提高面部對準精度,我們引入邊界預測和CoordConv與邊界座標。包括COFW,300W和WFLW在內的不同基準測試的廣泛實驗表明,我們的方法在各種評估指標上的表現優於現有技術水平。此外,自適應翼損也有助於其他熱圖迴歸任務。代碼將公開發布。

Real Image Denoising with Feature Attention
Authors Saeed Anwar, Nick Barnes
深度卷積神經網絡在包含空間不變噪聲合成噪聲的圖像上表現更好,但是它們的性能受限於真實的噪聲照片並且需要多級網絡建模。爲了提高去噪算法的實用性,本文提出了一種採用模塊化結構的新型單級盲實時圖像去噪網絡RIDNet。我們在殘差結構上使用殘差來減輕低頻信息的流動,並應用特徵注意來利用信道依賴性。此外,針對19個最先進算法的三個合成和四個真實噪聲數據集的定量度量和視覺質量方面的評估證明了我們的RIDNet的優越性。

NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection
Authors Golnaz Ghiasi, Tsung Yi Lin, Ruoming Pang, Quoc V. Le
用於物體檢測的現有技術卷積架構是手動設計的。在這裏,我們的目標是爲對象檢測學習更好的特徵金字塔網絡架構。我們採用神經架構搜索,在一個涵蓋所有跨尺度連接的新型可擴展搜索空間中發現新的特徵金字塔架構。這個被發現的架構名爲NAS FPN,由自上而下和自下而上連接組合而成,可以跨越秤進行融合。與現有技術的對象檢測模型相比,NAS FPN與RetinaNet框架中的各種骨幹模型相結合,實現了更好的準確性和延遲權衡。與具有32的MobileNetV2模型的最先進的SSDLite相比,NAS FPN將移動檢測精度提高了2 AP,並且實現了48.3 AP,其超過了掩模R CNN 10檢測精度,並且計算時間更短。

Custom Video-Oculography Device and Its Application to Fourth Purkinje Image Detection during Saccades
Authors Evgeniy Abdulin, Lee Friedman, Oleg Komogortsev
我們構建了一個基於自定義視頻的眼動儀,將每個視頻幀保存爲全分辨率圖像MJPEG。可以離線處理圖像以檢測眼部特徵,包括瞳孔和角膜反射第一浦肯野圖像,P1位置。可以進行用於檢測瞳孔和角膜反射的多種算法的比較。該系統提供高度靈活的刺激創建,混合圖形,圖像和視頻刺激。我們可以根據所需的圖像質量和幀速率更換相機和紅外照明器。使用該系統,我們檢測到第四浦肯野圖像P4在幀中的位置。我們表明,當我們通過計算P1 P4來估計凝視時,信號與用DPI眼動儀估計的凝視很好地比較,DPI眼動儀本地檢測並跟蹤P1和P4。

Polarimetric Thermal to Visible Face Verification via Self-Attention Guided Synthesis
Authors Xing Di, Benjamin S. Riggan, Shuowen Hu, Nathaniel J. Short, Vishal M. Patel
極化熱到可見面驗證需要匹配包含顯着域差異的兩個圖像。最近的幾種方法試圖從熱圖像合成可見面以進行交叉模態匹配。在本文中,我們採用不同的方法,而不是隻關注從熱面合成可見面,我們還建議從可見面合成熱面。我們的直覺是基於這樣一個事實,即熱圖像還包含一些關於驗證人的判別信息。來自預訓練的卷積神經網絡CNN的深度特徵從原始圖像和合成圖像中提取。然後融合這些特徵以生成模板,然後將其用於驗證。所提出的合成網絡基於自我關注生成對抗網絡SAGAN,其基本上允許有效的注意力引導圖像合成。對ARL極化熱面數據集的大量實驗表明,所提出的方法實現了最先進的性能。

Characterizing the Variability in Face Recognition Accuracy Relative to Race
Authors Krishnapriya K. S, Kushal Vangara, Michael C. King, Vitor Albiero, Kevin Bowyer
最近的許多新聞標題都將人臉識別技術稱爲偏見或種族主義。我們報告了對MORPH數據集的非洲裔美國人和高加索人圖像羣組之間人臉識別準確度差異的系統調查。我們發現,對於所考慮的所有四個匹配者,冒名頂替者和真實分佈在羣組之間在統計上顯着不同。對於固定的決策閾值,非裔美國人圖像羣組具有較高的錯誤匹配率和較低的錯誤非匹配率。 ROC曲線以相同的錯誤匹配率比較驗證速率,但不同的羣組在不同的閾值處實現相同的錯誤匹配率。這意味着ROC比較與使用固定決策閾值的操作方案無關。我們證明,對於ResNet匹配器,這兩個隊列的冒充者和真實分佈大致相等。使用ICAO合規性作爲圖像質量的標準,我們發現初始圖像羣組具有不等的高質量圖像率。符合ICAO標準的原始圖像羣組子集顯示出改進的準確性,主要效果是降低真實分佈的低相似性尾部。

A Realistic Dataset and Baseline Temporal Model for Early Drowsiness Detection
Authors Reza Ghoddoosian, Marnim Galib, Vassilis Athitsos
嗜睡會使許多司機和工人的生命處於危險之中。設計實用且易於部署的真實世界系統以檢測睏倦的發生是非常重要的。在本文中,我們解決了早期睏倦檢測,它可以提供早期警報併爲受試者提供充足的反應時間。我們提供了一個包含60個主題的大型公共真實數據集,其視頻片段標記爲警報,低警惕或昏昏欲睡。該數據集包含大約30小時的視頻,內容範圍從嗜睡的微妙跡象到更明顯的。我們還對數據集的時間模型進行基準測試,該模型具有較低的計算和存儲需求。我們提出的方法的核心是分層多尺度長短期記憶HM LSTM網絡,其由依次檢測到的閃爍特徵饋送。我們的實驗證明了連續眨眼特徵和睏倦之間的關係。在實驗結果中,我們的基線方法比人類判斷產生更高的準確性。

Automatic adaptation of object detectors to new domains using self-training
Authors Aruni RoyChowdhury, Prithvijit Chakrabarty, Ashish Singh, SouYoung Jin, Huaizu Jiang, Liangliang Cao, Erik Learned Miller
該工作解決了現有對象檢測器對新目標域的無監督調整問題。我們假設此域中的大量未標記視頻隨時可用。我們通過使用來自現有檢測器的高置信度檢測自動獲得目標數據上的標籤,並通過使用跟蹤器利用時間線索獲得的硬錯誤分類示例進行擴充。然後,這些自動獲得的標籤用於重新訓練原始模型。提出了修改後的知識蒸餾損失,並且我們研究了從目標域向訓練樣本分配軟標籤的幾種方法。我們的方法是根據挑戰性的面部和行人檢測任務進行經驗評估,面部檢測器在WIDER Face上進行訓練,該面部檢測器由從網絡爬行的高質量圖像組成,適用於大型監視數據集,行人檢測器使用清晰的白天圖像進行訓練。 BDD 100K駕駛數據集適用於所有其他場景,如下雨,有霧,夜間。我們的結果證明了結合從跟蹤獲得的硬實例,通過蒸餾損失與硬標籤使用軟標籤的優點的有用性,並且顯示出有希望的性能作爲對象檢測器的無監督域自適應的簡單方法,對超參數的依賴性最小。

Fast Inference in Capsule Networks Using Accumulated Routing Coefficients
Authors Zhen Zhao, Ashley Kleinhans, Gursharan Sandhu, Ishan Patel, K. P. Unnikrishnan
我們通過利用關於鏈接相鄰網絡層之間的膠囊的路由係數的關鍵洞察,提出了一種用於膠囊網絡封裝網絡中的快速推理的方法。由於路由係數負責將對象部分分配給整體,並且整個對象通常包含類似的類內和不同的類間部分,因此路由係數傾向於爲每個對象類形成唯一的簽名。爲了快速推理,首先使用來自訓練數據集的示例以通常的方式訓練網絡。之後,與訓練樣本相關聯的路由係數被離線累積並用於創建一組主路由係數。在推理期間,使用這些主路由係數代替動態計算的路由係數。我們的方法通過單個矩陣乘法運算有效地替換了動態路由過程中的for循環迭代,從而顯着提高了推理速度。與動態路由過程相比,快速推理降低了MNIST,背景MNIST,時尚MNIST和旋轉MNIST數據集的測試精度,小於0.5,CIFAR10大約爲5。

Automatic alignment of surgical videos using kinematic data
Authors H. Ismail Fawaz, G. Forestier, J. Weber, F. Petitjean, L. Idoumghar, P. Muller
在過去的一百年中,經典的教學方法是看一個,做一個,教一個已經統治了全世界的外科教育系統。隨着手術室2.0的出現,在手術期間記錄視頻,運動學和許多其他類型的數據變得容易,因此允許人工智能系統被部署並用於外科和醫療實踐。最近,外科視頻已被證明可提供同伴輔導的結構,使新手學員能夠通過重播這些視頻向有經驗的外科醫生學習。然而,外科手術持續時間和執行中的高操作員間可變性使得從比較新手到專家外科手術視頻的學習成爲非常困難的任務。在本文中,我們提出了一種新技術,可以根據相應的運動多變量時間序列數據的對齊來對齊多個視頻。通過利用動態時間扭曲測量,我們的算法同步一組視頻,以顯示以不同速度執行的相同手勢。我們相信所提議的方法是對現有的手術學習工具的有價值的補充。

Brain Tumor Segmentation on MRI with Missing Modalities
Authors Yan Shen, Mingchen Gao
來自磁共振成像的腦腫瘤分割MRI是早期診斷的關鍵技術。然而,不像BraTS數據集中那樣具有完整的四種模態,在臨牀情景中通常缺少模態。我們設計了一種腦腫瘤分割算法,該算法對於沒有任何形態是穩健的。我們的網絡包括信道獨立編碼路徑和特徵融合解碼路徑。我們通過信道丟失使用自我監督訓練,並在特徵地圖上提出一種新的域自適應方法,以從丟失的信道中恢復信息。我們的結果表明,分割的質量取決於缺少哪種形態。此外,我們還討論並可視化每種模態對分割結果的貢獻。他們的貢獻與專家篩選程序一致。

A deep learning model for early prediction of Alzheimer's disease dementia based on hippocampal MRI
Authors Hongming Li, Mohamad Habes, David A. Wolk, Yong Fan
引言在基線時,預測何時以及符合輕度認知障礙MCI標準的個體將最終發展爲阿爾茨海默病AD癡呆症具有挑戰性。方法基於2146名受試者的MRI掃描開發和驗證深度學習方法803用於訓練,1343用於驗證以預測MCI受試者在事件分析設置中進展爲AD癡呆。結果深度學習時間事件模型預測個體受試者進展爲AD癡呆,其中一致性指數C指數爲0.762,對439例ADNI測試MCI受試者,隨訪時間爲6至78個月四分位數24,42,54,C指數爲0.781在40名AIBL測試MCI受試者,隨訪時間從18 54個月四分之一18,36,54。預測的進展風險還將個體受試者聚集成亞組,其與AD癡呆的進展時間顯着不同p 0.0002。當基於深度學習的進展風險與基線臨牀測量相結合時,獲得了用於預測AD癡呆進展C指數0.864的改進性能。結論我們的方法提供了一種具有成本效益和準確的預後手段,並可能促進臨牀試驗中與可能在特定時間段內進展的個體的登記。

Focus Is All You Need: Loss Functions For Event-based Vision
Authors Guillermo Gallego, Mathias Gehrig, Davide Scaramuzza
事件相機是新穎的視覺傳感器,輸出像素級亮度變化事件而不是傳統視頻幀。這些異步傳感器提供了優於傳統相機的若干優點,例如高時間分辨率,非常高的動態範圍和無運動模糊。爲了解鎖這種傳感器的潛力,最近提出了運動補償方法。我們提出了二十二個目標函數的集合和分類,以分析運動補償方法中的事件對齊圖1。我們將它們稱爲焦點丟失功能,因爲它們與焦點應用中傳統形狀中使用的功能有很強的聯繫。建議的損失功能允許將成熟的計算機視覺工具帶到事件相機領域。我們比較了公開數據集上所有損失函數的準確性和運行時性能,並得出結論:方差,梯度和拉普拉斯量值是最佳損失函數之一。損失函數的適用性顯示在多個任務旋轉運動,深度和光流估計上。建議的焦點丟失功能可以解鎖事件相機的突出特性。

Estimation of Linear Motion in Dense Crowd Videos using Langevin Model
Authors Shreetam Behera, Debi Prosad Dogra, Malay Kumar Bandyopadhyay, Partha Pratim Roy
社會和文化活動中的人羣聚會隨着人口的增加而突飛猛進。通過計算機視覺和專家決策系統進行監控有助於瞭解大型聚會中的人羣現象。瞭解人羣現象有助於及早識別不需要的事件及其預防。運動流是重要的人羣現象之一,可以有助於描述人羣行爲。流可以用於理解人羣中的不穩定性。然而,由於人羣移動中的隨機性和傳感設備的限制,提取運動流是一項具有挑戰性的任務。此外,如果隨機性很高,諸如光流的低級特徵可能會產生誤導。在本文中,我們提出了一個基於Langevin方程的新模型來分析密集擁擠場景的視頻中的線性主導流。我們假設一個力模型有三個組成部分,即外力,約束漂移力和擾動力。發現這些力足以描述密集人羣視頻中的線性或近線性運動。與現有的流行人羣分割方法相比,該方法明顯更快。已經在公開可用的數據集上以及使用我們的數據集對所提出的模型進行了評估。已經觀察到,與現有技術相比,所提出的方法能夠以更高的精度估計和分割密集人羣中的線性流,並且計算開銷顯着降低。

End-to-End Robotic Reinforcement Learning without Reward Engineering
Authors Avi Singh, Larry Yang, Kristian Hartikainen, Chelsea Finn, Sergey Levine
深度神經網絡模型和強化學習算法的結合使得有可能學習直接讀取原始感覺輸入的機器人行爲的策略,例如相機圖像,有效地將估計和控制都包含在一個模型中。然而,強化學習的現實世界應用必須通過手動編程的獎勵函數來指定任務的目標,這在實踐中需要設計相同的感知管道,端到端強化學習有望避免,或者檢測環境使用其他傳感器來確定任務是否已成功執行。在本文中,我們提出了一種方法,通過使機器人從少量成功結果的示例中學習,然後主動請求查詢,機器人向用戶顯示狀態並詢問,從而消除對獎勵規範的手動工程的需要。用於標籤以確定該狀態是否表示任務的成功完成。雖然爲每個州申請標籤等於要求用戶手動提供獎勵信號,但我們的方法只需要在培訓期間看到的一小部分狀態的標籤,使其成爲學習技能的有效和實用的方法,而無需手動設計獎勵。我們在現實世界的機器人操作任務上評估我們的方法,其中觀察包括由機器人的相機觀察的圖像。在我們的實驗中,我們的方法有效地學習直接從圖像中排列對象,放置書籍和懸垂布料,而無需任何手動指定的獎勵功能,並且與現實世界僅進行了1 4小時的交互。

Unsupervised Discovery of Multimodal Links in Multi-Image, Multi-Sentence Documents
Authors Jack Hessel, Lillian Lee, David Mimno
圖像和文本在網絡上的任何地方都會出現,但圖像和句子或其他文檔內文本單元之間的顯式鏈接通常不會被用戶註釋。我們提出了成功發現圖像句子關係的算法,而不依賴於任何顯式的多模態註釋。我們在七個不同難度的數據集上探索了我們的方法的幾種變體,範圍從人羣工作者事後標題的圖像到自然發生的用戶生成的多模式文檔,其中插圖和單個文本單元之間的對應關係可能不是一對一的。我們發現基於識別圖像和句子組合是否出現在文檔中的結構化訓練目標足以在測試時預測特定句子與同一文檔內的特定圖像之間的鏈接。

Persistence Curves: A canonical framework for summarizing persistence diagrams
Authors Yu Min Chung, Austin Lawson
持久性圖是拓撲數據分析TDA領域的主要工具。它們包含有關數據形狀的豐富信息。由於空間複雜,在持久性圖空間中使用機器學習算法證明是具有挑戰性的。因此,總結和矢量化這些圖表是目前在TDA中研究的一個重要主題。在這項工作中,我們提供了一個總結框架的總體框架,我們稱之爲Persistence Curves PC。主要觀點是所謂的持久同源的基本引理,它源於經典的老年統治。在這個框架下,某些衆所周知的摘要,例如持久性Betti數和持久性格局,都是PC的特例。此外,我們證明了對一般家庭PC的嚴格約束。特別是,某些PC系列在額外的假設下承認穩定性。最後,我們將PC應用於四個衆所周知的紋理數據集上的紋理分類。結果優於現有的幾種TDA方法。

Three scenarios for continual learning
Authors Gido M. van de Ven, Andreas S. Tolias
標準的人工神經網絡遭受衆所周知的災難性遺忘問題,使機器學習難以持續或終身學習。近年來,已經提出了許多用於連續學習的方法,但是由於評估協議的差異,難以直接比較它們的性能。爲了實現更有條理的比較,我們根據是否在測試時提供了任務標識以及是否必須推斷出任務標識來描述三種持續學習方案。可以根據每個場景執行任何明確定義的任務序列。使用拆分和置換的MNIST任務協議,對於每個場景,我們對最近提出的連續學習方法進行了廣泛的比較。我們在難度和不同方法的效率方面證明了三種情景之間的實質性差異。特別是,當必須推斷出任務標識,即類增量學習時,我們發現基於正則化的方法,例如彈性權重合並失敗,並且似乎需要重現先前經驗的表示來解決該場景。

RES-PCA: A Scalable Approach to Recovering Low-rank Matrices
Authors Chong Peng, Chenglizhao Chen, Zhao Kang, Jianbo Li, Qiang Cheng
強大的主成分分析RPCA因其在恢復低秩矩陣方面的強大功能以及各種現實問題中的成功應用而備受關注。當前現有技術的算法通常需要求解大矩陣的奇異值分解,其通常至少具有二次或甚至三次複雜度。這個缺點限制了RPCA在解決現實世界問題中的應用。爲了克服這個缺點,在本文中,我們提出了一種新型的RPCA方法RES PCA,它在數據大小和維度上都具有線性效率和可擴展性。爲了進行比較,AltProj是RPCA的現有可擴展方法,需要精確知道真正的等級,否則可能無法恢復低等級矩陣。相比之下,即使兩種方法都有效,我們的方法也可以使用或不知道真正的等級,我們的方法更快。已經進行了大量的實驗,並且證明了所提出的方法在定量和視覺質量方面的有效性,這表明我們的方法適合在任何應用管道中用作RPCA的輕量級,可擴展的組件。

Discriminative Regression Machine: A Classifier for High-Dimensional Data or Imbalanced Data
Authors Chong Peng, Qiang Cheng
我們在本文中引入了一種監督分類的判別迴歸方法。它在考慮類之間的判別性的同時估計表示模型,從而能夠準確地推導出分類信息。這種新型的迴歸模型通過明確地結合判別信息來擴展現有模型,例如嶺,套索和組套索。作爲一個特例,我們專注於一個允許封閉形式分析解決方案的二次模型。相應的分類器稱爲判別迴歸機DRM。進一步爲DRM建立了三種迭代算法,以提高實際應用的效率和可擴展性。我們的方法和算法適用於一般類型的數據,包括圖像,高維數據和不平衡數據。我們將DRM與當前最先進的分類器進行比較。我們廣泛的實驗結果表明DRM具有優越的性能,並證實了該方法的有效性。

Object-Oriented Dynamics Learning through Multi-Level Abstraction
Authors Guangxiang Zhu, Jianhao Wang, Zhizhou Ren, Chongjie Zhang
用於學習動作條件動力學的基於對象的方法已經證明了泛化和可解釋性的前景。然而,現有方法遭受具有多個動態對象的常見環境的結構限制和優化困難。在本文中,我們提出了一種新穎的自監督學習框架,稱爲多級抽象面向對象預測器MAOP,它採用三級學習架構,能夠從原始視覺觀察中進行有效的基於對象的動態學習。我們還爲MAOP設計了一種空間時間關係推理機制,以支持實例級動態學習並處理部分可觀察性。我們的研究結果表明,MAOP在樣本效率方面明顯優於以前的方法,並且在學習環境模型的新環境中具有廣泛性。我們還證明,學習動力學模型能夠在看不見的環境中進行有效規劃,與真實環境模型相比。此外,MAOP學習語義和視覺上可解釋的解開的表示。

Counterfactual Visual Explanations
Authors Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh, Stefan Lee
反事實查詢通常具有形式對於情況X,爲什麼結果是Y而不是Z.對這種查詢的反事實解釋或迴應的形式如果X是X,則結果將是Z而不是Y.

Suction Grasp Region Prediction using Self-supervised Learning for Object Picking in Dense Clutter
Authors Quanquan Shao, Jie Hu, Weiming Wang, Yi Fang, Wenhai Liu, Jin Qi, Jin Ma
本文重點介紹雜亂場景中的機器人拾取任務。由於姿勢,堆垛類型和揀選情況下複雜背景的多樣性,在抓住它們之前很難識別和估計它們的姿勢。在這裏,本文結合Resnet和U網結構,一個卷積神經網絡CNN的特殊框架,預測採摘區域無需識別和姿態估計。它使機器人揀選系統從頭開始學習揀選技巧。與此同時,我們通過在線樣本對端到端的網絡進行培訓。在本文的最後,進行了幾個實驗來證明我們的方法的性能。

Combining RGB and Points to Predict Grasping Region for Robotic Bin-Picking
Authors Quanquan Shao, Jie Hu
本文重點介紹雜亂場景中的機器人拾取任務。由於物體的多樣性和放置的雜亂,在抓握之前很難識別和估計它們的姿勢。在這裏,我們使用U net,一種特殊的卷積神經網絡CNN,將RGB圖像和深度信息結合起來預測拾取區域,而無需識別和姿態估計。比較了網絡的各種視覺輸入的效率,包括RGB,RGB D和RGB點。我們發現RGB點輸入可以獲得95.74的精度。

Predicting Fluid Intelligence of Children using T1-weighted MR Images and a StackNet
Authors Po Yu Kao, Angela Zhang, Michael Goebel, Jefferson W. Chen, B.S. Manjunath
在這項工作中,我們利用T1加權MR圖像和StackNet來預測青少年的流體智力。我們的框架包括特徵提取,特徵標準化,特徵去噪,特徵選擇,訓練StackNet和預測流體智能。提取的特徵是不同腦分割區域中不同腦組織的分佈。擬議的StackNet由三層和11個模型組成。每個圖層都使用包含輸入圖層在內的所有先前圖層的預測。建議的StackNet在公共基準青少年腦認知發展神經認知預測挑戰2019上進行測試,並在組合訓練和驗證集上實現了82.42的平均絕對誤差,具有10倍交叉驗證。

Exploiting Computation Power of Blockchain for Biomedical Image Segmentation
Authors Boyang Li, Changhao Chenli, Xiaowei Xu, Taeho Jung, Yiyu Shi
基於深度神經網絡的生物醫學圖像分割DNN是一種有助於臨牀診斷的有前景的方法。這種方法需要巨大的計算能力,因爲這些DNN模型是複雜的,並且訓練數據的大小通常非常大。隨着基於工作證明PoW的區塊鏈技術被廣泛使用,維持了大量的計算能力PoW共識。在本文中,我們提出了一種設計,利用區塊鏈礦工的計算能力進行生物醫學圖像分割,讓礦工進行圖像分割作爲有用工作PoUW的證明,而不是計算使用較少的哈希值。這項工作通過解決相關其他方面的各種限制而與其他產品區別開來。如第5節所示的開銷評估表明,對於U net和FCN,數字信號特性的平均開銷分別爲1.25秒和0.98秒,以及平均開銷。網絡分別爲3.77秒和3.01秒。這些定量實驗結果證明,數字簽名和網絡的開銷很小,可與其他現有的PoUW設計相媲美。

Natural Language Semantics With Pictures: Some Language & Vision Datasets and Potential Uses for Computational Semantics
Authors David Schlangen
在深度學習革命的推動和推動下,近年來已經看到引入了更大的用自然語言表達註釋的圖像語料庫。我們通過將圖像視爲自然語言表達的語義標註,採用一種反映通常方向性的視角,對這些語料庫進行了調查。我們討論可以從語料庫中導出的數據集,以及可以在那些上定義的計算語義學家可能感興趣的任務。在這裏,我們利用語料庫提供的關係,即表達和圖像之間的聯繫,以及鏈接到同一圖像和關係的兩個表達之間的關係,我們可以在表達之間或圖像之間添加相似關係。具體來說,我們通過這種方式表明,我們可以創建可用於學習和評估詞彙和構成基礎語義的數據,並且我們表明鏈接到相同的圖像關係會跟蹤註釋器即使在沒有註釋器時也能識別的語義蘊涵關係。鏈接圖像作爲證據。最後,作爲這種方法可能帶來的好處的一個例子,我們表明基於示例模型的暗示方法勝過一個基於某些派生數據集的簡單分佈空間,同時有助於解釋。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
pic from pixels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章