【AI視野·今日CV 計算機視覺論文速覽 第182期】Fri, 10 Apr 2020

AI視野·今日CS.CV 計算機視覺論文速覽
Fri, 10-11 Apr 2020
Totally 55 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚*****神經渲染技術前沿,綜述了目前前沿的神經渲染技術及其應用,包括圖像操控,內容合成、新視角合成、自由視點、重光照模型、人臉、肢體重建等等。 (from MPI Informatics,Stanford University,Technical University of Munich,Facebook Reality Labs ,Adobe Research ,Google)
在這裏插入圖片描述

📚****基於可編程LED照片整列的虛擬熒光顯微鏡, (from 杜克大學 谷歌)
在這裏插入圖片描述
標準和優化後的照明模式下得到的顯微結果:
在這裏插入圖片描述
實驗結果如下:
在這裏插入圖片描述
project:www.github.com/clvcooke/virtual-fluorescence

📚*****基於深度補全的3D立體照相成像技術, 提出了一種將單張RGBD圖像轉換爲多視角合成的3D照片的方法,基於多層表達並利用層級深度圖像和隱式的像素連續性表達來得到遮擋區域的色彩和深度信息。(from 弗吉尼亞理工)
在這裏插入圖片描述
深度和彩色圖像補全流程:
在這裏插入圖片描述
補全後的結果對比:
在這裏插入圖片描述
code:https://shihmengli.github.io/3D-Photo-Inpainting


📚****ARCH人體服裝動作渲染模型, 基於二維圖像輸入實現三維人體着裝模型重建和遷移(from facebook reality lab)
在這裏插入圖片描述
模型中使用的可差分渲染結果:
在這裏插入圖片描述

dataset:
 RenderPeople dataset:http://renderpeople.com
 AXYZ2 dataset: http://secure.axyz- design.com/
 BUFF dataset:Detailed, accurate, human shape estimation from clothed 3D scan sequences.

📚Co- Section三維動態場景重建方法,基於物體間的重合約束來推理出隱藏面的形狀信息,其中物體級別的slam前段用於檢測、分割、跟蹤和映射場景目標,而後段則利用hull和物體間交叉重合約束來實現形狀補全。 (from 馬普研究所 Embodied Vision Group 圖賓根)
在這裏插入圖片描述
交叉約束的示意圖:
在這裏插入圖片描述
一些對動態目標的重建結果及其比較:
在這裏插入圖片描述

📚****用於多視角重建的神經描述子, 提出了一種高效的多類可學習目標描述子,結合了概率和可差分渲染引起,可以從單張或多張RGB-D圖像中推理出目標形狀(from 帝國理工 Dyson Robotics Lab)
在這裏插入圖片描述
使用的佔據自編碼器和優化框架,通過迭代循環來獲取最終的描述子 :
在這裏插入圖片描述在這裏插入圖片描述

📚MirrorNet基於深度貝葉斯網絡的人體位姿檢測模型, (from 早稻田大學)
在這裏插入圖片描述
系統架構如下圖所示:
在這裏插入圖片描述

📚弱監督點雲分割方法, (from )
在這裏插入圖片描述在這裏插入圖片描述
code:https://github.com/alex-xun-xu/WeakSupPointCloudSeg

📚TuiGAN多功能的條件生成模型用於未配對圖像間的圖像風格遷移, (from 中科大 微軟亞洲研究院)
在這裏插入圖片描述
生成器的架構:
在這裏插入圖片描述
一些圖像間的遷移結果:
在這裏插入圖片描述
code:https://github.com/linjx-ustc1106/TuiGAN-PyTorch

📚****LIGHTCONVPOINT用於點雲分割的模型, (from valeo.ai)
在這裏插入圖片描述
估計核與點之間的聯繫矩陣A:
在這裏插入圖片描述

📚MoreFusion多目標6D位姿推理, (from 帝國理工戴森實驗室)
在這裏插入圖片描述
基於RGBD的位姿預測網絡:
在這裏插入圖片描述
ref code:https://github.com/j96w/DenseFusion

📚基於2D圖像的三維紋理網格生成模型, (from IST Austria & ibm)
在這裏插入圖片描述

📚JHU-CROWD++人羣密度檢測數據集, (from 約翰霍普金斯)
在這裏插入圖片描述
在這裏插入圖片描述

web: http://www.crowd- counting.com

more:
基於注意力機制和特徵融合的圖像超分辨
物種地理空間分佈The GeoLifeCLEF 2020 Dataset
基於航空圖像和板在圖像的野外道路的順滑行駛
MNIST-MIX多語言手寫數字識別系統
SA-UNet視網膜血管分割模型,數據集:Vascular Extraction (DRIVE) dataset,Child Heart and Health Study (CHASE_DB1) dataset
基於深度殘差網絡的視網膜血管分割,數據集:IOSTAR www.retinacheck.org RC-SLO www.retinacheck.org
基於多任務深度學習的COVID-19檢測
基於深度特徵融合與排序技術的COVID-19分類
TypeNet基於鍵盤按鍵過程的生物特徵,dataset typeDNA:Observations on typing from 136 million keystrokes

Daily Computer Vision Papers

X3D: Expanding Architectures for Efficient Video Recognition
Authors Christoph Feichtenhofer
本文介紹了X3D,這是一個有效的視頻網絡系列,它沿空間,時間,寬度和深度的多個網絡軸逐步擴展了微小的2D圖像分類體系結構。受到機器學習中特徵選擇方法的啓發,採用了一種簡單的逐步網絡擴展方法,該方法在每個步驟中都擴展了單個軸,從而實現了在複雜度折衷方面的良好準確性。爲了將X3D擴展到特定的目標複雜度,我們執行漸進式正向擴展,然後進行反向收縮。 X3D達到了最先進的性能,同時所需的乘法加法和參數減少了4.8倍和5.5倍,以達到與以前的工作類似的精度。我們最令人驚訝的發現是,具有高時空分辨率的網絡可以很好地運行,而在網絡寬度和參數方面卻非常輕。我們在視頻分類和檢測基準方面以前所未有的效率報告了具有競爭力的準確性。代碼將在以下位置提供

3D Photography using Context-aware Layered Depth Inpainting
Authors Meng Li Shih, Shih Yang Su, Johannes Kopf, Jia Bin Huang
我們提出了一種用於將單個RGB D輸入圖像轉換爲3D照片的方法,以用於新穎視圖合成的多層表示形式,該方法在原始視圖中包含的區域包含幻覺的顏色和深度結構。我們使用具有顯式像素連通性的分層深度圖像作爲基礎表示,並提出一種基於學習的修復模型,該模型以空間上下文感知的方式將新的局部顏色和深度內容合成到被遮擋的區域中。使用標準圖形引擎,可以使用運動視差有效地渲染生成的3D照片。我們在各種具有挑戰性的日常場景中驗證了我們方法的有效性,並且與現有技術相比,所顯示的僞像更少。

Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection
Authors Zhongzheng Ren, Zhiding Yu, Xiaodong Yang, Ming Yu Liu, Yong Jae Lee, Alexander G. Schwing, Jan Kautz
通過減少訓練過程中對強大監督的需求,弱監督學習已成爲一種用於目標檢測的引人注目的工具。然而,主要挑戰仍然是1。對象實例的區分可能是模棱兩可的。2)檢測器傾向於集中於區分部分而不是整個對象。3沒有地面真理,對象建議對於高召回率必須是多餘的,從而導致大量內存消耗。解決這些挑戰非常困難,因爲通常需要消除不確定性和簡單的解決方案。爲了解決這些問題,我們開發了一個實例感知和上下文相關的統一框架。它採用實例感知的自我訓練算法和可學習的具體DropBlock,同時設計了內存有效的順序批處理反向傳播。我們提出的方法在COCO 12.1 AP,24.8 AP 50,VOC 2007 54.9 AP和VOC 2012 52.1 AP上達到了最先進的結果,大大提高了基線。此外,該方法是第一個對基於ResNet的模型和弱監督視頻對象檢測進行基準測試的方法。請參閱我們的項目頁面以獲取代碼,模型和更多詳細信息

Scalable Active Learning for Object Detection
Authors Elmar Haussmann, Michele Fenzi, Kashyap Chitta, Jan Ivanecky, Hanson Xu, Donna Roy, Akshita Mittel, Nicolas Koumchatzky, Clement Farabet, Jose M. Alvarez
以完全監督的方式訓練的深度神經網絡是基於感知的自動駕駛系統中的主導技術。儘管收集大量未標記的數據已經是一項重要的工作,但是由於需要高質量的註釋,因此人類只能對其中的一部分進行標記。因此,尋找正確的數據進行標記已成爲一項關鍵挑戰。主動學習是一種有力的技術,可以提高監督學習方法的數據效率,因爲它的目的是選擇儘可能小的訓練集以達到要求的性能。我們建立了可擴展的生產系統,用於自動駕駛領域的主動學習。在本文中,我們描述了由此產生的高級設計,概述了一些挑戰及其解決方案,大規模地介紹了我們目前的結果,並簡要描述了未解決的問題和未來的方向。

TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired Images
Authors Jianxin Lin, Yingxue Pang, Yingce Xia, Zhibo Chen, Jiebo Luo
無監督的圖像到圖像的轉換UI2I任務處理學習沒有配對圖像的兩個域之間的映射。現有的UI2I方法通常需要來自不同域的大量不成對的圖像進行訓練,但是在許多情況下,訓練數據非常有限。在本文中,我們認爲即使每個域都包含單個圖像,仍可以實現UI2I。爲此,我們提出了TuiGAN,這是一種生成模型,僅在兩幅不成對的圖像上進行訓練,相當於一次射擊的無監督學習。使用TuiGAN,可以將圖像以粗糙到精細的方式進行轉換,然後將生成的圖像從全局結構逐步細化爲局部細節。我們進行了廣泛的實驗,以驗證我們的通用方法可以勝任各種UI2I任務的強基準。此外,TuiGAN能夠與訓練有足夠數據的最新UI2I模型取得可比的性能。

Where Does It End? -- Reasoning About Hidden Surfaces by Object Intersection Constraints
Authors Michael Strecke, Joerg Stueckler
動態場景理解是機器人技術和VR AR的基本功能。在本文中,我們提出了Co Section,這是一種基於優化的3D動態場景重構方法,可以從相交約束中推斷出隱藏的形狀信息。對象級動態SLAM前端可以檢測,分割,跟蹤和映射場景中的動態對象。我們的優化後端使用對象之間的外殼和相交約束來完善形狀。在實驗中,我們演示了在真實和合成動態場景數據集上的方法。我們還定量評估了我們方法的形狀完成性能。據我們所知,我們的方法是在能量最小化框架中將此類物理合理性約束併入對象相交處以完成動態對象的形狀的第一種方法。

AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching
Authors Xiao Song, Guorun Yang, Xinge Zhu, Hui Zhou, Zhe Wang, Jianping Shi
在本文中,我們嘗試解決深度立體聲匹配網絡的域自適應問題。與其求助於黑匣子結構或層來尋找跨域的隱式連接,我們不如研究立體聲匹配的適應缺口。通過目視檢查和廣泛的實驗,我們得出結論,低水平對齊對於自適應立體聲匹配至關重要,因爲跨域的主要差距在於輸入顏色和成本量分佈的不一致。相應地,我們設計了一種自底向上的域自適應方法,其中提出了兩種特定的方法,即顏色轉移和成本正則化,可以很容易地將其集成到現有的立體聲匹配模型中。通過顏色傳輸,可以在訓練過程中將大量合成數據傳輸到具有目標域的相同顏色空間。成本正則化可以進一步將較低層的功能和成本量限制在域不變分佈中。儘管我們提出的策略很簡單並且沒有可供學習的參數,但是它們確實可以極大地提高現有視差網絡的泛化能力。我們跨多個數據集進行實驗,包括場景流,KITTI,Middlebury,ETH3D和DrivingStereo。與以前的領域不變方法相比,我們的合成數據預訓練模型在沒有哨聲的情況下達到了最新的跨領域性能,甚至在多個立體聲匹配基準上用目標領域的基本情況進行了微調的先進的視差網絡也是如此。

Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
Authors Yude Wang, Jie Zhang, Meina Kan, Shiguang Shan, Xilin Chen
圖像級別的弱監督語義分割是一個具有挑戰性的問題,近年來已對此進行了深入研究。大多數高級解決方案都利用類激活圖CAM。但是,由於全面監督與弱監督之間的差距,CAMs幾乎不能用作目標遮罩。在本文中,我們提出了一種自我監督的等方注意機制SEAM,以發現更多的監督並縮小差距。我們的方法基於這樣的觀察,即等方差是完全監督語義分割中的隱式約束,在數據增強期間,其像素級別標籤與輸入圖像具有相同的空間變換。但是,在圖像級監督訓練的CAM上失去了這種約束。因此,我們建議對來自各種變換圖像的預測CAM進行一致性正則化,以爲網絡學習提供自我監督。此外,我們提出了一種像素相關模塊PCM,該模塊利用上下文外觀信息並通過其相似的鄰居改進當前像素的預測,從而進一步提高CAM的一致性。在PASCAL VOC 2012數據集上進行的大量實驗表明,在相同的監督水平下,我們的方法優於最新方法。該代碼在線發佈。

Sequential Neural Rendering with Transformer
Authors Phong Nguyen Ha, Lam Huynh, Esa Rahtu, Janne Heikkila
本文解決了通過神經渲染合成新視圖的問題,其中我們有興趣根據其他觀點基於給定的一組輸入圖像來預測任意相機姿勢下的新視圖。使用已知的查詢姿勢和輸入姿勢,我們創建了一組有序的觀測值,這些觀測值可以通往目標視圖。因此,將單個新穎視圖合成的問題重新表述爲順序視圖預測任務。在本文中,提出的基於變壓器的生成查詢網絡T GQN通過添加兩個新概念擴展了神經渲染方法。首先,我們在上下文圖像之間使用多視圖注意力學習來獲取多個隱式場景表示。其次,我們引入順序渲染解碼器,根據學習的表示來預測圖像序列,包括目標視圖。我們在各種具有挑戰性的綜合數據集上評估了我們的模型,並證明了我們的模型可以給出一致的預測,並且比以前的體系結構更快地實現訓練收斂。

Spatial Information Guided Convolution for Real-Time RGBD Semantic Segmentation
Authors Lin Zhuo Chen, Zheng Lin, Ziqin Wang, Yong Liang Yang, Ming Ming Cheng
已知3D空間信息對於語義分割任務是有益的。大多數現有方法將3D空間數據作爲附加輸入,從而導致兩個流分割網絡分別處理RGB和3D空間信息。該解決方案大大增加了推理時間,並嚴重限制了其在實時應用中的範圍。爲了解決這個問題,我們提出了空間信息引導的卷積S Conv,它允許有效的RGB特徵和3D空間信息集成。 S Conv能夠根據3D空間信息推斷卷積核的採樣偏移量,從而幫助卷積層調整接收場並適應幾何變換。 S Conv還通過生成空間自適應卷積權重將幾何信息納入特徵學習過程。感知幾何的能力大大增強,而沒有太大影響參數的數量和計算成本。我們進一步將S Conv嵌入到稱爲空間信息導向卷積網絡SGNet的語義分割網絡中,從而實時推斷出NYUDv2和SUNRGBD數據集的性能。

A Proposed IoT Smart Trap using Computer Vision for Sustainable Pest Control in Coffee Culture
Authors Vitor Alexandre Campos Figueiredo, Samuel Mafra, Joel Rodrigues
物聯網物聯網正在作爲一種多用途技術而出現,它在改善多個領域的生活質量方面具有巨大的潛力。尤其是,物聯網已在農業中應用,以使其在生態上更具可持續性。例如,電子陷阱有可能在不使用任何農藥的情況下進行害蟲控制。在本文中,提出了一種具有IoT功能的智能陷阱,該陷阱使用計算機視覺來識別目標昆蟲。該解決方案包括1個帶有攝像頭,GPS傳感器和電機執行器的嵌入式系統2個作爲數據庫服務提供商的IoT中間件,以及3個通過可配置的熱圖顯示數據的Web應用程序。公開了所提出的解決方案的論據,並且主要結論是對人工林中有害生物濃度的認識以及作爲基於農藥的傳統防治方法的替代性有害生物防治方法的可行性。

Multi-Granularity Canonical Appearance Pooling for Remote Sensing Scene Classification
Authors S. Wang, Y. Guan, L. Shao
由於較大的視覺語義差異,識別遙感場景圖像仍然具有挑戰性。這些主要是由於缺少可用於將像素級別表示與高級語義標籤對齊的詳細註釋而引起的。由於標記過程是勞動密集型的並且是主觀的,因此我們提出一種新穎的多粒度規範化外觀合併MG CAP,以自動捕獲遙感數據集的潛在本體結構。我們設計了一個精細的框架,該框架允許逐步裁剪輸入圖像以學習多顆粒特徵。對於每個特定的粒度,我們從一組預定義的轉換中發現規範的外觀,並通過基於maxout的Siamese樣式體系結構學習相應的CNN功能。然後,我們用高斯協方差矩陣替換標準的CNN特徵,並採用適當的矩陣歸一化來提高特徵的判別能力。此外,我們爲在GPU中訓練特徵值分解函數EIG提供了穩定的解決方案,並使用矩陣演算演示了相應的反向傳播。大量實驗表明,我們的框架可以在公共遙感場景數據集中取得可喜的成果。

Neural Object Descriptors for Multi-View Shape Reconstruction
Authors Edgar Sucar, Kentaro Wada, Andrew Davison
場景表示的選擇對於它要求的形狀推斷算法和它啓用的智能應用程序都是至關重要的。我們提出了一種高效且可優化的多類學習對象描述符,以及一種新穎的概率和差分渲染引擎,用於從一個或多個RGB D圖像進行原理上的完整對象形狀推斷。我們的框架可實現準確而強大的3D對象重建,從而實現多種應用,包括機器人抓取和放置,增強現實以及能夠與相機軌跡一起優化對象姿態和形狀的第一個對象級SLAM系統。

LightConvPoint: convolution for points
Authors Alexandre Boulch, Gilles Puy, Renaud Marlet
用於點雲語義分割的最新技術水平是基於爲點雲定義的卷積。在本文中,我們提出了一種直接從圖像處理中的離散卷積設計的點雲卷積公式。所得公式強調了離散的內核空間與點所在的幾何空間之間的分隔。這兩個空間之間的鏈接是通過更改空間矩陣mathbf A完成的,該矩陣將輸入特徵分佈在卷積內核上。幾種現有的方法都屬於這種提法。我們表明,可以使用神經網絡輕鬆估計矩陣mathbfA。最後,我們在幾個語義分割基準上顯示出了有競爭力的結果,同時在計算時間和內存上都非常有效。

Decoupled Gradient Harmonized Detector for Partial Annotation: Application to Signet Ring Cell Detection
Authors Tiancheng Lin, Yuanfan Guo, Canqian Yang, Jiancheng Yang, Yi Xu
對印戒細胞癌的早期診斷大大提高了患者的生存率。由於缺乏公共數據集和專家級別的註釋,對印章環格SRC的自動檢測尚未進行深入研究。在MICCAI DigestPath2019挑戰中,除了前景SRC區域背景正常組織區域類別不平衡之外,由於昂貴的醫學圖像註釋會部分註釋SRC,這會引入額外的標籤噪聲。爲了同時解決這些問題,我們提出瞭解耦梯度協調機制DGHM並將其嵌入分類損失中,稱爲DGHM C損失。具體而言,除了陽性SRC和陰性正常組織樣本,我們還將噪聲樣本與乾淨樣本進一步分離,並分別協調分類中的相應梯度分佈。在沒有哨音的情況下,我們在挑戰賽中獲得了第二名。消融研究和受控的標籤缺失率實驗表明,DGHM C損失可以對部分註釋的對象檢測帶來實質性的改善。

CenterMask: single shot instance segmentation with point representation
Authors Yuqing Wang, Zhaoliang Xu, Hao Shen, Baoshan Cheng, Lirong Yang
本文提出了一種簡單,快速,準確的單鏡頭實例分割方法。一階段實例分割對象實例的區分和逐像素特徵對齊有兩個主要挑戰。因此,我們將實例分割分解爲兩個並行的子任務,即使在重疊條件下也可以將實例分離出來的局部形狀預測,以及將全局圖像以像素到像素的方式分割的全局顯着性。兩個分支的輸出被組裝以形成最終實例掩碼。爲了實現這一點,從對象中心點的表示中採用局部形狀信息。擬議的CenterMask從零開始進行了全面培訓,沒有任何風吹草動,使用具有挑戰性的COCO數據集的單一模型和單一規模的培訓測試,可以以12.3 fps的速度實現34.5蒙版AP。除TensorMask慢了5倍之外,其準確性比所有其他一級實例分割方法都高,這表明CenterMask的有效性。此外,我們的方法可以輕鬆地嵌入到其他一級物體檢測器(例如FCOS)中,並且性能良好,顯示了CenterMask的生成。

DeepSEE: Deep Disentangled Semantic Explorative Extreme Super-Resolution
Authors Marcel Christoph B hler, Andr s Romero, Radu Timofte
根據定義,超分辨率SR是不適當的。對於給定的低分辨率自然圖像,可能存在無限多個可能的高分辨率變體。這就是爲什麼基於示例的SR方法研究針對面部幻覺的放大係數高達4倍或8倍的原因。當前的大多數文獻都針對高重建保真度或照片逼真的感知質量的單一確定性解決方案。在這項工作中,我們提出了一個新穎的框架DeepSEE,用於深度解開的語義探索極度超分辨率。據我們所知,DeepSEE是第一種利用語義圖進行探索性超分辨率的方法。特別是,它提供了對語義區域,它們的不整齊外觀的控制,並允許進行廣泛的圖像處理。我們驗證DeepSEE的放大率高達32倍,並探索超分辨率的空間。

Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis
Authors Jogendra Nath Kundu, Siddharth Seth, Varun Jampani, Mugalodi Rakesh, R. Venkatesh Babu, Anirban Chakraborty
相機捕捉到的人體姿勢是多種變化來源的結果。有監督的3D姿勢估計方法的性能是以消除諸如形狀和外觀之類的變化爲代價的,這對於解決其他相關任務可能是有用的。結果,學習模型不僅灌輸任務偏差,而且灌輸數據集偏差,因爲它強烈依賴於帶註釋的樣本,對於弱監督模型也是如此。認識到這一點,我們提出了一種自我監督的學習框架,以消除未標記視頻幀的這種變化。我們利用有關人體骨骼和姿勢的先驗知識,其形式爲基於單個零件的2D人偶模型,人體姿勢清晰度約束和一組未配對的3D姿勢。我們的差異化形式彌合了3D姿勢和空間零件圖之間的表示差異,不僅有助於發現可解釋的姿勢解纏結,而且還使我們能夠處理具有多種相機運動的視頻。對野生數據集中看不見的定性結果建立了我們對多個任務的卓越概括,超出了3D姿態估計和零件分割的主要任務。此外,我們展示了在Human3.6M和MPI INF 3DHP數據集上進行弱監督3D姿態估計的最新技術。

Online Meta-Learning for Multi-Source and Semi-Supervised Domain Adaptation
Authors Da Li, Timothy Hospedales
域適應DA是從標記的源數據集中適應模型的主題問題,以便它們在僅未標記或部分標記的數據可用的目標數據集上表現良好。已經提出了許多方法來通過不同的方式來解決該問題,以最小化源數據集和目標數據集之間的域偏移。在本文中,我們採用正交的觀點,並提出了一種通過元學習現有DA算法的初始條件來進一步提高性能的框架。由於涉及的計算圖的長度,與更廣泛考慮的少數鏡頭元學習設置相比,這具有挑戰性。因此,我們提出了一種在線最短路徑元學習框架,該框架在計算上既易於處理又在提高DA性能方面切實有效。我們提出了多源非監督域自適應MSDA和半監督域自適應SSDA的變體。重要的是,我們的方法與基本的自適應算法無關,可用於改進許多技術。通過實驗,我們展示了對經典DANN以及針對MSDA和SSDA的最新MCD和MME技術的改進,並最終在包括最大規模的DomainNet在內的多個DA基準測試中取得了最先進的結果。

Hierarchical Group Sparse Regularization for Deep Convolutional Neural Networks
Authors Kakeru Mitsuno, Junichi Miyao, Takio Kurita
在深度神經網絡DNN中,參數數量通常非常龐大,以獲取較高的學習性能。因此,它會佔用大量內存和大量計算資源,並且還會導致過擬合。衆所周知,某些參數是冗餘的,可以在不降低性能的情況下將其從網絡中刪除。已經提出了許多稀疏的正則化準則來解決該問題。在卷積神經網絡CNN中,經常使用組稀疏正則化來刪除不必要的權重子集,例如過濾器或通道。當我們對連接到神經元的權重應用組稀疏正則化時,每個卷積濾波器在正則化中均不會被視爲目標組。在本文中,我們引入了層次分組的概念來解決此問題,並提出了一些針對CNN的層次分組稀疏正則化準則。我們提出的分層組稀疏正則化可以將輸入神經元或輸出神經元的權重視爲一個組,而將卷積濾波器視爲同一組中的一個組,以修剪不必要的權重子集。結果,我們可以根據網絡的結構和保持高性能的通道數來更適當地調整權重。在實驗中,我們通過對具有幾種網絡體系結構的公共數據集進行深入的對比實驗,研究了提出的稀疏正則化方法的有效性。代碼在GitHub上可用

Universal Source-Free Domain Adaptation
Authors Jogendra Nath Kundu, Naveen Venkat, Rahul M V, R. Venkatesh Babu
有強烈的動機去開發通用的學習技術,該技術可以在存在域遷移的情況下將類可分離性的知識從標記的源域轉移到未標記的目標域。由於現有領域適應性DA方法依賴於源目標標籤集關係的知識,因此無法用於實際的DA場景。封閉集,開放集或部分DA。此外,幾乎所有先前的無監督DA工作甚至在部署期間都要求源樣本和目標樣本共存,這使其不適用於實時適應。缺乏這種不切實際的假設,我們提出了一種新穎的兩階段學習過程。 1在採購階段,假設沒有對即將出現的類別差距和領域轉移的事先了解,我們旨在爲將來的無源部署提供該模型。爲了實現這一目標,我們在新穎的生成分類器框架中,通過利用可用的源數據來增強模型拒絕源分佈樣本的能力。 2在“部署”階段,目標是設計一種統一的適應算法,該算法能夠在廣泛的類別差距範圍內運行,而無需訪問以前看到的源樣本。爲此,與使用複雜的對抗訓練機制相反,我們通過利用一種新穎的實例級別加權機制(稱爲“源相似度度量” SSM)定義了一個簡單而有效的無源自適應目標。全面的評估表明,即使在依賴於現有技術的最先進方法中,具有卓越DA性能的擬議學習框架的實用可用性也是如此。

Towards Inheritable Models for Open-Set Domain Adaptation
Authors Jogendra Nath Kundu, Naveen Venkat, Ambareesh Revanur, Rahul M V, R. Venkatesh Babu
域自適應DA在視覺識別任務方面取得了巨大進步。特別地,開放集DA已引起相當大的關注,其中目標域包含其他看不見的類別。現有的開放集DA方法要求訪問帶有標記的源數據集以及未標記的目標實例。但是,在數據共享由於其專有性質或隱私問題而受到限制的情況下,這種對共存源數據和目標數據的依賴非常不切實際。針對這一問題,我們介紹了一種實用的DA範式,其中在將來沒有源數據集的情況下,使用經過源訓練的模型來促進自適應。爲此,我們將知識可繼承性形式化爲一個新穎的概念,並提出了一個簡單而有效的解決方案,以實現適用於上述實際範式的可繼承模型。此外,我們提出了一種量化繼承性的客觀方法,即使在沒有源數據的情況下,也可以爲給定的目標域選擇最合適的源模型。我們提供理論上的見解,然後進行全面的經驗評估,以證明最先進的開放集領域自適應性能。

Masked GANs for Unsupervised Depth and Pose Prediction with Scale Consistency
Authors Chaoqiang Zhao, Gary G. Yen, Qiyu Sun, Chongzhen Zhang, Yang Tang
先前的工作表明,對抗學習可用於無監督的單眼深度和視覺里程法VO估計。但是,姿勢和深度網絡的性能受到遮擋和視野變化的限制。由於運動引起的幀之間的視覺信息不完全對應,因此無法通過視圖重建和雙線性插值從源圖像中完全合成目標圖像。基於合成目標圖像與實際目標圖像之間差異的重建損失將受到不完整重建的影響。此外,將學習未重構區域的數據分佈,並幫助鑑別器區分真實圖像和僞圖像,從而導致生成器可能無法與鑑別器競爭的情況。因此,本文設計了一種MaskNet來預測這些區域並減少其對重建損失和對抗損失的影響。未重構區域對鑑別器的影響通過提出布爾掩碼方案來解決,如圖1所示。此外,我們通過利用新的尺度一致性損失來考慮我們的姿勢網絡的尺度一致性,因此我們的姿勢網絡能夠提供長單眼序列上的完整相機軌跡。在KITTI數據集上進行的大量實驗表明,本文提出的每個組件都對性能有所貢獻,並且我們的深度和軌跡預測均達到了競爭性能。

Reciprocal Learning Networks for Human Trajectory Prediction
Authors Hao Sun, Zhiqun Zhao, Zhihai He
我們觀察到,人類的軌跡不僅向前可預測,而且向後可預測。向前和向後的軌跡都遵循相同的社會規範,並遵循相同的物理約束,只是時間方向不同。基於這種獨特的屬性,我們開發了一種用於人體軌跡預測的新方法,稱爲對等學習。向前和向後預測網絡這兩個網絡緊密耦合,滿足了互惠約束,可以共同學習。基於此約束,我們借鑑了深度神經網絡的對抗攻擊的概念,該概念反覆修改網絡的輸入以匹配給定或強制的網絡輸出,並開發了一種新的網絡預測方法,稱爲對等攻擊的倒數攻擊。這進一步提高了預測準確性。我們在基準數據集上的實驗結果表明,我們的新方法優於人類軌跡預測的最新方法。

MoreFusion: Multi-object Reasoning for 6D Pose Estimation from Volumetric Fusion
Authors Kentaro Wada, Edgar Sucar, Stephen James, Daniel Lenton, Andrew J. Davison
機器人和其他智能設備需要從其車載視覺系統中獲得高效的基於對象的場景表示,以推斷出接觸,物理和遮擋的原因。可識別的精確對象模型將與不可識別結構的非參數重建一起發揮重要作用。我們提出了一種系統,該系統可以從實時,體現的多視圖視覺估計接觸和遮擋的多個已知對象的準確姿勢。我們的方法從單個RGB D視圖中提出3D對象姿勢建議,在攝像機移動時從多個視圖中累積姿勢估計和非參數佔用信息,並執行聯合優化以估計接觸的多個對象的一致,不相交的姿勢。

Quasi-Newton Solver for Robust Non-Rigid Registration
Authors Yuxin Yao, Bailin Deng, Weiwei Xu, Juyong Zhang
不完善的數據噪聲,異常值和部分重疊以及高度的自由度使非剛性配準成爲計算機視覺中的經典難題。現有方法通常採用ell p型魯棒估計量來使擬合和平滑度正規化,並且使用近端算子來解決由此產生的非平滑問題。然而,這些算法的緩慢收斂限制了其廣泛的應用。在本文中,我們提出了一種基於全局平滑魯棒估計量的魯棒非剛性配準公式,用於數據擬合和正則化,可以處理離羣值和部分重疊。我們對該問題應用了最小化最小化算法,該算法將每次迭代減少爲使用L BFGS解決簡單的最小二乘問題。大量實驗證明了我們的方法在具有異常值和部分重疊的兩種形狀之間進行非剛性對齊的有效性,定量評估表明,該方法在配準精度和計算速度方面均優於最新方法。源代碼位於

Identification of splicing edges in tampered image based on Dichromatic Reflection Model
Authors Zhe Shen, Peng Sun, Yubo Lang, Lei Liu, Silong Peng
成像是一個複雜的過程,結合了大量的光電轉換,這會導致最終圖像中超出視覺感知的某些光譜特徵。對原始圖像的任何操縱都將破壞這些簽名,並不可避免地在最終的僞造品中留下一些痕跡。因此,我們提出了一種新穎的光學物理方法,以將拼接邊緣與篡改圖像中的自然邊緣區分開。首先,我們將取證圖像從RGB轉換爲S和o1o2的色彩空間。然後在二色反射模型的假設下,通過合成梯度發現圖像中的邊緣,並根據其不同的光度特性將其分類爲不同的類型。最後,通過簡單的邏輯算法將拼接邊緣保留爲自然邊緣。實驗結果表明了該方法的有效性。

Learning to Scale Multilingual Representations for Vision-Language Tasks
Authors Andrea Burns, Donghyun Kim, Derry Wijaya, Kate Saenko, Bryan A. Plummer
當前的多語言視覺語言模型或者每種支持的語言都需要大量附加參數,或者隨着添加語言而導致性能下降。在本文中,我們提出了一種可伸縮的多語言對齊語言表示法SMALR,該語言可以在不犧牲下游任務性能的情況下以很少的模型參數來表示多種語言。 SMALR在多語言詞彙表中爲大多數單詞學習固定大小的語言不可知表示,而很少有語言特定的功能。我們使用一種新穎的掩蓋式跨語言建模損失來使特徵與其他語言的上下文對齊。此外,我們提出了一種跨語言一致性模塊,以確保對查詢及其機器翻譯的預測具有可比性。十種不同的語言證明了SMALR的有效性,是迄今爲止視覺語言任務支持數量的兩倍以上。與其他詞嵌入方法相比,我們對多語言圖像句子檢索進行了評估,並以3 4的優勢勝過了先前的工作,而訓練參數不到1 5。

Estimating Grape Yield on the Vine from Multiple Images
Authors Daniel L. Silver, Jabun Nasa
收穫前估算葡萄產量對於商業化葡萄園生產很重要,因爲它可以爲許多葡萄園和釀酒廠的決策提供依據。當前,產量估算過程很耗時,其精度從75 90視葡萄栽培師的經驗而有所不同。本文提出了一種多任務學習MTL卷積神經網絡CNN方法,該方法使用廉價的智能手機以簡單的三腳架佈置方式捕獲的圖像。 CNN模型使用來自自動編碼器的MTL傳輸,以在收穫前6天捕獲的圖像數據實現85精度。

Deep Manifold Prior
Authors Matheus Gadelha, Rui Wang, Subhransu Maji
我們爲流形結構化數據(例如3D形狀的表面)提出了先驗知識,其中採用了深度神經網絡來從隨機初始化開始使用梯度下降來重建目標形狀。我們證明以這種方式生成的曲面是光滑的,具有以高斯過程爲特徵的有限行爲,並且我們從數學上推導了完全連接以及卷積網絡的此類屬性。我們在各種流形重建應用程序中演示了我們的方法,例如點雲去噪和插值,在不需要訓練數據的情況下,相對於競爭基準取得了更好的結果。我們還表明,當訓練數據可用時,我們的方法允許在AtlasNet框架下開發曲面的替代參數化,從而形成緊湊的網絡體系結構,並在標準圖像上更好地重建結果以塑造重建基準。

Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking
Authors Hongjun Wang, Guangrun Wang, Ya Li, Dongyu Zhang, Liang Lin
DNN的成功將人員識別ReID的廣泛應用帶入了一個新時代。但是,ReID是否繼承DNN的漏洞仍待探討。檢查ReID系統的健壯性非常重要,因爲ReID系統的不安全性可能會造成嚴重損失,例如,犯罪分子可能會利用對抗性干擾來欺騙CCTV系統。在這項工作中,我們通過建議學習錯誤地對公式進行排名以擾亂系統輸出的排名,從而研究了當前性能最佳的ReID模型的不安全性。由於跨數據集的可傳遞性在ReID域中至關重要,因此我們還通過開發新穎的多級網絡體系結構執行後箱攻擊,該體系將不同級別的特徵金字塔化,以提取對抗性擾動的常規和可傳遞特徵。我們的方法可以通過使用可區分的多鏡頭採樣來控制惡意像素的數量。爲了保證攻擊的不顯眼性,我們還提出了一種新的感知損失,以實現更好的視覺質量。在四個最大的ReID基準測試(即Market1501 45,CUHK03 18,DukeMTMC 33和MSMT17 40)上進行的廣泛實驗不僅顯示了我們方法的有效性,而且還爲ReID系統的魯棒性提供了未來改進的方向。例如,性能最好的ReID系統之一的精度在受到我們方法的攻擊後從91.8急劇下降到1.4。一些攻擊結果如圖1所示。

The GeoLifeCLEF 2020 Dataset
Authors Elijah Cole, Benjamin Deneu, Titouan Lorieul, Maximilien Servajean, Christophe Botella, Dan Morris, Nebojsa Jojic, Pierre Bonnet, Alexis Joly
瞭解物種的地理分佈是保護的關鍵問題。通過將物種發生與環境特徵配對,研究人員可以對環境與可能在該物種中發現的物種之間的關係進行建模。爲了促進這一領域的研究,我們提供了GeoLifeCLEF 2020數據集,該數據集包括190萬種物種觀測值,以及高分辨率的遙感影像,土地覆蓋數據和海拔,以及傳統的低分辨率的氣候和土壤變量。我們還討論了GeoLifeCLEF 2020競賽,該競賽旨在使用該數據集來推進基於位置的物種推薦中的最新技術。

Leveraging 2D Data to Learn Textured 3D Mesh Generation
Authors Paul Henderson, Vagia Tsiminaki, Christoph H. Lampert
已經提出了許多用於3D對象的概率生成建模的方法。但是,這些都不能產生紋理對象,這使得它們在實際任務中的使用受到限制。在這項工作中,我們提出了紋理3D網格的第一個生成模型。傳統上,訓練這樣的模型將需要大量的紋理網格數據集,但是不幸的是,現有的網格數據集缺少詳細的紋理。相反,我們提出了一種新的訓練方法,該方法可以從沒有任何3D信息的2D圖像集合中學習。爲此,我們訓練模型以將每個圖像建模爲放置在2D背景前面的3D前景對象,從而解釋圖像的分佈。因此,它學會了生成網格,該網格在渲染時會生成與其訓練集中的圖像相似的圖像。

Learning to Drive Off Road on Smooth Terrain in Unstructured Environments Using an On-Board Camera and Sparse Aerial Images
Authors Travis Manderson, Stefan Wapnick, David Meger, Gregory Dudek
我們提出了一種方法,用於學習在平坦的地形上駕駛,同時僅通過視覺輸入即可避免在越野和非結構化室外環境中遇到挑戰時發生碰撞。我們的方法採用了基於混合模型和無模型的強化學習方法,該方法在使用板載傳感器標記地形粗糙度和碰撞時完全可以自我監督。值得注意的是,我們爲模型提供了第一人稱和空中影像輸入。我們發現這些補充輸入的融合改善了計劃的遠見,並使模型對視覺障礙具有魯棒性。我們的結果表明,可以將其推廣到植被豐富,各種岩石和沙質小徑的環境中。在評估過程中,與僅使用第一人稱圖像的模型相比,我們的策略可實現90次平滑的地形遍歷,並將行駛的崎terrain地形的比例降低了6.1倍。

Rethinking the Trigger of Backdoor Attack
Authors Yiming Li, Tongqing Zhai, Baoyuan Wu, Yong Jiang, Zhifeng Li, Shutao Xia
在這項工作中,我們研究後門攻擊的問題,後門攻擊在特定訓練圖像上添加了特定的觸發器(即本地補丁),以強制要求錯誤地預測具有相同觸發器的測試圖像,而受訓練的人會正確預測自然的測試示例模型。許多現有的作品都採用了這樣的設置:訓練和測試圖像上的觸發器具有相同的外觀,並且位於相同的區域。但是,我們觀察到,如果觸發器的外觀或位置略有變化,則攻擊性能可能會急劇下降。根據此觀察,我們建議對空間進行變換,例如,翻轉和縮放測試圖像,以便更改觸發器的外觀和位置(如果存在)。該簡單策略經過實驗驗證,可以有效地防禦許多最新的後門攻擊方法。此外,爲了增強後門攻擊的魯棒性,我們建議在輸入訓練過程之前,使用觸發器對訓練圖像進行隨機空間變換。大量實驗證明,提出的後門攻擊對空間變換具有魯棒性。

Orthogonal Over-Parameterized Training
Authors Weiyang Liu, Rongmei Lin, Zhen Liu, James M. Rehg, Li Xiong, Le Song
神經網絡的感應偏差在很大程度上取決於架構和訓練算法。爲了獲得良好的概括,如何有效地訓練神經網絡比設計體系結構更爲重要。我們提出了一種新穎的正交過參數化訓練OPT框架,該框架可以可證明地最小化表徵超球面上神經元多樣性的超球面能量。通過在訓練過程中不斷保持最小的超球面能量,OPT可以大大提高網絡的通用性。具體來說,OPT固定神經元的隨機初始化權重,並學習適用於這些神經元的正交變換。我們提出了多種學習此類正交變換的方法,包括展開正交算法,應用正交參數化以及設計正交性保留梯度更新。有趣的是,OPT揭示了學習適當的神經元座標系對於泛化至關重要,並且可能比學習神經元的特定相對位置更重要。我們進一步提供了有關OPT爲什麼產生更好的泛化的理論見解。大量的實驗證明了OPT的優越性。

Fisher Discriminant Triplet and Contrastive Losses for Training Siamese Networks
Authors Benyamin Ghojogh, Milad Sikaroudi, Sobhan Shafiei, H.R. Tizhoosh, Fakhri Karray, Mark Crowley
暹羅神經網絡是用於特徵提取和度量學習的非常強大的體系結構。它通常由幾個共享權重的網絡組成。暹羅概念與拓撲無關,可以使用任何神經網絡作爲其骨幹。用於訓練這些網絡的兩個最受歡迎的損失函數是三元組和對比損失函數。在本文中,我們提出了兩個新穎的損失函數,分別爲Fisher判別三重態FDT和Fis​​her判別對比FDC。前者使用錨鄰近的三元組,而後者使用錨鄰近和錨遠的樣本對。 FDT和FDC損失函數是根據Fisher判別分析FDA的統計公式設計的,該統計公式是線性子空間學習方法。我們在MNIST和兩個具有挑戰性且可公開獲得的組織病理學數據集上進行的實驗表明了所提出的損失函數的有效性。

Test-Time Adaptable Neural Networks for Robust Medical Image Segmentation
Authors Neerav Karani, Krishna Chaitanya, Ender Konukoglu
當訓練數據集代表預期在測試時會遇到的變化時,卷積神經網絡CNN可以很好地解決監督學習問題。在醫學圖像分割中,如果訓練圖像和測試圖像之間在採集細節(例如掃描儀型號或協議)方面不匹配,則會違反此前提。在這種情況下,CNN的性能顯着下降已在文獻中充分記錄。爲了解決此問題,我們將分段CNN設計爲兩個子網絡的串聯,即相對較淺的圖像規範化CNN,然後是對規範化圖像進行分段的較深的CNN。我們使用訓練數據集來訓練這兩個子網,這些數據集由來自特定掃描儀和協議設置的帶註釋的圖像組成。現在,在測試時,我們在預測的分割標籤上以隱式先驗爲指導,爲每個測試圖像調整圖像標準化子網。我們採用了獨立訓練的降噪自動編碼器DAE,以便在合理的解剖分割標籤上對這種隱式先驗建模。我們在大腦,心臟和前列腺的三個解剖結構的多中心磁共振成像數據集上驗證了提出的想法。擬議的測試時間適應性始終如一地提供性能改進,證明了該方法的前景和普遍性。與深層CNN的第二子網的架構不可知,該提議的設計可與任何分段網絡一起使用,以提高對成像掃描儀和協議變化的魯棒性。

CNN2Gate: Toward Designing a General Framework for Implementation of Convolutional Neural Networks on FPGA
Authors Alireza Ghaffari, Yvon Savaria
卷積神經網絡CNN由於提供的服務衆多,因此對我們的社會產生了重大影響。另一方面,它們需要相當大的計算能力。爲了滿足這些要求,可以使用圖形處理單元GPU。但是,高功耗和有限的外部IO限制了它們在工業和關鍵任務場景中的可用性和適用性。最近,利用FPGA實現CNN的研究數量正在迅速增加。這是由於這些平臺提供了較低的功耗和易於重新配置的能力。由於在諸如架構,綜合和優化等主題上進行了研究,因此將此類硬件解決方案集成到高級機器學習軟件庫中出現了一些新的挑戰。本文介紹了一個集成框架CNN2Gate,該框架支持針對FPGA目標的CNN模型的編譯。 CNN2Gate利用商業供應商提供的針對FPGA的OpenCL textsuperscript TM綜合工作流程。 CNN2Gate能夠從多個流行的高級機器學習庫(例如Keras,Pytorch,Caffe2等)中解析CNN模型。CNN2Gate不僅提取權重和偏差,還提取層的計算流程,並應用給定的定點量化。此外,它以OpenCL綜合工具的正確格式寫入此信息,然後這些工具用於在FPGA上構建和運行項目。 CNN2Gate使用增強學習代理執行設計空間探索,並自動將設計與邏輯資源有限的其他FPGA配合。本文報告了在各種英特爾FPGA平臺上AlexNet和VGG 16的自動綜合和設計空間探索的結果。 CNN2Gate在VGG 16上的延遲爲205毫秒,在AlexNet上的延遲爲18毫秒。

Cortical surface registration using unsupervised learning
Authors Jieyu Cheng, Adrian Dalca, Bruce Fischl, Lilla Zollei for the Alzheimer s Disease Neuroimaging Initiative
由於人類皮質的幾何複雜性和受試者之間高度的可變性,非剛性皮質配準是一項重要且具有挑戰性的任務。傳統的解決方案是使用表面特性的球形表示並通過在該空間中對齊皮質摺疊圖案來執行配準。這種策略可產生精確的空間對齊,但通常需要很高的計算成本。最近,卷積神經網絡的CNN已顯示出顯着加快體積配準的潛力。但是,由於將球體投影到2D平面而引入的變形,將基於學習的新方法直接應用於曲面會產生較差的結果。在這項研究中,我們提出了SphereMorph,這是一個使用深層網絡解決這些問題的皮質表面微分配準框架。 SphereMorph使用與球核相關聯的UNet樣式網絡來學習位移場,並使用修改的空間變換器層使球體變形。我們提出了一種重採樣權重來計算數據擬合損失,以解決極地投影引入的失真問題,並演示我們提出的方法在兩項任務上的性能,包括皮質分割和逐組功能區域對齊。實驗表明,提出的SphereMorph能夠在CNN框架中對幾何配準問題進行建模,並顯示出優異的配準精度和計算效率。

DeepCOVIDExplainer: Explainable COVID-19 Predictions Based on Chest X-ray Images
Authors Md. Rezaul Karim, Till D hmen, Dietrich Rebholz Schuhmann, Stefan Decker, Michael Cochez, Oya Beyan
在冠狀病毒疾病COVID 19大流行中,人類感染的人數在世界範圍內迅速增加。在抗擊病毒方面,醫院面臨的挑戰是對入院病人的有效篩查。一種方法是評估胸部X射線攝影CXR圖像,這通常需要放射線專家知識。在本文中,我們提出了一種基於DNN的可解釋的基於深度神經網絡的方法,用於從CXR圖像中自動檢測COVID 19症狀,我們將其稱爲DeepCOVIDExplainer。我們在13,808例患者中使用了16,995例CXR圖像,涵蓋了正常,肺炎和COVID 19例。首先對CXR圖像進行全面的預處理,然後再使用神經集成方法對其進行擴展和分類,然後使用梯度引導的類激活圖Grad CAM和逐層相關性傳播LRP突出顯示類區分區域。此外,我們提供了有關預測的人類可解釋的解釋。基於保留數據的評估結果表明,我們的方法可以可靠地識別出COVID 19,其正預測值PPV爲89.61,召回率爲83,與最近的可比較方法相比有所改善。我們希望我們的發現將爲對抗COVID 19做出更有益的貢獻,更廣泛地說,將爲在臨牀實踐中越來越多地接受和採用AI輔助應用程序。

ARCH: Animatable Reconstruction of Clothed Humans
Authors Zeng Huang, Yuanlu Xu, Christoph Lassner, Hao Li, Tony Tung
在本文中,我們提出了“穿衣人類的ARCH動畫可重構”,這是一種新穎的端到端框架,用於從單眼圖像中準確重建動畫就緒的3D穿衣服的人類。現有的數字化3D人類方法難以應對姿勢變化和恢復細節。此外,它們不會生成動畫就緒的模型。相比之下,ARCH是一種學習型姿勢感知模型,可從單個不受約束的RGB圖像生成詳細的3D裝配的全身人體化身。使用參數3D人體估計器創建語義空間和語義變形場。它們允許將穿着2D 3D衣服的人轉換爲規範的空間,從而減少了因姿勢變化和訓練數據遮擋而導致的幾何模糊性。使用具有空間局部特徵的隱式函數表示可以瞭解詳細的表面幾何形狀和外觀。此外,我們建議使用不透明感知的可區分渲染對3D重建進行額外的每像素監督。我們的實驗表明,ARCH提高了重建人類的保真度。與公共數據集上的最新方法相比,我們爲標準指標獲得了50多個更低的重構誤差。我們還顯示了迄今爲止在文獻中未見過的動畫,高質量重建化身的許多定性例子。

Recognizing Spatial Configurations of Objects with Graph Neural Networks
Authors Laetitia Teodorescu, Katja Hofmann, Pierre Yves Oudeyer
深度學習算法可以看作是作用在編碼爲張量結構化數據的學習表示上的功能組合。然而,在大多數應用中,那些表示是整體的,例如,一個矢量對整個圖像或句子進行編碼。在本文中,我們以圖神經網絡GNN的最新成功爲基礎,探索圖結構化表示在學習空間配置中的使用。受人類區分形狀排列的能力的激勵,我們引入了兩種新穎的幾何推理任務,爲此我們提供了數據集。我們介紹了新穎的GNN層和體系結構來解決任務,並表明圖結構化表示對於獲得良好性能是必要的。

Learnable Subspace Clustering
Authors Jun Li, Hongfu Liu, Zhiqiang Tao, Handong Zhao, Yun Fu
本文研究了具有百萬個數據點的大規模子空間聚類LSSC問題。儘管許多流行的子空間聚類方法已被視爲小規模數據點的最新技術,但它們無法直接處理LSSC問題。一個基本的原因是,這些方法經常選擇所有數據點作爲大詞典來構建龐大的編碼模型,從而導致較高的時間和空間複雜性。在本文中,我們開發了一種可學習的子空間聚類範例,以有效解決LSSC問題。關鍵思想是學習一個參數函數,以將高維子空間劃分爲它們的基礎低維子空間,而不是經典編碼模型的昂貴成本。此外,我們提出了一個統一的魯棒預測編碼器RPCM來學習參數函數,這可以通過交替最小化算法來解決。此外,我們提供了參數函數的有界收縮分析。據我們所知,本文是在子空間聚類方法中有效地對數百萬個數據點進行聚類的第一項工作。在數百萬個數據集上進行的實驗證明,我們的範例在效率和有效性方面都優於相關的最新方法。

Adversarial Latent Autoencoders
Authors Stanislav Pidhorskyi, Donald Adjeroh, Gianfranco Doretto
自動編碼器網絡是無監督的方法,旨在通過同時學習編碼器生成器圖來組合生成屬性和表示屬性。儘管已進行了廣泛的研究,但是它們是否具有GAN的相同生成能力或學習解開表示法的問題尚未得到充分解決。我們介紹了一種自動編碼器,可共同解決這些問題,我們稱之爲對抗性潛在自動編碼器ALAE。它是一種通用架構,可以利用GAN培訓程序的最新改進。我們設計了兩種自動編碼器,一種基於MLP編碼器,另一種基於StyleGAN生成器,我們稱爲StyleALAE。我們驗證兩種體系結構的解纏結特性。我們顯示,StyleALAE不僅可以生成質量與StyleGAN相當的1024x1024人臉圖像,而且在相同的分辨率下還可以基於真實圖像生成人臉重建和操作。這使ALAE成爲第一個能夠與之匹敵的自動編碼器,並且超越了僅發生器類型的體系結構的能力。

TensorProjection Layer: A Tensor-Based Dimensionality Reduction Method in CNN
Authors Toshinari Morimoto, Su Yun Huang
在本文中,我們提出了一種應用於張量結構化數據的降維方法,將其作爲卷積神經網絡中的隱層TensorProjection Layer。我們提出的方法通過投影將輸入張量轉換爲尺寸較小的張量。投影的方向被視爲與我們提出的圖層相關的訓練參數,並通過監督學習準則(例如最小化交叉熵損失函數)進行訓練。我們討論了損失函數相對於與我們提出的層相關的參數的梯度。我們還實施了簡單的數值實驗來評估TensorProjection層的性能。

Automatic detection of acute ischemic stroke using non-contrast computed tomography and two-stage deep learning model
Authors Mizuho Nishio, Sho Koyasu, Shunjiro Noguchi, Takao Kiguchi, Kanako Nakatsu, Thai Akasaka, Hiroki Yamada, Kyo Itoh
背景與目的我們旨在開發和評估涉及兩階段深度學習模型的自動急性缺血性卒中相關AIS檢測系統。

Score-Guided Generative Adversarial Networks
Authors Minhyeok Lee, Junhee Seok
我們提出了一個生成對抗網絡GAN,該網絡使用預先訓練的網絡來引入評估模塊。提議的模型稱爲得分指導GAN ScoreGAN,使用GAN的評估指標(即初始得分)進行訓練,作爲發電機訓練的粗略指南。通過使用另一個預先訓練的網絡而不是Inception網絡,ScoreGAN避免了Inception網絡的過度擬合,以使生成的樣本不對應於Inception網絡的對抗示例。另外,爲了防止過度擬合,僅將評估指標用作輔助角色,而主要使用GAN的常規目標。使用CIFAR 10數據集進行評估,ScoreGAN的Inception得分爲10.36 pm 0.15,與最新技術水平相對應。此外,爲了概括ScoreGAN的有效性,進一步使用另一個數據集(即CIFAR 100)對該模型進行了評估,ScoreGAN優於其他現有方法,其中在CIFAR 100數據集上訓練的ScoreGAN的Fr chet Inception Distance FID爲13.98。

Feedback Recurrent Autoencoder for Video Compression
Authors Adam Golinski, Reza Pourreza, Yang Yang, Guillaume Sautiere, Taco S Cohen
深度生成建模的最新進展使得能夠對高維數據分佈進行高效建模,併爲解決數據壓縮問題開闢了新的視野。具體而言,基於自動編碼器的學習型圖像或視頻壓縮解決方案正在成爲傳統方法的強大競爭者。在這項工作中,我們提出了一種基於常見和深入研究的組件的新網絡架構,用於在低延遲模式下運行的學習型視頻壓縮。我們的方法可在高分辨率UVG數據集上獲得最先進的MS SSIM速率性能,這是流媒體應用感興趣的速率範圍內的學習視頻壓縮方法以及經典視頻壓縮方法H.265和H.264兩者。此外,我們通過其潛在的概率圖形模型的角度對現有方法進行了分析。最後,我們指出了在經驗評估中觀察到的時間一致性和色偏問題,並提出了緩解這些問題的方向。

TOG: Targeted Adversarial Objectness Gradient Attacks on Real-time Object Detection Systems
Authors Ka Ho Chow, Ling Liu, Mehmet Emre Gursoy, Stacey Truex, Wenqi Wei, Yanzhao Wu
實時海量數據捕獲的快速增長將深度學習和數據分析計算推向了邊緣系統。邊緣上的實時對象識別是由DNN提供動力的代表性深層神經系統之一,用於現實世界中的關鍵任務應用,例如自動駕駛和增強現實。儘管DNN驅動的物體檢測邊緣系統慶祝了許多豐富的生活機會,但它們也爲濫用和濫用打開了大門。本文提出了三種針對性的對抗性目標梯度攻擊,簡稱TOG,它們可能導致最先進的深度目標檢測網絡遭受目標消失,目標製造和目標標籤錯誤的攻擊。我們還提出了一種通用的目標梯度攻擊,將對抗性可傳遞性用於黑匣子攻擊,這種攻擊對任何輸入都有效,且攻擊時間成本可忽略,人類的感知能力較低,特別不利於對象檢測邊緣系統。我們報告了使用兩個基準數據集PASCAL VOC和MS COCO的兩個最先進的檢測算法YOLO和SSD的實驗測量結果。結果表明,存在嚴重的對抗漏洞,並且迫切需要開發強大的對象檢測系統。

Physics-enhanced machine learning for virtual fluorescence microscopy
Authors Colin L. Cooke, Fanjie Kong, Amey Chaware, Kevin C. Zhou, Kanghyun Kim, Rong Xu, D. Michael Ando, Samuel J. Yang, Pavan Chandra Konda, Roarke Horstmeyer
本文介紹了一種受監督的深度學習網絡,該網絡可以共同優化光學顯微鏡的物理設置以推斷熒光圖像信息。具體而言,我們設計了一個明場顯微鏡的照明模塊,以最大化從明場圖像推斷熒光細胞特徵的性能。我們利用照亮樣品的廣泛靈活性來優化來自定製LED陣列的可編程光模式,與標準照明技術相比,該模式可產生更好的任務特定性能。我們通過在深度卷積網絡的初始層中包含圖像形成的物理模型來實現照明模式的優化。與標準成像方法相比,我們優化的照明模式最多可提高45種性能,此外,我們還將探索優化模式如何根據推理任務而變化。這項工作證明了通過可編程光學元件優化圖像捕獲過程以改善自動化分析的重要性,併爲近期熒光圖像推斷工作的預期性能提升提供了新的物理見解。

GeneCAI: Genetic Evolution for Acquiring Compact AI
Authors Mojan Javaheripi, Mohammad Samragh, Tara Javidi, Farinaz Koushanfar
在當今的大數據領域,深度神經網絡DNN正在向更復雜的架構發展,以實現更高的推理精度。可以利用模型壓縮技術在資源受限的移動設備上有效地部署此類計算密集型體系結構。這樣的方法包括各種超參數,這些超參數要求每層定製以確保高精度。由於相關搜索空間隨模型層呈指數增長,因此選擇此類超級參數非常麻煩。本文介紹了GeneCAI,這是一種新穎的優化方法,可自動學習如何調整每層壓縮超參數。我們設計了一種雙射翻譯方案,將壓縮的DNN編碼到基因型空間。使用多目標評分基於浮點運算的準確性和數量來測量每種基因型的最佳性。我們開發了定製的遺傳運算,以將非支配解迭代地演化爲最優的Pareto前沿,從而捕獲了模型準確性和複雜性之間的最優權衡。 GeneCAI優化方法具有高度可擴展性,可以在分佈式多GPU平臺上實現近乎線性的性能提升。我們的廣泛評估表明,通過發現位於精度更高,複雜度更高的帕累託曲線上的模型,GeneCAI在DNN壓縮中優於現有的基於規則和強化學習的方法。

Variable Rate Video Compression using a Hybrid Recurrent Convolutional Learning Framework
Authors Aishwarya Jadhav
近年來,基於神經網絡的圖像壓縮技術已經能夠勝過傳統編解碼器,併爲基於學習的視頻編解碼器的發展打開了大門。然而,爲了利用視頻中的高時間相關性,需要採用更復雜的架構。本文介紹了PredEncoder,這是一種基於預測自動編碼概念的混合視頻壓縮框架,該框架使用預測網絡對連續視頻幀之間的時間相關性進行建模,然後將其與漸進式編碼器網絡結合以利用空間冗餘。在本文中提出了可變速率塊編碼方案,該方案導致了很高的質量比特率比。通過聯合培訓和對該混合體繫結構進行微調,PredEncoder能夠在MPEG 4編解碼器上取得顯着改進,並在低至中等比特率範圍內爲高清視頻提供了比H.264編解碼器節省的比特率,並且具有可比的結果非高清視頻的大多數比特率。本文旨在說明如何利用神經架構與視頻壓縮領域中高度優化的傳統方法相媲美。

A single image deep learning approach to restoration of corrupted remote sensing products
Authors Anna Petrovskaia, Raghavendra B. Jana, Ivan V. Oseledets
遙感圖像用於各種分析,從農業監測到救災,再到資源規劃,等等。圖像可能由於多種原因而損壞,包括儀器錯誤和自然障礙(例如雲)。我們在這裏提出一種新穎的方法,在這種情況下,僅使用損壞的圖像作爲輸入,即可重建丟失的信息。深度映像先驗方法消除了對預先訓練的網絡或映像數據庫的需求。結果表明,該方法很容易擊敗傳統的單圖像方法。

Inpainting via Generative Adversarial Networks for CMB data analysis
Authors Alireza Vafaei Sadr, Farida Farsian
在這項工作中,我們提出了一種新的方法,可以在點源提取過程之後,在掩蔽的區域中修補CMB信號。我們採用改進的Generative Adversarial Network GAN,比較內部超參數和訓練策略的不同組合。我們使用合適的數學C r變量研究性能,以估計有關CMB功率譜恢復的性能。我們考慮一個測試集,其中一個點源在每個天空斑塊中以1.83乘以1.83平方度的擴展被掩蓋,在我們的網格中,它對應於64乘以64像素。 GAN經過優化,可在Planck 2018總強度模擬中估算性能。訓練使GAN有效地重構了對應於約1500個像素的掩膜,其中1個誤差降低到對應於約5弧分的角標度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


Interesting:

📚, (from )

📚, (from )

📚, (from )

📚, (from )

📚, (from )


pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章