【今日CV 計算機視覺論文速覽 第140期】Wed, 3 Jul 2019

今日CS.CV 計算機視覺論文速覽
Wed, 3 Jul 2019
Totally 49 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚DMT解耦的妝容遷移框架,研究人員提出了一種基於解耦的妝容遷移框架,將圖像中的任務編碼與妝容編碼分別表示,隨後利用不同的妝容編碼與任務編碼進行聯合解碼實現了妝容的漸變、插值、混合,人臉混合與多模態採樣的等美妝任務。 (from 上交)
在這裏插入圖片描述
文中提出的方法,同時還引入了mask注意力機制:
在這裏插入圖片描述
學習到的嵌入空間表示,不同的妝有一個明顯的聚類:
在這裏插入圖片描述
人臉妝容漸變與混合:
在這裏插入圖片描述
人臉插值與妝容編碼隨機採樣:
在這裏插入圖片描述在這裏插入圖片描述
最後還探索了隱空間編碼(8-vector)每個維度對於妝容各方面的影響:
在這裏插入圖片描述
code:https://github.com/Honlan/DMT

📚一種智能圖像裁剪方法, 研究人員提出了一種淤血學習圖像中主體構成的框架用於評價圖像的美學質量。其中一個錨區域用於檢測,並利用高斯覈保證了圖像中主體的完整性。隨後饋入到一個輕量級的網絡中,直接映射出最終的剪切結果。計算資源消耗較低。(from 北郵)
在這裏插入圖片描述
研究人員提出的顯著性檢驗方法和美學區域迴歸器:
在這裏插入圖片描述
其中限制性檢驗的網絡利用了類型四Unet的方法:
在這裏插入圖片描述
在不同數據集上的結果:
在這裏插入圖片描述
智能剪切的結果:
在這裏插入圖片描述
code:https://github.com/CVBase-Bupt/EndtoEndCroppingSystem

📚提出了一種可以從單個或多個視角預測物體三維形狀的模型, (from Stanford University Google Inc. Facebook AI Research)
在這裏插入圖片描述

📚BMOD一個移動端的OCR數據集, 一個用於低質量光學字符識別的數據集,包含非均勻光照、模糊、噪聲以及各種人工痕跡的缺陷。(from Brno University of Technology)
在這裏插入圖片描述

📚Language2Pose將語言轉換爲位姿模擬動畫的新方法,研究人員提出了Joint Language-toPose(JL2P) 的方法倆學習語言與動作的聯合嵌入空間。(from CMU,Language Technologies Institute)
在這裏插入圖片描述
project:http://chahuja.com/language2pose/

📚高鐵 鐵軌扣件的高速檢測, (from 北郵)
在這裏插入圖片描述
基於faster-rcnn的方法:
在這裏插入圖片描述


Daily Computer Vision Papers

++HO-3D: A Multi-User, Multi-Object Dataset for Joint 3D Hand-Object Pose Estimation
Authors Shreyas Hampali, Markus Oberweger, Mahdi Rad, Vincent Lepetit
我們提出了一種用於從彩色圖像估計3D手對象姿態的新數據集,以及用於有效地註釋該數據集的方法,以及基於該數據集的3D姿勢預測方法。目前缺乏訓練數據使得3D手對象姿勢估計非常具有挑戰性。這種缺乏是由於使用3D姿勢標記許多真實圖像以及生成具有各種真實交互的合成圖像的複雜性。此外,即使合成圖像可用於訓練,仍需要帶註釋的真實圖像進行驗證。爲了應對這一挑戰,我們使用由單個RGB D相機組成的簡單設置捕獲序列。我們還使用彩色相機從側視圖對序列進行成像,但僅用於驗證。我們介紹了一種基於全局優化的新方法,該方法利用深度,顏色和時間約束來有效地註釋序列,我們用它來訓練另一種新方法,該方法從單個彩色圖像預測手部和物體的3D姿勢。我們希望鼓勵其他研究人員爲我們的數據集開發更好的註釋方法然後可以應用這種方法捕獲並輕鬆註釋用單個RGB D相機捕獲的序列,以輕鬆創建額外的訓練數據,從而解決3D手的主要問題之一物體姿態估計。

Obj-GloVe: Scene-Based Contextual Object Embedding
Authors Canwen Xu, Zhenzhong Chen, Chenliang Li
最近,隨着大規模圖像數據集的普及,類之間的共現信息變得豐富,需要一種新的方式來利用它來促進推理。在本文中,我們提出了Obj GloVe,一種基於通用場景的常見視覺對象的上下文嵌入,我們採用嵌入方法GloVe來利用實體之間的共現。我們在預處理的Open Images V4數據集上訓練嵌入,並通過降維和沿特定語義軸投影向量提供廣泛的可視化和分析,並展示最常見對象的最近鄰居。此外,我們揭示了Obj GloVe在物體檢測和文本到圖像合成方面的潛在應用,然後分別驗證了它在這兩種應用中的有效性。

+++Attribute-Driven Spontaneous Motion in Unpaired Image Translation
Authors Ruizheng Wu, Xin Tao, Xiaodong Gu, Xiaoyong Shen, Jiaya Jia
當前的圖像轉換方法雖然對於在各種應用中產生高質量結果是有效的,但仍然沒有考慮太多的幾何變換。我們在本文中提出自發運動估計模塊以及細化模塊,以學習源域和目標域之間的屬性驅動變形。廣泛的實驗和可視化證明了這些模塊的有效性。我們在不成對的圖像翻譯任務中取得了可喜的成果,並以自發運動爲基礎實現了有趣的應用。

+++An End-to-End Neural Network for Image Cropping by Learning Composition from Aesthetic Photos
Authors Peng Lu, Hao Zhang, Xujun Peng, Xiaofu Jin
作爲圖像編輯的基本技術之一,圖像裁剪丟棄了不相關的內容,並且仍然是圖像的令人愉悅的部分,以增強整體構圖並實現更好的視覺美感。在本文中,我們主要關注提高自動圖像裁剪的準確性,並進一步探索其在公共數據集中的高效潛力。從這個方面來說,我們提出了一個基於深度學習的框架,用於從具有高美學品質的照片中學習對象組合,其中通過具有高斯核的卷積神經網絡CNN來檢測錨區域以維持感興趣的對象的完整性。然後將該初始檢測到的錨定區域饋送到輕量級迴歸網絡中以獲得最終的裁剪結果。與傳統方法不同,迭代地提出並評估多個候選者,在我們的模型中僅產生單個錨定區域,其直接映射到最終輸出。因此,所提出的方法需要低計算資源。公共數據集的實驗結果表明,裁剪的準確性和效率都達到了現有的性能水平。

Where are the Masks: Instance Segmentation with Image-level Supervision
Authors Issam H. Laradji, David Vazquez, Mark Schmidt
實例分割的主要障礙是現有方法通常需要許多每像素標籤纔能有效。這些標籤需要大量的人力,並且對於某些應用,這種標籤不容易獲得。爲了解決這個限制,我們提出了一種新的框架,可以有效地訓練圖像級標籤,這些標籤的獲取成本要低得多。例如,人們可以對汽車一詞進行互聯網搜索,並以最小的努力獲得汽車所在的許多圖像。我們的框架包括兩個階段1訓練分類器以生成感興趣對象的僞掩碼2在這些僞掩碼上訓練完全受監督的掩碼R CNN。我們的兩個主要貢獻是提出一個易於實現的管道,並且適用於不同的分割方法,並且爲這個問題設置實現了新的最先進的結果。我們的結果是基於PASCAL VOC 2012評估我們的方法,PASCAL VOC 2012是弱監督方法的標準數據集,我們展示了與現有方法相比在平均精度方面的主要性能提升。

Improving Borderline Adulthood Facial Age Estimation through Ensemble Learning
Authors Felix Anda, David Lillis, Aikaterini Kanta, Brett A. Becker, Elias Bou Harb, Nhien An Le Khac, Mark Scanlon
在成年和非成年之間的邊界線上實現面部年齡估計的高性能一直是一個挑戰。一些研究使用了從嬰兒時代到老年人的不同方法,並且已經使用不同的數據集來測量1.47至8年範圍內的平均絕對誤差MAE。特別是在邊界線中的算法的弱點一直是本文的動機。在我們的方法中,我們開發了一種集合技術,結合我們深度學習模型DS13K提高了未成年人估計的準確性,該模型已經在Deep Expectation DEX模型上進行了微調。對於16至17歲的年齡組,我們已經達到了68的準確度,這比這個年齡段的DEX準確度好4倍。我們還對現有的基於雲和離線的面部年齡預測服務進行評估,例如Amazon Rekognition,Microsoft Azure Cognitive Services,

Landmark Assisted CycleGAN for Cartoon Face Generation
Authors Ruizheng Wu, Xiaodong Gu, Xin Tao, Xiaoyong Shen, Yu Wing Tai, Jiaya Jia
在本文中,我們感興趣的是通過在真實面孔和卡通面孔之間使用不成對的訓練數據來生成人的卡通面部。這項任務的一個主要挑戰是真實和卡通人臉的結構在兩個不同的領域,其外觀彼此相差很大。如果沒有明確的對應關係,很難生成捕捉人的基本面部特徵的高質量卡通臉。爲了解決這個問題,我們提出了地標輔助的CycleGAN,它利用面部地標來定義地標一致性損失,並指導在CycleGAN中訓練局部鑑別器。爲了強化地標的結構一致性,我們使用條件生成器和鑑別器。我們的方法能夠產生高質量的卡通面孔,甚至與藝術家繪製的面孔無法區分,並且在很大程度上改善了現有技術水平。

A Closest Point Proposal for MCMC-based Probabilistic Surface Registration
Authors Dennis Madsen, Andreas Morel Forster, Patrick Kahr, Dana Rahbani, Thomas Vetter, Marcel L thi
在本文中,我們提出了一種非剛性表面配准算法,該算法使用馬爾可夫鏈蒙特卡羅MCMC框架估計對應不確定性。推斷登記的估計不確定性對於許多應用是重要的,例如手術計劃或缺失數據重建。使用的Metropolis Hastings MH算法使用建議和驗證方案將推斷與後驗建模分離。廣泛使用的隨機抽樣策略導致高維空間中的收斂速度慢。爲了克服這個限制,我們引入了基於ICP的知情概率提議,可以在MH算法中使用。雖然ICP算法用於推理算法,但可以獨立地選擇可能性。我們展示了不同的表面距離測量,例如傳統的歐幾里德範數和豪斯多夫距離。在量化對應的不確定性的同時,我們還通過實驗驗證了我們的方法比非剛性ICP算法更穩健,並提供更準確的表面配準。在重建任務中,我們展示瞭如何使用我們的概率框架來估計缺失數據的後驗分佈,而不假設一個固定的點對點對應。我們已經爲社區公開了我們的註冊框架。

A Single Video Super-Resolution GAN for Multiple Downsampling Operators based on Pseudo-Inverse Image Formation Models
Authors Santiago L pez Tapia, Alice Lucas, Rafael Molina, Aggelos K. Katsaggelos
高清和超高清顯示器的普及使得需要一種方法來改善已經以低得多的分辨率獲得的視頻的質量。當前的視頻超分辨率方法對於訓練和測試退化模型之間的不匹配並不健壯,因爲它們針對單個降級模型進行訓練,通常是雙三次下采樣。這導致它們在現實生活中的性能惡化。同時,在學習期間僅使用均方誤差導致所得圖像太平滑。在這項工作中,我們提出了一種新的用於視頻超分辨率的卷積神經網絡,該網絡對多種退化模型具有魯棒性。在訓練過程中,這是在大型慢速和快速運動場景數據集上進行的,除了平滑約束外,它還使用僞逆圖像形成模型作爲網絡結構的一部分與感知損失相結合,消除了源自這些感性損失。實驗驗證表明,我們的方法優於當前最先進的方法,並且對多種降級具有魯棒性。

CSSegNet: Fine-Grained Cardiac Structures Segmentation Using Dilated Pyramid Pooling in U-net
Authors Fei Feng, Jiajia Luo
心臟結構分割在醫學分析程序中起着重要作用。圖像模糊邊界問題總是限制分割性能。爲了解決這個難題,我們提出了一種新穎的網絡結構,它在網絡編碼和解碼階段之間的跳過連接中嵌入了擴展的金字塔池。擴張的金字塔彙集塊由具有不同視野範圍的卷積和彙集操作組成。配備這種模塊的模型,可以賦予多尺度視覺能力。結合其他技術,它包括多尺度初始特徵提取和多分辨率預測聚合模塊。對於骨幹特徵提取網絡,我們提到了受益於可分離卷積的Xception網絡的基本思想。根據2017年MICCAI ACDC挑戰階段數據評估,我們提出的模型可以實現左心室LVC腔和右心室腔RVC分割任務的最新技術性能。結果表明,我們的方法在幾何Dice係數,Hausdorff距離和臨牀評價彈射分數,體積方面都有優勢,它們分別代表更接近的邊界和更具統計學意義。

Training Auto-encoder-based Optimizers for Terahertz Image Reconstruction
Authors Tak Ming Wong, Matthias Kahl, Peter Haring Bol var, Andreas Kolb, Michael M ller
太赫茲THz傳感是一種很有前景的成像技術,適用於各種不同的應用。然而,爲這些應用提取可解釋的和物理上有意義的參數需要解決反問題,其中由這些參數確定的模型函數需要適合於測量數據。由於潛在的優化問題是非凸的並且解決成本非常高,我們建議直接從測量數據中學習合適參數的預測。更準確地說,我們開發了一種基於模型的自動編碼器,其中編碼器網絡預測合適的參數,並且解碼器固定爲物理上有意義的模型函數,使得我們可以以無人監督的方式訓練編碼網絡。我們用數字方式說明,得到的網絡比經典優化技術快140倍,同時只用稍高的目標值進行預測。使用這種預測作爲局部優化技術的起點使我們能夠收斂到更好的局部最小值,大約是優化的兩倍,而無需基於網絡的初始化。

Multi-scale GANs for Memory-efficient Generation of High Resolution Medical Images
Authors Hristina Uzunova, Fabian Jacob, Alex Frydrychowicz, Heinz Handels, Jan Ehrhardt
目前,生成對抗性網絡GAN由於其大量計算需求而很少應用於大尺寸的醫學圖像,尤其是3D體積。我們提出了一種新的基於多尺度貼片的GAN方法來生成大的高分辨率2D和3D圖像。我們的主要想法是首先學習低分辨率版本的圖像,然後生成以先前尺度爲條件的連續增長分辨率的補丁。在域轉換用例場景中,生成尺寸爲512x512x512的3D胸部CT和尺寸爲2048x2048的胸部X射線,並且我們顯示,由於我們的方法的恆定GPU存儲器需求,可以生成任意大的高分辨率圖像。此外,與基於常見補丁的方法相比,我們的多分辨率方案可實現更好的圖像質量並防止補丁僞影。

Pathologist-Level Grading of Prostate Biopsies with Artificial Intelligence
Authors Peter Str m 1 , Kimmo Kartasalo 2 , Henrik Olsson 1 , Leslie Solorzano 3 , Brett Delahunt 4 , Daniel M. Berney 5 , David G. Bostwick 6 , Andrew J. Evans 7 , David J. Grignon 8 , Peter A. Humphrey 9 , Kenneth A. Iczkowski 10 , James G. Kench 11 , Glen Kristiansen 12 , Theodorus H. van der Kwast 7 , Katia R.M. Leite 13 , Jesse K. McKenney 14 , Jon Oxley 15 , Chin Chen Pan 16 , Hemamali Samaratunga 17 , John R. Srigley 18 , Hiroyuki Takahashi 19 , Toyonori Tsuzuki 20 , Murali Varma 21 , Ming Zhou 22 , Johan Lindberg 1 , Cecilia Bergstr m 23 , Pekka Ruusuvuori 2 , Carolina W hlby 3 and 24 , Henrik Gr nberg 1 and 25 , Mattias Rantalainen 1 , Lars Egevad 26 , Martin Eklund 1 1 Department of Medical Epidemiology and Biostatistics, Karolinska Institutet, Stockholm, Sweden, 2 Faculty of Medicine and Health Technology, Tampere University, Tampere, Finland, 3 Centre for Image Analysis, Department of Information Technology, Uppsala University, Uppsala, Sweden, 4 Department of Pathology and Molecular Medicine, Wellington School of Medicine and Health Sciences, University of Otago, Wellington, New Zealand, 5 Barts Cancer Institute, Queen Mary University of London, London, UK, 6 Bostwick Laboratories, Orlando, FL, USA, 7 Laboratory Medicine Program, University Health Network, Toronto General Hospital, Toronto, ON, Canada, 8 Department of Pathology and Laboratory Medicine, Indiana University School of Medicine, Indianapolis, IN, USA, 9 Department of Pathology, Yale University School of Medicine, New Haven, CT, USA, 10 Department of Pathology, Medical College of Wisconsin, Milwaukee, WI, USA, 11 Department of Tissue Pathology and Diagnostic Oncology, Royal Prince Alfred Hospital and Central Clinical School, University of Sydney, Sydney, NSW, Australia, 12 Institute of Pathology, University Hospital Bonn, Bonn, Germany, 13 Department of Urology, Laboratory of Medical Research, University of S o Paulo Medical School, S o Paulo, Brazil, 14 Pathology and Laboratory Medicine Institute, Cleveland Clinic, Cleveland, OH, USA, 15 Department of Cellular Pathology, Southmead Hospital, Bristol, UK, 16 Department of Pathology, Taipei Veterans General Hospital, Taipei, Taiwan, 17 Aquesta Uropathology and University of Queensland, Brisbane, Qld, Australia, 18 Department of Laboratory Medicine and Pathobiology, University of Toronto, Toronto, ON, Canada, 19 Department of Pathology, Jikei University School of Medicine, Tokyo, Japan, 20 Department of Surgical Pathology, School of Medicine, Aichi Medical University, Nagoya, Japan, 21 Department of Cellular Pathology, University Hospital of Wales, Cardiff, UK, 22 Department of Pathology, UT Southwestern Medical Center, Dallas, TX, USA, 23 Department of Immunology, Genetics and Pathology, Uppsala University, Uppsala, Sweden, 24 BioImage Informatics Facility of SciLifeLab, Uppsala, Sweden, 25 Department of Oncology, S t G ran Hospital, Stockholm, Sweden, 26 Department of Oncology and Pathology, Karolinska Institutet, Stockholm, Sweden
背景技術越來越多的前列腺活組織檢查和全球尿路病理學家的短缺給病理科帶來了壓力。另外,分級內和觀察者之間的高度可變性可導致前列腺癌的過度和不足。人工智能AI方法可以通過幫助病理學家減少工作量和協調分級來緩解這些問題。

FastDVDnet: Towards Real-Time Video Denoising Without Explicit Motion Estimation
Authors Matias Tassano, Julie Delon, Thomas Veit
在本文中,我們提出了一種基於卷積神經網絡架構的最先進的視頻去噪算法。直到最近,使用神經網絡的視頻去噪已經在很大程度上被探索的領域,並且現有方法不能與基於最佳補丁的方法的性能競爭。我們在本文中介紹的方法稱爲FastDVDnet,與其他最先進的競爭對手相比,顯示出相似或更好的性能,計算時間明顯更短。與其他現有的神經網絡降噪器相比,我們的算法具有多種理想的特性,例如快速運行時間,以及使用單一網絡模型處理各種噪聲水平的能力。其架構的特性使得可以避免使用昂貴的運動補償階段,同時實現卓越的性能。它的去噪性能和較低的計算負荷之間的結合使得該算法對於實際的去噪應用具有吸引力。我們將我們的方法與不同的現有算法進行比較,包括視覺和客觀質量指標。

The Ethical Dilemma when (not) Setting up Cost-based Decision Rules in Semantic Segmentation
Authors Robin Chan, Matthias Rottmann, Radin Dardashti, Fabian H ger, Peter Schlicht, Hanno Gottschalk
用於語義分割的神經網絡可以被視爲統計模型,其爲一個圖像的每個像素提供預定義類別上的概率分佈。然後通常通過最大後驗概率MAP獲得預測類,其在決策理論中被稱爲貝葉斯規則。從決策理論我們也知道貝葉斯規則對於簡單對稱代價函數是最優的。因此,它同等地對兩個不同類別之間的每種類型的混淆進行加權,例如,給定城市街道場景的圖像,如果網絡將人與街道或建築物與樹混淆,則在成本函數中沒有區別。直觀地說,可能存在比其他類更重要的類混淆。在這項工作中,我們希望提高對明確界定混淆成本和相關道德困難的可能性的認識,如果它歸結爲提供數字。我們從不同的極端視角定義了兩個成本函數,即利己主義和利他主義,並展示了在MAP,利己主義和利他決策規則之間進行插值時,安全相關數量如精確回憶和分段明顯的假陽性負利率變化。

+++Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-Shot Cross-Dataset Transfer
Authors Katrin Lasinger, Ren Ranftl, Konrad Schindler, Vladlen Koltun
單眼深度估計的成功依賴於大量且多樣化的訓練集。由於在不同環境中大規模獲取密集地面實況深度所帶來的挑戰,出現了許多具有不同特徵和偏差的數據集。我們開發的工具可以在訓練期間混合多個數據集,即使它們的註釋不兼容。特別是,我們提出了一個培訓目標,該目標對於深度範圍和規模的變化是不變的。有了這個目標,我們將探索豐富的3D電影培訓數據來源。我們證明,儘管存在普遍的不準確性,3D電影構成了與現有訓練集互補的有用數據源。我們評估所提出的各種數據集方法,重點關注零射擊交叉數據集傳輸,通過在訓練期間未見到的數據集上對其進行評估來測試學習模型的一般性。實驗證實,混合來自互補源的數據可以改善深度估計,特別是在以前看不見的數據集上。一些結果顯示在補充視頻中

Unsupervised Deformable Image Registration Using Cycle-Consistent CNN
Authors Boah Kim, Jieun Kim, June Goo Lee, Dong Hwan Kim, Seong Ho Park, Jong Chul Ye
醫學圖像配準是生物醫學圖像分析(如癌症診斷)的關鍵處理步驟之一。最近,基於深度學習的監督和非監督圖像配準方法由於其優異的性能而被廣泛研究,儘管與傳統方法相比具有超快的計算時間。在本文中,我們提出了一種新的無監督醫學圖像配準方法,該方法使用循環一致性來訓練深度神經網絡以用於3D體積的可變形配準。由於循環一致性,所提出的深度神經網絡可以採用具有嚴重變形的各種圖像數據以進行精確配準。使用多相肝臟CT圖像的實驗結果表明,我們的方法在幾秒鐘內提供非常精確的3D圖像配準,從而導致更準確的癌症大小估計。

Brno Mobile OCR Dataset
Authors Martin Ki , Michal Hradi , Old ich Kodym
我們從手持移動設備捕獲的低質量圖像中引入用於文檔光學字符識別的Brno Mobile OCR數據集B MOD。雖然高質量掃描文檔的OCR是一個成熟的領域,其中有許多商業工具可用,並且存在大量的文本數據集,但是沒有現有的數據集可用於開發和測試對非均勻照明,圖像模糊有效的文檔OCR方法,強大的噪音,內置去噪,銳化,壓縮和其他工件,存在於移動設備的許多照片中。

An Integrated Image Filter for Enhancing Change Detection Results
Authors Dawei Li, Siyuan Yan, Xin Cai, Yan Cao, Sifan Wang
變化檢測是計算機視覺中的基本任務。儘管取得了顯着進步,但由於普遍存在的噪聲和干擾,大多數變化檢測方法在挑戰性場景中都不能很好地工作。如今,後處理方法,例如旨在增強二元變化檢測結果的MRF和CRF仍然不符合對於特殊場景的普遍性的要求,對不同類型的檢測方法的適用性,準確性和實時性能。受圖像濾波性質的啓發,圖像濾波將噪聲與像素觀測分開並恢復斑塊的真實結構,我們考慮利用圖像濾波器來增強檢測掩模。在本文中,我們提出了一個集成濾波器,它包括一個加權局部引導圖像濾波器和一個加權時空樹濾波器。時空樹濾波器利用相鄰視頻幀的全局時空信息,同時導引濾波器對像素進行局部窗濾波,以增強粗變檢測掩模。主要貢獻是三個,所提出的濾波器可以充分利用連續幀中相同對象的信息,通過在時空最小生成樹上的計算來改善其當前檢測掩模.i集成濾波器具有局部濾波和全局濾波的優點它不僅具有良好的邊緣保持特性,而且還可以處理紋理豐富且色彩豐富的前景區域。iii與一些常用的增強方法MRF和CRF不同,MRF和CRF需要先驗背景概率或每個像素的後驗前景概率來改善粗略檢測掩模我們的方法是一種通用的增強濾波器,可以在許多不同類型的變化檢測方法之後應用,特別適用於視頻序列。

Dynamic Face Video Segmentation via Reinforcement Learning
Authors Yujiang Wang, Jie Shen, Mingzhi Dong, Yang Wu, Shiyang Cheng, Maja Pantic
對於實時語義視頻分段,最近的工作利用具有密鑰調度器的動態框架來進行在線密鑰非密鑰決策。一些工作使用固定密鑰調度策略,而其他工作則提出基於啓發式策略的自適應密鑰調度方法,這兩種方法都可能導致不理想的全局性能。爲了克服這一侷限性,我們建議將動態視頻分割中的在線關鍵決策過程建模爲深層強化學習問題,並從關於決策歷史的專家信息和最大化全球回報的過程中學習有效和有效的調度策略。此外,我們研究了動態視頻分割在面部視頻中的應用,這是一個以前沒有被研究過的領域。通過對300VW數據集的評估,我們證明了我們的強化密鑰調度器的性能優於各種基線方法的性能,並且我們的方法也可以實現實時處理速度。據我們所知,這是在動態視頻分割中使用強化學習進行在線關鍵幀決策的第一項工作,也是在面部視頻上應用的第一項工作。

Lane Detection and Classification using Cascaded CNNs
Authors Fabio Pizzati, Marco Allodi, Alejandro Barrera, Fernando Garc a
車道檢測對於自動駕駛車輛非常重要。出於這個原因,許多方法使用車道邊界信息來定位街道內的車輛,或者集成基於GPS的定位。與許多其他基於計算機視覺的任務一樣,卷積神經網絡CNN代表了識別車道邊界的現有技術。但是,車道邊界的位置是w.r.t.車輛可能不足以進行可靠的定位,因爲也可能需要路徑規劃或關於車道類型的定位信息。在這項工作中,我們提出了一個基於兩個級聯神經網絡的實時運行的車道邊界識別,聚類和分類的端到端系統。爲了構建系統,使用8個不同的類標記了用於車道檢測的TuSimple數據集的14336個車道邊界實例。我們的數據集和推理代碼可在線獲取。

Semi-Bagging Based Deep Neural Architecture to Extract Text from High Entropy Images
Authors Pranay Dugar, Anirban Chatterjee, Rajesh Shreedhar Bhat, Saswata Sahoo
從包含多個對象的圖像中提取各種大小和形狀的文本是許多情況下的重要問題,尤其是與電子商務,自然場景中的增強現實輔助系統等相關的。僅基於CNN的現有作品通常在最佳時執行次優。圖像包含具有多個對象的高熵區域。本文提出了一種端到端文本檢測策略,該策略結合了分割算法和不同類型的多個文本檢測器的集合,以獨立地檢測每個單獨圖像片段中的文本。所提出的策略涉及基於超像素的圖像分割器,其將圖像分成多個區域。開發了一種卷積深度神經結構,它可以在每個分段上工作,並檢測多種形狀,大小和結構的文本。它在檢測圖像中的文本的覆蓋範圍方面優於競爭方法,尤其是在不同類型和大小的文本與各種其他對象一起在小區域中被壓縮的方法。此外,所提出的文本檢測方法連同文本識別器在從高熵圖像中提取文本方面優於現有技術方法。我們在電子商務網站上的產品圖像數據集上驗證結果。

An Analysis of Deep Neural Networks with Attention for Action Recognition from a Neurophysiological Perspective
Authors Swathikiran Sudhakaran, Oswald Lanz
我們回顧了最近基於深度學習的三種動作識別方法,並從神經生理學的角度對這些方法進行了簡要的比較分析。我們假設在三種呈現的基於深度學習的方法和一些關於人類大腦功能的現有假設之間存在一些類比。

Improving the generalizability of convolutional neural network-based segmentation on CMR images
Authors Chen Chen, Wenjia Bai, Rhodri H. Davies, Anish N. Bhuva, Charlotte Manisty, James C. Moon, Nay Aung, Aaron M. Lee, Mihir M. Sanghvi, Kenneth Fung, Jose Miguel Paiva, Steffen E. Petersen, Elena Lukaschuk, Stefan K. Piechnik, Stefan Neubauer, Daniel Rueckert
卷積神經網絡基於CNN的分割方法爲臨牀醫生評估心臟MR圖像中心臟的結構和功能提供了一種有效且自動化的方式。雖然當訓練和測試圖像來自同一域時,CNN通常可以高精度地執行分割任務,例如,相同的掃描儀或站點,它們的性能通常會在來自不同掃描儀或臨牀站點的圖像上顯着降低。我們提出了一種簡單而有效的方法,通過精心設計數據規範化和增強策略來提高網絡泛化能力,以適應多站點,多掃描儀臨牀成像數據集中的常見場景。我們證明,在英國生物銀行的單一站點單掃描儀數據集上訓練的神經網絡可以成功應用於跨不同站點和不同掃描儀分割心臟MR圖像,而不會顯着降低精度。具體而言,該方法在來自英國生物銀行的大量3,975名受試者中進行了訓練。然後在來自英國生物銀行的600個不同受試者上進行域內測試,另外兩個用於交叉域測試ACDC數據集100個受試者,1個站點,2個掃描儀和BSCMR AS數據集599個受試者,6個站點,9個掃描儀。所提出的方法在UK Biobank測試集上產生有希望的分割結果,其與文獻中先前報道的值相當,同時在跨域測試集上也表現良好,實現左心室的平均Dice度量爲0.90,心肌爲0.81。 ACDC數據集上的右心室爲0.82,左心室爲0.89,BSCMR AS數據集上的心肌爲0.83。所提出的方法提供了一種潛在的解決方案,以改善基於CNN的模型對於交叉掃描儀和跨站點心臟MR圖像分割任務的概括性。

TedEval: A Fair Evaluation Metric for Scene Text Detectors
Authors Chae Young Lee, Youngmin Baek, Hwalsuk Lee
儘管最近成功的場景文本檢測方法,但是共同的評估度量未能在檢測器之間提供公平和可靠的比較。它們在反映文本檢測任務的固有特徵方面具有明顯的缺點,無法解決諸如粒度,多線和字符不完整之類的問題。在本文中,我們提出了一種名爲TedEval Text detector Evaluation的新型評估協議,它通過實例級別匹配和字符級別評分來評估文本檢測。基於可以成功識別的堅定標準獎勵行爲,TedEval可以作爲比較和量化所有難度級別的檢測質量的可靠標準。在這方面,我們相信TedEval可以在開發最先進的場景文本檢測器中發揮關鍵作用。該代碼可在以下網站公開獲取

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation
Authors Qiang Zhou, Zilong Huang, Xinggang Wang, Yongchao Gong, Han Shen, Lichao Huang, Chang Huang, Wenyu Liu
視頻對象分割VOS旨在僅在給定第一幀中的註釋的情況下進行像素級對象跟蹤。由於視頻中物體的視覺變化很大,而且缺乏訓練樣本,儘管深度學習的發展正在蓬勃發展,但仍然是一項艱鉅的任務。爲了解決VOS問題,我們通過提議的統一框架引入了幾個新的見解,該框架由對象提議,跟蹤和分段組件組成。對象提議網絡將對象性信息作爲通用知識傳送到VOS中,跟蹤網絡從提議中識別目標對象,並且基於跟蹤結果利用新穎的基於動態參考的模型自適應方案來執行分割網絡。在DAVIS 17數據集和YouTube VOS數據集上進行了大量實驗,我們的方法在幾個視頻對象分割基準上實現了最先進的性能。我們公開提供代碼

Inverse Attention Guided Deep Crowd Counting Network
Authors Vishwanath A. Sindagi, Vishal M. Patel
在本文中,我們解決了擁擠場景中人羣計數的挑戰性問題。具體而言,我們提出反向注意引導深度人羣計數網絡IA DCCN,其通過反向關注機制有效地將分段信息注入到計數網絡中,從而導致顯着的改進。所提出的方法基於VGG 16,是一步訓練框架,易於實施。分段信息的使用導致最小的計算開銷,並且不需要任何額外的註釋。我們通過詳細的分析和消融研究證明了分割引導反向注意的重要性。此外,所提出的方法在三個具有挑戰性的人羣計數數據集上進行評估,並且顯示出對幾種最近的方法實現了顯着的改進

Generative Guiding Block: Synthesizing Realistic Looking Variants Capable of Even Large Change Demands
Authors Minho Park, Hak Gu Kim, Yong Man Ro
逼真的圖像合成是生成在感知上與實際圖像無法區分的圖像。然而,生成具有大變化的實際外觀圖像(例如,大的空間變形和大的姿勢變化)是非常具有挑戰性的。在逼真的圖像生成中需要考慮處理大的變化以及保留外觀。在本文中,我們提出了一種新穎的逼真的圖像合成方法,特別是在大的變化需求。爲此,我們設計了生成性指導塊。所提出的生成引導塊包括逼真的外觀保持鑑別器和自然變化轉換鑑別器。通過將所提出的生成引導塊納入生成模型,增強了生成模型層的潛在特徵,以合成逼真的目標和目標變異圖像。通過實驗中的定性和定量評估,我們證明了與現有技術相比,所提出的生成引導塊的有效性。

Multi-Cue Vehicle Detection for Semantic Video Compression In Georegistered Aerial Videos
Authors Noor Al Shakarji, Filiz Bunyak, Hadi Aliakbarpour, Guna Seetharaman, Kannappan Palaniappan
從機載相機獲取的視頻中檢測諸如車輛之類的移動物體對於視頻分析應用非常有用。使用用於車載移動物體檢測的快速低功率算法還將爲場景內容識別圖像壓縮提供基於感興趣區域的語義信息。這將在低帶寬機載雲計算網絡中實現更有效和靈活的通信鏈路利用。儘管最近在無人機或無人機平臺和成像傳感器技術方面取得了進展,但由於物體尺寸小,平臺運動和相機抖動,遮擋,場景複雜性和成像條件惡化,航拍視頻的車輛檢測仍然具有挑戰性。本文提出了一種高效的移動車輛檢測管道,它利用深度學習結合通量張量空間時間濾波,以互補的方式協同融合外觀和基於運動的檢測。我們提出的多線索管道能夠通過智能融合檢測高精度和回憶的移動車輛,同時濾除諸如停放車輛等誤報。實驗結果表明,結合移動車輛的上下文信息可以實現超過100 1的高語義壓縮比和高圖像保真度,以更好地利用有限帶寬空中對地網絡鏈路。

Procedure Planning in Instructional Videos
Authors Chien Yi Chang, De An Huang, Danfei Xu, Ehsan Adeli, Li Fei Fei, Juan Carlos Niebles
我們在教學視頻中提出了一個新的具有挑戰性的任務程序。與現有的規劃問題不同,狀態和動作空間都被很好地定義,教學視頻中規劃的關鍵挑戰是狀態和動作空間都是開放的詞彙。我們通過潛在的空間規劃來解決這一挑戰,我們建議明確利用狀態和行動在學習的可計劃潛在空間中的共軛關係所施加的約束。我們評估大規模現實世界教學視頻的程序規劃和演練計劃。我們的實驗表明,我們能夠在沒有明確監督的情況下學習可計劃的語義表示。這使得能夠對現實世界視頻進行順序推理,並且與現有規劃方法和神經網絡策略相比,可以實現更強的泛化。

Multi-scale Template Matching with Scalable Diversity Similarity in an Unconstrained Environment
Authors Yi Zhang, Chao Zhang, Takuya Akashi
我們提出了一種新穎的多尺度模板匹配方法,該方法對於無約束環境中的縮放和旋轉都是魯棒的。背後的關鍵組成部分是稱爲可擴展多樣性相似性SDS的相似性度量。具體而言,SDS利用兩組點之間的最近鄰NN匹配的雙向多樣性。爲了解決相似性度量的尺度穩健性,將局部外觀和等級信息聯合用於NN搜索。此外,通過在比例變化上引入懲罰項,並將極半徑項引入相似性度量,SDS顯示出對整體尺寸和旋轉變化以及非剛性幾何變形,背景雜波和遮擋的良好性能相似性度量。 。 SDS的性質在統計學上是合理的,並且對合成和現實世界數據的實驗表明SDS可以明顯優於現有技術方法。

+++Disentangled Makeup Transfer with Generative Adversarial Network
Authors Honglun Zhang, Wenqing Chen, Hao He, Yaohui Jin
面部化妝轉移是一種廣泛使用的技術,旨在將化妝風格從參考面部圖像轉移到非化妝面部。現有文獻利用對抗性損失,使得生成的面具有高質量和真實的面貌,但只能產生固定的輸出。受到解纏表現的最新進展的啓發,在本文中,我們提出了DMT解纏化妝轉移,一種統一的生成對抗網絡,以實現不同的化妝轉移場景。我們的模型包含一個身份編碼器和一個化妝編碼器,可以解開任意麪部圖像的個人身份和化妝風格。基於兩個編碼器的輸出,採用解碼器來重建原始面部。我們還應用鑑別器來區分真實面孔和假面孔。因此,我們的模型不僅可以將化妝風格從一個或多個參考面部圖像轉移到具有可控強度的非化妝面部,而且還可以生成具有從先前分佈採樣的樣式的各種輸出。大量實驗表明,我們的模型優於現有文獻,通過爲不同的化妝品轉移場景生成高質量的結果。

High-speed Railway Fastener Detection and Localization System
Authors Qing Song, Yao Guo, Lu Yang, Jianan Jiang, Chun Liu, Mengjie Hu
鐵路運輸是中國國民經濟的動脈,在當今社會的發展中起着重要作用。由於中國鐵路安全檢查技術起步較晚,目前的鐵路安全檢查任務主要依靠人工檢查,但人工檢查效率低,需要大量的人力物力。在本文中,我們建立了鋼軌緊固件檢測圖像數據集,其中包含4種類型的4,000個軌道緊固件圖片。我們使用區域建議網絡來生成感興趣的區域,使用卷積神經網絡提取特徵,並將分類器融合到檢測網絡中。通過在線硬樣本挖掘來提高模型的準確性,我們通過減少感興趣區域的數量來優化更快的RCNN檢測框架。最後,在TITAN X GPU的部署環境中,模型精度達到99,速度達到35FPS。

Learnable Gated Temporal Shift Module for Deep Video Inpainting
Authors Ya Liang Chang, Zhe Yu Liu, Kuan Ying Lee, Winston Hsu
如何有效地利用時態信息以一致的方式恢復視頻是視頻修復問題的主要問題。傳統的2D CNN在圖像修復方面取得了良好的性能,但往往導致時間上不一致的結果,當應用於視頻時幀會閃爍

Language2Pose: Natural Language Grounded Pose Forecasting
Authors Chaitanya Ahuja, Louis Philippe Morency
從自然語言句子生成動畫可以在許多領域中應用,例如電影腳本可視化,虛擬人體動畫和機器人運動規劃。這些句子可以描述這些動作的不同類型的動作,速度和方向,並且可能描述目標目的地。這種語言構成應用的核心建模挑戰是如何將語言概念映射到運動動畫。

Nature Inspired Dimensional Reduction Technique for Fast and Invariant Visual Feature Extraction
Authors Ravimal Bandara, Lochandaka Ranathunga, Nor Aniza Abdullah
在某些計算機視覺應用中,快速且不變的特徵提取是至關重要的,其中計算時間在分類器的訓練和測試階段受到限制。在本文中,我們提出了一種自然啓發的降維技術,用於快速和不變的視覺特徵提取。人腦可以交換空間和光譜分辨率以重建視覺感知中的缺失顏色。該現象在印刷工業中被廣泛用於通過稱爲顏色抖動的技術來減少用於印刷的顏色的數量。在這項工作中,我們採用快速誤差擴散顏色抖動算法,通過採用新的Hessian矩陣分析技術降低光譜分辨率並提取顯着特徵,然後由空間色彩直方圖描述。與幾種不同的手工製作和深度學習特徵相比,在對象的方向,視角和光照的極大變化下評估所提出特徵的計算時間,描述符維度和分類性能。在桌面PC和Raspberry Pi設備上進行的兩個公開可用的對象數據集,線圈100和ALOI的廣泛實驗顯示了使用所提出的方法的多個優點,例如較低的計算時間,高魯棒性和在弱監督下的可比分類精度環境。此外,它顯示了僅利用一小部分可用硬件資源在傳統SoC器件內部工作的能力。

+++Multiview Aggregation for Learning Category-Specific Shape Reconstruction
Authors Srinath Sridhar, Davis Rempe, Julien Valentin, Sofien Bouaziz, Leonidas J. Guibas
我們研究了從先前未觀察到的對象實例的可變數量的RGB視圖中學習類別特定的3D表面形狀重建的問題。用於多視圖形狀重建的大多數方法在稀疏形狀表示上操作,或者假設固定數量的視圖。我們提出了一種方法,可以估計密集的3D形狀,並在多個和不同數量的輸入視圖中聚合形狀。給定對象實例的單個輸入視圖,我們提出了一種表示,其編碼可見對象表面部分的密集形狀以及視線後面的表面並被可見表面遮擋。當多個輸入視圖可用時,形狀表示被設計爲使用非常小的並集操作聚合成單個3D形狀。我們訓練2D CNN以學習從可變數量的視圖1或更多視圖預測該表示。我們通過使用在特徵級別促進順序不可知視圖信息交換的排列等變層來進一步聚合多視圖信息。實驗表明,我們的方法能夠生成對象的密集重建,並且能夠在添加更多視圖時產生更好的結果。

DeepTEGINN: Deep Learning Based Tools to Extract Graphs from Images of Neural Networks
Authors Gustavo Borges Moreno e Mello, Vibeke Devold Valderhaug, Sidney Pontes Filho, Evi Zouganeli, Ioanna Sandvig, Stefano Nichele
在大腦中,神經元網絡的結構定義了這些神經元如何實現作爲思想基礎的計算以及動物和人類的行爲。如果我們可以將神經元網絡描述爲圖形,我們可以使用圖論的方法來研究其結構或使用細胞自動機來數學評估其功能。雖然,用於分析圖形和細胞自動機的軟件可廣泛使用。從腦細胞網絡圖像中提取圖形仍然很困難。神經組織是異質的,解剖學上的差異可能反映了功能的相關差異。在這裏,我們介紹一個基於深度學習的工具箱,從腦組織的圖像中提取圖形。該工具箱提供了一個易於使用的框架,允許系統神經科學家通過結合圖像處理,深度學習和圖論的方法,基於腦組織圖像生成圖形。目標是簡化計算機視覺深度學習方法的培訓和使用,並促進其集成到圖形提取管道中。通過這種方式,工具箱提供了所需的繁重的跟蹤,排序和分類手動過程的替代方案。我們期望將機器學習方法民主化到計算機視覺專家之外的更廣泛的用戶羣體,並提高從大腦圖像數據集中提取圖形的時間效率,這可以導致對人類思維的進一步理解。

Associative Embedding for Game-Agnostic Team Discrimination
Authors Maxime Istasse, Julien Moreau, Christophe De Vleeschouwer
在沒有事先知道每個團隊的視覺外觀時,爲體育比賽中的球員分配球隊標籤並不是一項微不足道的任務。我們的工作建立在卷積神經網絡CNN上以學習描述符,即像素智能嵌入向量,對於描繪來自同一團隊的玩家的像素類似,並且當像素對應於不同的團隊時不同。這個想法的優點是不需要每場比賽學習,一旦比賽開始就允許有效的球隊歧視。原則上,該方法遵循引入的關聯嵌入框架

Learning to aggregate feature representations
Authors Guy Gaziv
阿爾戈英雄的挑戰需要構建一個多目標圖像編碼器到大腦活動信號。已知訓練用於圖像分類的諸如ResNet 50和AlexNet的深度網絡沿其中間階段產生特徵表示,其近似地模仿視覺層級。然而,Algonauts項目中引入的挑戰,包括組合來自多個主題的數據,依賴極少的相似性數據點,求解各種ROI以及多模態,需要設計一個可以有效適應這一點的靈活框架。這裏,我們建立在最近的現有技術分類網絡SE ResNeXt 50上,並構建其中間表示的自適應組合。雖然預訓練網絡是我們模型的支柱,但我們還是學習如何在網絡的五個階段聚合特徵表示。在學習過程中,我們的構造能夠調整和篩選網絡中每個階段的輸出,並由優化的目標控制。我們將我們的方法應用於Algonauts2019 fMRI和MEG挑戰。使用組合的fMRI和MEG數據,我們的方法被評爲兩項挑戰的前五名。令人驚訝的是,我們發現對於低階和高階區域EVC和IT,自適應聚合有利於在網絡後期產生的特徵。

Diminishing the Effect of Adversarial Perturbations via Refining Feature Representation
Authors Nader Asadi, AmirMohammad Sarfi, Sahba Tahsini, Mahdi Eftekhari
深度神經網絡極易受到對抗性示例的影響,這對這些最先進的模型帶來了嚴重的安全問題。已經提出了許多防禦方法來緩解這個問題。但是,他們中的很多人依賴於對目標模型的修改或額外培訓。在這項工作中,我們分析研究非擾動和擾動圖像的每一層表示,並顯示擾動對這些表示中的每一個的影響。因此,提出了一種基於白化着色變換的方法,以減少由對手引起的任何期望層的誤表示。我們的方法可以應用於任意模型的任何層,無需任何修改或額外的培訓。由於層表示的完全白化不容易區分,我們提出的方法對於白盒攻擊具有極強的魯棒性。此外,我們展示了我們的方法對一些最先進的黑盒攻擊的強度,如Carlini Wagner L2攻擊,我們表明我們的方法能夠抵禦一些非約束攻擊。

Symmetry Detection and Classification in Drawings of Graphs
Authors Felice De Luca, Md Iqbal Hossain, Stephen Kobourov
對稱性是自然界中從花朵和葉子,蝴蝶和鳥類以及從繪畫和雕塑到製造物品和建築設計的人造物體中觀察到的關鍵特徵。旋轉,平移,尤其是反射對稱,在圖的繪圖中也很重要。在旨在創建對稱圖形繪圖的算法中,檢測和分類對稱性非常有用,在本文中,我們爲這些任務提供了機器學習方法。具體來說,我們表明深度神經網絡可用於檢測92精度的反射對稱性。我們還構建了一個多類分類器,以區分反射水平,反射垂直,旋轉和平移對稱。最後,我們提供了具有特定對稱特徵的圖形圖像集合,這些圖形可以在機器學習系統中用於培訓,測試和驗證目的。我們的數據集,訓練有素的ML模型,源代碼可在線獲取。

Method of diagnosing heart disease based on deep learning ECG signal
Authors Jie Zhang, Bohao Li, Kexin Xiang, Xuegang Shi
心電信號診斷心臟病的傳統方法是人工觀察。一些人試圖將專業知識和信號處理結合起來,按心臟病類型對心電信號進行分類。但是,貨幣不足以在醫療應用中使用。我們開發了一種算法,它結合了信號處理和深度學習,將心電信號分類爲普通AF其他節律和噪聲,這有助於我們解決這個問題。通過小波變換證明我們可以獲得心電信號的時頻圖,並利用DNN對時頻圖進行分類,找出信號採集器可能具有的心臟病。總體而言,驗證集的準確率達到94%。根據2017年心臟病學CinC的PhysioNet Computing評估標準,該方法的F1得分爲0.957,高於2017年的第一名。

Speaker-independent classification of phonetic segments from raw ultrasound in child speech
Authors Manuel Sam Ribeiro, Aciel Eshky, Korin Richmond, Steve Renals
超聲舌頭成像UTI提供了在語音產生期間可視化聲道的便利方式。 UTI越來越多地用於語言治療,因此開發自動方法以幫助當前由語言治療師執行的各種耗時的手動任務變得很重要。一個關鍵的挑戰是將超聲舌象的自動處理推廣到以前看不見的揚聲器。在這項工作中,我們研究了在原始超聲波記錄下的語音片段舌形的分類,在幾種訓練場景下依賴於說話者,多個說話者,說話者獨立和說話者適應。我們觀察到模型在應用於訓練時未見的揚聲器數據時表現不佳。然而,當提供最小的附加揚聲器信息(例如平均超聲幀)時,模型更好地概括爲看不見的揚聲器。

Bayesian Optimization on Large Graphs via a Graph Convolutional Generative Model: Application in Cardiac Model Personalization
Authors Jwala Dhamala, Sandesh Ghimire, John L. Sapp, B. Milan Horacek, Linwei Wang
心臟模型的個性化涉及器官組織特性的優化,其在心臟的非歐幾里德幾何模型上在空間上變化。爲了表示組織特性的高維HD未知,大多數現有工作依賴於幾何模型的低維LD分區。雖然這會利用心臟的幾何形狀,但它具有有限的表現力,允許分區足夠小以進行有效優化。最近,變分自動編碼器VAE被用作更具表現力的生成模型,以將HD優化嵌入到LD潛在空間中。然而,它的歐幾里德性質忽略了內心豐富的幾何信息。在本文中,我們提出了一種新的圖卷積VAE,允許非歐幾里德數據的生成建模,並利用它將大圖的貝葉斯優化嵌入到一個小的潛在空間。這種方法通過引入表達生成模型來彌補先前作品的差距,該模型能夠結合基礎幾何的空間接近度和層次組成性的知識。它還允許跨不同幾何形狀傳遞學習特徵,這對於常規VAE是不可能的。我們在心臟電生理模型中估計組織興奮性的合成和實際數據實驗中證明了所提出方法的這些益處。

Dual Network Architecture for Few-view CT --Trained on ImageNet Data and Transferred for Medical Imaging
Authors Huidong Xie, Hongming Shan, Wenxiang Cong, Xiaohua Zhang, Shaohua Liu, Ruola Ning, Ge Wang
X射線計算機斷層掃描CT從投影數據重建橫截面圖像。然而,與CT掃描相關的電離X射線輻射可能誘發癌症和遺傳損傷並引起公衆關注,並且輻射劑量的減少引起了人們的極大關注。很少有人觀察CT圖像重建是減少輻射劑量的重要課題。最近,數據驅動算法已經顯示出解決少數視圖CT問題的巨大潛力。在本文中,我們開發了一種雙網絡架構DNA,用於直接從正弦圖重建圖像。在所提出的DNA方法中,基於點的完全連接層學習反投影處理,其請求比現有技術顯着更少的存儲器並且使用O C N N c參數,其中N和N c分別表示重建圖像的維度和投影數量。 C是一個可調節的參數,可以設置爲低至1.我們的實驗結果表明,DNA比其他最先進的方法產生了競爭性。有趣的是,當真實患者圖像的數量有限時,自然圖像可用於預訓練DNA以避免過度擬合。

Kite: Automatic speech recognition for unmanned aerial vehicles
Authors Dan Oneata, Horia Cucu
本文討論了構建適應無人機無人機控制的語音識別系統的問題。儘管無人機正在普及,但爲他們創建語音接口的任務基本上沒有得到解決。爲此,我們爲無人機控制引入了多模態評估數據集,包括口頭命令和相關圖像,它們代表了飛行員發出命令時無人機所看到的視覺背景。我們提供了基線結果並解決了兩個研究方向:語言模型的穩健程度,在列車時間給出一個不完整的命令列表,如何將視覺信息納入語言模型。我們發現循環神經網絡RNN是兩個任務的解決方案,它們可以使用少量命令成功調整,並且可以擴展爲使用視覺線索。我們的結果表明,即使命令圖像訓練關聯是自動生成的並且固有地不完美,基於圖像的RNN也優於其僅文本對應物。數據集和我們的代碼可在以下位置獲得

Robust Tensor Completion Using Transformed Tensor SVD
Authors Guangjing Song, Michael K. Ng, Xiongjun Zhang
在本文中,我們使用變換張量奇異值分解SVD研究魯棒張量完成,它採用酉變換矩陣代替傳統張量SVD中使用的離散傅立葉變換矩陣。主要動機是通過使用其他酉變換矩陣可以獲得比使用離散傅立葉變換矩陣更低的輸入等級張量。這對於穩健的張量完成更有效。高光譜,視頻和人臉數據集的實驗結果表明,使用變換張量SVD的魯棒張量完成問題的恢復性能在PSNR中比使用傅里葉變換和其他魯棒張量完成方法更好。

Accurate, reliable and fast robustness evaluation
Authors Wieland Brendel, Jonas Rauber, Matthias K mmerer, Ivan Ustyuzhaninov, Matthias Bethge
在過去五年中,神經網絡對最小對抗性擾動的敏感性已從一種特殊現象轉變爲深度學習中的核心問題。然而,儘管受到很多關注,但由於難以評估神經網絡模型的穩健性,因此對更強大模型的進展顯着受損。今天的方法是基於快速但脆弱的梯度攻擊,或者它們相當可靠但是得分和基於決策的攻擊速度慢。我們在這裏開發了一套新的基於梯度的對抗性攻擊,在面對梯度掩蔽時比其他基於梯度的攻擊更可靠,b表現更好,並且比現有的基於梯度的攻擊更具查詢效率,c可以靈活適應各種各樣的敵對標準,d幾乎不需要超參數調整。這些研究結果經過多種六種不同模型的精心驗證,在有針對性和無目標情景下都能保持L2和L無窮大。實施將在所有主要工具箱Foolbox,CleverHans和ART中提供。此外,我們將很快添加其他內容和實驗,包括我們攻擊的L0和L1版本,以及與其他L2和L無限攻擊的其他比較。我們希望這類攻擊能夠使穩健性評估更容易,更可靠,從而在尋找更強大的機器學習模型時提供更多信號。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


makeup
在這裏插入圖片描述
pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章