【AI視野·今日CV 計算機視覺論文速覽 第172期】Tue, 10 Dec 2019

AI視野·今日CS.CV 計算機視覺論文速覽
Tue, 10 Dec 2019
Totally 77 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚***WeatherNet用於惡劣天氣點雲去噪的網絡模型, (from 奔馳 KIT 德國)
基於[31]的LiLaBlock模塊,通過擴張卷積來放大:
在這裏插入圖片描述
模型的網絡結構:
在這裏插入圖片描述
去噪結果,大幅降低了雨霧的干擾:
在這裏插入圖片描述
code:https://github.com/rheinzler/PointCloudDeNoising
datset31:Boosting LIDAR-based ¨ semantic labeling by cross-modal training data generation,CEREMA,dataset

📚***SampleNet可差分的點雲採樣方法,提出了一種可差分的方法來簡化點雲,根據下游任務來對點雲抽取方法進行訓練,利用軟投影操作來從原始點雲中抽取,通過溫度參數和正則項來控制近似 (from Tel-Aviv University)
基於可差分網絡的採樣方法samplenet:
在這裏插入圖片描述在這裏插入圖片描述
採樣網絡的近似過程和軟投影操作:
在這裏插入圖片描述在這裏插入圖片描述
code:https://github.com/itailang/SampleNet

📚****SABL能意識到邊緣的目標檢測方法, 提出了一種通過定位bbox的四邊與邊緣距離的方法來進行目標檢測。(from 香港中文 南洋理工 浙大 中科大 商湯)
在這裏插入圖片描述在這裏插入圖片描述
基於邊緣的邊界預測定位方法:
在這裏插入圖片描述
粗定位和和特徵匹配優化:
在這裏插入圖片描述
code:https://github.com/open-mmlab/mmdetection

📚***Face Beautification人臉美化方法, 將目標參考人臉的妝容遷移到輸入人臉上進行化妝美顏(from Oben, Inc 西弗吉尼亞大學)
網絡遷移架構和精調網絡:
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述

📚ICDAR2019總結及數據集, (from ICDAR)
在這裏插入圖片描述
dataset:https://doi.org/10.5281/zenodo.3262372

1https://bvmm.irht.cnrs.fr/includes/php/rotation.php?vueId=1672647&niveauZoom=grand
2http://monasterium.net/mom/AT-HHStA/LindauCan/AUR 839 IV 21/charter
3https://nbn-resolving.org/urn:nbn:de:bvb:29-bv043513635-8
4http://doi.org/10.7891/e-manuscripta-18277
5https://bvmm.irht.cnrs.fr/
6https://gallica.bnf.fr
7http://digital.bib-bvb.de/R/5AL3NBRJYJV14LG6YC7RDNG4VHURY7SGHC4KASKKMDAH1LATRS-00090?func=collections-result&collection id=2397
8https://www.unibas.ch
9https://www.monasterium.net/mom/home
10https://www.bodleian.ox.ac.uk/
11https://bvmm.irht.cnrs.fr/
12Paris, Beaune, Angers, Metz, Auxerre, Versailles, Arras, Fecamp, Douai,etc.
13http://cudl.lib.cam.ac.uk/
14https://www.e-codices.unifr.ch
15https://gallica.bnf.fr
16Besanc¸on, Bourges, Angers, Rouen, Louviers
17https://library.harvard.edu/
18http://library.stanford.edu/
19https://www.monasterium.net/mom/home
20https://github.com/anguelos/wi19 evaluate/tree/master/srslbp
21https://github.com/masyagin1998/robin

📚Bundle Adjustment Revisited, 對於BA方法的回顧的改進,包括提高效率的分佈式計算方法。(from 北大 圖形交互實驗室)

📚SolarNet,檢測衛星圖像中的太陽能電池板 (from 微衆銀行)
太陽能發電廠檢測以及全國太陽能電場分佈:
在這裏插入圖片描述在這裏插入圖片描述
datset:our dataset deepsolar dataset our+deepsolar dataset

📚從視頻中估計運動和深度的自監督方法, (from ETH Zurich)
在這裏插入圖片描述

📚基於張量訓練解耦的3DCNN的模型壓縮方法, (from 西安交大 )
在這裏插入圖片描述

📚**Deep Reflection Prior, 基於反射的統計先驗來進行圖像中的反射去除。(from 斯坦福)
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

📚從二維圖像抽取三維紋理,利用生成模型從二維圖像種抽取出紋理編碼,並在三維形狀中解碼、合成與插值。 (from 倫敦大學學院 adobe)
在這裏插入圖片描述
Project website: geometry.cs.ucl.ac.uk/projects/2019/neuraltexture

📚FaultNet, 檢測鐵路上的各種閥門(from A*STAR, Singapore)
在這裏插入圖片描述
dataset:Singapore Mass Rapid Transit (SMRT) dataset

📚檢測X光安檢機中的危險品, (from Center for Cyber-Physical Systems (C2PS))
在這裏插入圖片描述
dataset:GDXray dataset

📚相機參數對網絡泛化性影響, (from 斯坦福)

📚用於點雲表示的膠囊網絡,(from apple)
在這裏插入圖片描述在這裏插入圖片描述


Daily Computer Vision Papers

Side-Aware Boundary Localization for More Precise Object Detection
Authors Jiaqi Wang, Wenwei Zhang, Yuhang Cao, Kai Chen, Jiangmiao Pang, Tao Gong, Jianping Shi, Chen Change Loy, Dahua Lin
當前的對象檢測框架主要依靠邊界框迴歸來定位對象。儘管近年來取得了長足的進步,但包圍盒迴歸的精度仍然不能令人滿意,因此限制了對象檢測的性能。我們觀察到精確定位需要仔細放置邊界框的每一側。但是,專注於預測中心和大小的主流方法並不是完成此任務的最有效方法,尤其是當錨點和錨杆之間存在較大差異的位移時。

An Empirical Study on Position of the Batch Normalization Layer in Convolutional Neural Networks
Authors Moein Hasani, Hassan Khotanlou
在本文中,我們研究瞭如何通過更改批歸一化BN層的位置來影響卷積神經網絡CNN的訓練。我們的實驗選擇了三種不同的卷積神經網絡。這些網絡是AlexNet,VGG 16和ResNet20。我們證明,通過將BN層使用其他位置而不是原始論文建議的位置,可以提高BN算法提供的訓練速度。此外,我們討論了處於特定位置的BN層如何幫助訓練一個網絡而不是另一個網絡。在這項研究中已經研究了BN層的三個不同位置。這些位置是在卷積層和非線性激活函數之間的BN層,在非線性激活函數之後的BN層,最後是在每個卷積層之前的BN層。

Deep CMST Framework for the Autonomous Recognition of Heavily Occluded and Cluttered Baggage Items from Multivendor Security Radiographs
Authors Taimur Hassan, Salman H. Khan, Samet Akcay, Mohammed Bennamoun, Naoufel Werghi
自過去的二十年以來,行李掃描已成爲全球首要的航空安全問題之一。手動檢查行李物品是一個繁瑣,主觀且效率低下的過程,許多研究人員爲此目的開發了基於X射線圖像的自主系統。但是,據我們所知,到目前爲止,還沒有一種框架能夠識別X射線掃描中嚴重堵塞和混亂的行李物品,而與採集設備或掃描方式無關。本文提出了一個基於深層級聯多尺度結構張量的框架,該框架可以自動提取和識別正常項目以及可疑項目,無論它們來自多廠商X射線掃描的位置和方向如何。所提出的框架是獨一無二的,因爲它通過迭代地選擇來自不同方向的基於輪廓的過渡信息來智能地提取每個對象,並且僅使用單個前饋卷積神經網絡進行識別。所提出的框架已經在兩個公開可用的數據集上進行了嚴格的測試,該數據集包含1,067,381個x射線掃描的累積數據,通過達到0.9689的平均工會交集,其曲線下的面積最大爲,大大優於現有的現有解決方案。 0.9950,精度高達0.9955,平均平均精度得分高達0.9453,可檢測正常和可疑行李物品。此外,與流行的物體檢測器相比,所提出的框架已經實現了15.78更好的時間性能。

Self-supervised Object Motion and Depth Estimation from Video
Authors Qi Dai, Vaishakh Patil, Simon Hecker, Dengxin Dai, Luc Van Gool, Konrad Schindler
我們提出了一個自我監督的學習框架,以估計視頻中單個物體的運動和單眼深度。我們將物體運動建模爲6自由度剛體變換。實例分割掩碼用於引入對象信息。與預測像素級光流圖以模擬運動的方法相比,我們的方法顯着減少了要估計的值的數量。此外,我們的系統通過採用預先計算的相機自我運動和左右光度一致性,消除了預測的比例模糊性。在KITTI駕駛數據集上進行的實驗表明,我們的系統無需外部註釋即可捕獲物體運動,並有助於動態區域中的深度預測。我們的系統在3D場景流預測方面優於早期的自我監督方法,並在光流估計方面產生可比的結果。

DCIL: Deep Contextual Internal Learning for Image Restoration and Image Retargeting
Authors Indra Deep Mastan, Shanmuganathan Raman
最近,人們對開發獨立於訓練樣本的方法產生了極大的興趣,例如深層圖像先驗,零鏡頭學習和內部學習。儘管固有​​的技術多樣性,以上方法基於最大化從單個圖像學習圖像特徵的共同目標。在這項工作中,我們彌合了上述各種無監督方法之間的差距,並提出了圖像恢復和圖像重新定向的通用框架。我們使用上下文特徵學習和內部學習來改進源圖像和目標圖像之間的結構相似性。我們在以下設置中執行圖像調整大小的應用程序:使用超分辨率的經典圖像調整大小,低分辨率圖像包含噪點的具有挑戰性的圖像調整大小,以及使用圖像重新定向的內容感知圖像調整大小。我們還提供了與相關技術水平的比較。

FaultNet: Faulty Rail-Valves Detection using Deep Learning and Computer Vision
Authors Ramanpreet Singh Pahwa, Jin Chao, Jestine Paul, Yiqun Li, Ma Tin Lay Nwe, Shudong Xie, Ashish James, Arulmurugan Ambikapathi, Zeng Zeng, Vijay Ramaseshan Chandrasekhar
定期檢查鐵路閥門和發動機是確保全球鐵路網絡安全和高效的重要任務。在過去的十年中,基於計算機視覺和模式識別的技術已被廣泛應用於此類檢查和缺陷檢測任務。自動化的端到端培訓系統可以潛在地提供低成本,高吞吐量和廉價替代這些組件的手動外觀檢查的方法。但是,這樣的系統需要大量的缺陷圖像以供網絡理解複雜缺陷。在本文中,提出了一種基於多階段深度學習的技術來對軌道閥進行準確的故障檢測。我們的方法使用兩步法對軌道閥進行高精度圖像分割,從而實現了像素級的精確分割。此後,使用計算機視覺技術來識別故障閥門。我們證明,與用於故障檢測的最新技術現狀相比,所提出的方法可提高檢測性能。

Shared Visual Abstractions
Authors Tom White
本文介紹了由神經網絡創建的抽象藝術,該抽象藝術在各種計算機視覺系統中得到廣泛認可。觸發特定標籤的抽象形式獨立於神經體系結構或訓練集而存在,表明卷積神經網絡爲它們理解的類別建立共享的視覺表示。遇到這些圖紙的計算機視覺分類器在極端情況下對特定標籤的響應通常要強於來自驗證集中的所有示例。通過調查人類對象,我們確認這些抽象作品也可以被人們廣泛識別,這表明由這些圖形觸發的視覺表示在人類和計算機視覺系統之間是共享的。

Learning a Neural 3D Texture Space from 2D Exemplars
Authors Philipp Henzler, Niloy J. Mitra, Tobias Ritschel
我們提出了具有多樣性,視覺逼真度和高計算效率的2D和3D自然紋理生成模型。這可以通過一系列方法實現,這些方法將思想從經典的隨機過程紋理化Perlin噪聲擴展到學習的,深度的,非線性的。關鍵思想是一個硬編碼,可調諧和可微分的步驟,該步驟將多個轉換後的隨機2D或3D字段饋送到可以在無限域中採樣的MLP。我們的模型對來自不同紋理集的所有樣本進行編碼,而無需爲每個樣本進行重新訓練。應用包括紋理插值和從2D示例中學習3D紋理。

Estimation of Muscle Fascicle Orientation in Ultrasonic Images
Authors Regina Pohle Fr hlich, Christoph Dalitz, Charlotte Richter, Benjamin St udle, Kirsten Albracht
我們比較了四種不同的算法,這些算法可根據超聲圖像自動估計肌肉束角度,包括血管分佈濾波器,Radon變換,投影輪廓法和灰度共生矩陣GLCM。將算法結果與三位不同專家在不同運動類型下錄製的兩個視頻的425個圖像幀上生成的地面真實數據進行比較。與地面真相數據的最佳一致性是通過結合使用容器過濾器進行預處理並使用投影輪廓法測量角度來實現的。通過將算法應用於具有高梯度的子區域並通過這些估計執行LOESS擬合,可以提高估計的魯棒性。

DeepFuse: An IMU-Aware Network for Real-Time 3D Human Pose Estimation from Multi-View Image
Authors Fuyang Huang, Ailing Zeng, Minhao Liu, Qiuxia Lai, Qiang Xu
在本文中,我們提出了一個兩階段的全3D網絡,即textbf DeepFuse,通過融合人體穿戴的慣性測量單元IMU數據和多視圖圖像來估計3D空間中的人體姿勢。第一階段設計用於純視覺估計。爲了保留多視圖輸入的數據原始性,視覺階段使用多通道體積作爲數據表示,並使用3D soft argmax作爲激活層。第二個階段是IMU改進階段,該階段引入了IMU骨層,以便在數據級別更早地融合IMU和視覺數據。無需先驗地給出給定的骨架模型,在協議1下,我們在TotalCapture數據集上的平均關節誤差爲28.9 mm,在Human3.6M數據集上的平均關節誤差爲13.4 mm,從而大大提高了SOTA結果。最後,我們通過實驗討論了完全3D網絡對3D姿態估計的有效性,這可能會有益於未來的研究。

Synthetic Humans for Action Recognition from Unseen Viewpoints
Authors G l Varol, Ivan Laptev, Cordelia Schmid, Andrew Zisserman
我們在這項工作中的目標是通過使用綜合訓練數據來提高訓練過程中看不見的觀點的人類動作識別性能。儘管已顯示合成數據對諸如人體姿勢估計之類的任務是有益的,但相對來說,尚未開發將其用於RGB人體動作識別。我們利用單眼3D人體重構的最新進展,從真實動作序列中自動生成動作標籤的合成訓練視頻。

ShadingNet: Image Intrinsics by Fine-Grained Shading Decomposition
Authors Anil S. Baslamisli, Partha Das, Hoang An Le, Sezer Karaoglu, Theo Gevers
通常,固有圖像分解算法將陰影解釋爲一個統一的組件,包括所有光度效應。由於陰影過渡通常比反照率變化更平滑,因此這些方法可能無法將強投射陰影與反照率變化區分開。反過來,這可能會泄漏到反照率地圖預測中。因此,在本文中,我們建議將陰影分量分解爲直接照明和間接陰影環境光和陰影。目的是從反射率變化中區分出強烈的陰影。提出了兩個端到端監督的CNN模型ShadingNets,它們利用了細粒度的着色模型。此外,表面的法線特徵是由提出的CNN網絡共同學習的。表面法線有望協助分解任務。室外自然環境的場景級別合成圖像的大規模數據集提供了固有圖像地面真相。大規模實驗表明,我們使用細粒度陰影分解的CNN方法優於使用統一陰影的最新技術。

Deep Neural Network for Fast and Accurate Single Image Super-Resolution via Channel-Attention-based Fusion of Orientation-aware Features
Authors Du Chen, Zewei He, Yanpeng Cao, Jiangxin Yang, Yanlong Cao, Michael Ying Yang, Siliang Tang, Yueting Zhuang
近年來,卷積神經網絡CNN已成功地用於解決不適定單圖像超分辨率SISR問題。提高基於CNN的SISR模型性能的常用策略是部署非常深的網絡,這不可避免地會帶來許多明顯的缺點,例如,大量的網絡參數,繁重的計算量以及難以進行的模型訓練。在本文中,我們旨在通過開發性能更好的特徵提取和融合技術來構建更準確,更快的SISR模型。首先,我們提出了一種新穎的定向感知特徵提取和融合模塊OAM,其中包含1D和2D卷積核的混合物,即5 x 1,1 x 5和3 x 3,用於提取定向感知特徵。其次,我們採用信道注意機制作爲一種有效的技術,以自適應地融合從不同方向提取的特徵以及在分層堆疊的卷積階段中提取的特徵。基於這兩個重要的改進,我們通過基於信道注意的定向感知功能SISR CA OA的融合,提出了一個基於緊湊但功能強大的CNN的高質量SISR模型。大量的實驗結果驗證了所提出的SISR CA OA模型的優越性,在恢復精度和計算效率方面均優於最先進的SISR模型。源代碼將公開提供。

Environment reconstruction on depth images using Generative Adversarial Networks
Authors Lucas P. N. Matias, Jefferson R. Souza, Denis F. Wolf
強大的感知系統對於自動駕駛汽車的安全至關重要。爲了在複雜的城市環境中導航,需要具有可靠數據的精密傳感器。對於智能車輛而言,瞭解周圍環境的任務本身很困難,由於車輛的高速行駛,這一任務尤爲重要。爲了在城市環境中成功導航,感知系統必須快速接收,處理和執行動作,以確保乘客和行人的安全。立體聲相機收集許多級別的環境信息,例如深度,顏色,紋理,形狀,這些信息可以確保您對周圍環境有足夠的瞭解。即便如此,當與人類相比時,計算方法仍缺乏處理缺失信息即遮擋的能力。對於許多感知任務,由於環境信息不完整,數據的缺乏可能會成爲障礙。在本文中,我們解決了這個問題並討論了處理遮擋區域推斷的最新方法。然後,我們介紹一個專注於視差和環境深度數據重建的損失函數,以及一個能夠處理被遮擋的信息推斷的創生對抗網絡GAN架構。我們的結果提出了深度圖上的連貫重建,估計了被不同障礙物遮擋的區域。我們的最終貢獻是針對視差數據的損失函數,以及能夠通過修補視差圖像來提取深度特徵並估算深度數據的GAN。

Efficient Object Detection in Large Images using Deep Reinforcement Learning
Authors Burak Uzkent, Christopher Yeh, Stefano Ermon
傳統上,將對象檢測器應用於感興趣場景的每個部分,並且其精度和計算成本隨着高分辨率圖像的增加而增加。然而,在諸如遙感的某些應用領域中,購買高空間分辨率圖像是昂貴的。爲了減少與使用高空間分辨率圖像相關的大量計算和金錢成本,我們提出了一種增強學習代理,該學習代理自適應地選擇提供給檢測器的每個圖像的空間分辨率。特別是,我們在雙重獎勵設置中訓練代理,以選擇當圖像被大物體支配時要通過粗略檢測器運行的低空間分辨率圖像,而當圖像是由大物體支配時選擇要通過精細檢測器運行的高空間分辨率圖像由小物體主導。這減少了對構建堅固的檢測器的高空間分辨率圖像的依賴性,並提高了運行時間效率。我們對包含大型圖像的xView數據集進行了實驗,將運行時間效率提高了50倍,僅使用了30次高分辨率圖像,同時保持了與僅使用高分辨率圖像的檢測器相似的準確性。

Bi-Semantic Reconstructing Generative Network for Zero-shot Learning
Authors Xu Shibing, Gao Zishu
零射擊學習ZSL的許多最新方法試圖利用生成模型從語義描述和隨機噪聲中生成看不見的視覺樣本。因此,ZSL問題成爲傳統的監督分類問題。然而,大多數基於生成模型的現有方法僅關注訓練階段合成樣本的質量,而忽略了零鏡頭識別階段的重要性。在本文中,我們考慮了以上兩點,並提出了一種新穎的方法。特別是,我們選擇“生成對抗網絡” GAN作爲我們的生成模型。爲了提高合成樣本的質量,考慮語義空間中語義描述的內部關係以及可見和不可見的視覺信息屬於不同領域這一事實,我們提出了一個雙向語義重構BSR組件,其中包含兩個不同的語義重建迴歸器來領導GAN的訓練。由於語義描述在訓練階段可用,爲了進一步提高分類器的能力,我們結合視覺樣本和語義描述來訓練分類器。在識別階段,我們自然地利用BSR組件來傳遞視覺特徵和語義描述,並將它們連接起來進行分類。實驗結果表明,在一些ZSL基準數據集上,我們的方法優於最新技術,並且有明顯的改進。

CNN-based Lidar Point Cloud De-Noising in Adverse Weather
Authors Robin Heinzler, Florian Piewak, Philipp Schindler, Wilhelm Stork
激光雷達傳感器常用於自動駕駛汽車和移動機器人的環境感知,以補充攝像頭,雷達和超聲傳感器。不利的天氣條件會引起不希望的測量點,進而影響缺失的檢測和誤報,從而嚴重影響基於激光雷達的場景理解性能。在大雨或濃霧中,水滴可能被誤解爲車輛前方的物體,從而使移動機器人停下來。在本文中,我們提出了第一個基於CNN的方法來理解和過濾點雲數據中的這種不利天氣影響。使用在受控天氣環境中獲得的大數據集,我們證明了我們的方法相對於涉及幾何過濾的最新技術的顯着性能改進。數據位於

Learning a Layout Transfer Network for Context Aware Object Detection
Authors Tao Wang, Xuming He, Yuanzheng Cai, Guobao Xiao
我們提出一種基於上下文的對象檢測方法,該方法基於檢索和變換場景佈局模型。給定一個輸入圖像,我們的方法首先從典型佈局模板的代碼本中檢索出粗糙的場景佈局。爲了處理較大的佈局變化,我們使用空間轉換器網絡的變體來變換和完善檢索到的佈局,從而生成一組可解釋且語義上有意義的對象位置和比例尺特徵圖。上面的步驟被實現爲佈局傳輸網絡,我們將其集成到Faster RCNN中,以實現對象檢測和場景佈局估計的聯合推理。在三個公共數據集上進行的大量實驗證明,我們的方法可對交通監控和自動駕駛領域中各種挑戰性任務的最新對象檢測基準提供一致的性能改進。

Bundle Adjustment Revisited
Authors Yu Chen, Yisong Chen, Guoping Wang
從中型到中型再到大規模,這20年一直在發展3D重建。衆所周知,束調整在3D重建中起着重要作用,主要在Motion SfM的結構以及同時定位和映射SLAM中發揮作用。雖然捆綁調整是優化相機參數和3D點的最終步驟,但最終步驟卻是不可忽略的,但它在大型重建中會遇到內存和效率方面的要求。在本文中,我們詳細研究了常規方法和分佈式方法中束調節的發展。本文還給出了詳細的推導和僞代碼。

Shape-Aware Organ Segmentation by Predicting Signed Distance Maps
Authors Yuan Xue, Hui Tang, Zhi Qiao, Guanzhong Gong, Yong Yin, Zhen Qian, Chao Huang, Wei Fan, Xiaolei Huang
在這項工作中,我們建議解決當前基於深度學習的器官分割系統中存在的問題,即它們經常產生的結果無法捕獲目標器官的整體形狀,並且常常缺乏平滑度。由於從對象邊界輪廓計算出的符號距離圖SDM與二進制分割圖之間存在嚴格的映射,因此我們利用了直接從醫學掃描中學習SDM的可行性。通過將分割任務轉換爲預測SDM,我們證明了我們提出的方法保留了出色的分割性能,並具有更好的平滑度和形狀連續性。爲了在傳統的分割訓練中利用補充信息,我們引入了近似的Heaviside函數通過同時預測SDM和分割圖來訓練模型。我們通過對海馬分割數據集和公開的具有多個器官的MICCAI 2015頭頸自動分割挑戰數據集進行廣泛的實驗,驗證了我們提出的模型。儘管我們精心設計的骨幹3D分割網絡與當前技術水平相比將Dice係數提高了5倍以上,但所建議的SDM學習模型可產生更平滑的分割結果,且Hausdorff距離和平均表面距離更小,從而證明了我們方法的有效性。

Learning Structure-Appearance Joint Embedding for Indoor Scene Image Synthesis
Authors Yuan Xue, Zihan Zhou, Xiaolei Huang
先進的圖像合成方法可以爲人臉,鳥類,臥室等生成逼真的照片。但是,這些方法沒有明確地建模和保留基本的結構約束,例如結,平行線和平面。在本文中,我們研究了用於設計應用的結構化室內圖像生成問題。我們利用一個小規模的數據集,其中包含各種室內場景的圖像及其對應的地面真相線框註釋。雖然在數據集上訓練的現有圖像合成模型不足以保持結構完整性,但我們提出了一種基於從圖像和線框中學習到的結構外觀關節嵌入的新型模型。在我們的模型中,通過學習共享編碼器網絡中的聯合嵌入來明確實施結構約束,該編碼器必須支持圖像和線框的生成。我們證明了聯合嵌入學習方案在室內場景線框上進行圖像翻譯任務的有效性。雖然線框作爲輸入包含的語義信息少於其他傳統圖像翻譯任務的輸入,但是我們的模型可以生成高保真度的室內場景渲染,這些渲染與輸入線框非常匹配。在線框場景數據集上的實驗表明,我們提出的轉換模型在生成圖像的視覺質量和結構完整性方面均明顯優於現有的現有方法。

Selective Synthetic Augmentation with Quality Assurance
Authors Yuan Xue, Jiarong Ye, Rodney Long, Sameer Antani, Zhiyun Xue, Xiaolei Huang
在自動化醫學圖像分析系統的監督訓練中,通常需要大量難以收集的專家註釋。此外,對於罕見疾病,跨不同類別的可用數據比例可能高度不平衡。爲了緩解這些問題,我們研究了一種新穎的數據增強管道,該管道有選擇地添加了由條件對抗網絡cGAN生成的新合成圖像,而不是直接使用合成圖像擴展訓練集。我們引入到合成增強管道的選擇機制是出於以下觀察的動機:儘管cGAN生成的圖像可以在視覺上吸引人,但不能保證它們包含用於改進分類性能的基本功能。通過基於合成圖像的分配標籤的置信度以及它們與真實標記圖像的特徵相似度來選擇合成圖像,我們的框架通過確保將所選合成圖像添加到訓練集中將改善性能,從而爲合成增強提供質量保證。我們在醫學組織病理學數據集和兩個自然圖像分類基準CIFAR10和SVHN上評估我們的模型。這些數據集上的結果表明,通過利用cGAN生成的圖像進行選擇性增強,可以分別以6.8、3.9、1.6的更高準確度顯着提高分類性能。

Amora: Black-box Adversarial Morphing Attack
Authors Run Wang, Felix Juefei Xu, Xiaofei Xie, Lei Ma, Yihao Huang, Yang Liu
如今,隨着生成的對抗網絡GAN在圖像合成中取得空前的成功,數字面部內容操縱已變得無處不在和現實。不幸的是,由於面部圖像操縱,面部識別FR系統遭受嚴重的安全問題。在本文中,我們研究並介紹了一種通過操縱面部內容來逃避FR系統的新型對抗攻擊,即對抗變形攻擊(又名Amora)。與通過添加人類不可察覺的噪聲來擾動像素強度值的對抗性噪聲攻擊相反,我們提出的對抗性變態攻擊是一種以連貫的方式在空間上擾動像素的語義攻擊。爲了解決黑匣子攻擊問題,我們設計了一種簡單而有效的學習管道來爲每次攻擊獲取專有的光流場。我們已經定量和定性地證明了在兩個流行的FR系統中,在具有微笑的面部表情操縱的情況下,不同形態強度下的對抗性形態進攻的有效性。實驗結果表明,基於局部變形的新型黑匣子對抗攻擊是可能的,這與基於加性噪聲的攻擊有很大的不同。這項工作的發現可能爲更深入地瞭解和調查基於圖像的對抗性攻擊和防禦方式鋪平了新的研究方向。

Patch Aggregator for Scene Text Script Identification
Authors Changxu Cheng, Qiuhui Huang, Xiang Bai, Bin Feng, Wenyu Liu
在多語言的健壯閱讀系統中,野外腳本識別非常重要。源自同一語言家族的腳本共享大量字符,這使得腳本標識成爲細粒度的分類問題。現有的大多數方法都努力通過製作加權平均或其他聚類方法來學習結合局部特徵的單個表示,這可能會降低每個腳本中一些重要部分對冗餘特徵的干擾的辨別力。在本文中,我們提出了一個名爲Patch Aggregator PA的新穎模塊,該模塊通過考慮局部補丁的預測得分來學習更具區分性的腳本識別表示。具體來說,我們設計了一個基於CNN的方法,該方法由標準CNN分類器和PA模塊組成。實驗表明,所提出的PA模塊相對於基準CNN模型帶來了顯着的性能提升,在三個基準數據集上實現了腳本識別SIW 13,CVSI 2015和RRC MLT 2017的最新結果。

Universal Material Translator: Towards Spoof Fingerprint Generalization
Authors Rohit Gajawada, Additya Popli, Tarang Chugh, Anoop Namboodiri, Anil K. Jain
欺騙檢測器是經過訓練的分類器,用於區分欺騙指紋和真實指紋。但是,最新的欺騙檢測器不能很好地推廣到看不見的欺騙材料上。這項研究提出了一種基於樣式轉移的增強包裝器,該包裝器可以在任何現有的欺騙檢測器上使用,並且可以動態地提高我們對數據非常低的欺騙材料的欺騙檢測系統的魯棒性。我們的方法是一種從一些欺騙示例中合成新的欺騙圖像的方法,該示例將欺騙示例的樣式或材質屬性轉換爲真實指紋的內容,以生成大量示例以訓練分類器。我們在公開可用的LivDet 2015數據集中證明了我們的方法對材料的有效性,並表明了所提出的方法對目標材料的指紋欺騙具有魯棒性。

Dually Supervised Feature Pyramid for Object Detection and Segmentation
Authors Fan Yang, Cheng Lv, Yandong Guo, Longin Jan Latecki, Haibin Ling
特徵金字塔體系結構已廣泛應用於對象檢測和分割中,以解決多尺度問題。但是,在本文中,我們表明由於監管信息的利用不足,因此尚未充分探索該體系結構的功能。這種不充分的利用是由於反向傳播中的監視信號劣化引起的。因此,我們提出了一種雙重監督方法,稱爲雙重監督FPN DSFPN,以增強訓練特徵金字塔網絡FPN時的監督信號。特別是,DSFPN是通過將額外的預測(即檢測頭或分段頭)附加到FPN的自底向上子網來構造的。因此,在轉發到後續網絡之前,可以通過其他頭對功能進行優化。此外,輔助頭可以用作正則項以促進模型訓練。另外,爲了增強DSFPN中的檢測頭處理兩個不均勻任務即分類和迴歸的能力,通過解耦分類和迴歸子網來分隔最初共享的隱藏特徵空間。爲了證明所提出方法的通用性,有效性和效率,將DSFPN集成到四個具有代表性的檢測器中:Faster RCNN,Mask RCNN,Cascade RCNN和Cascade Mask RCNN並在MS COCO數據集上進行了評估。通過廣泛的實驗證明了有希望的精度提高,先進的性能以及可忽略的額外計算成本。將提供代碼。

Adversarial Pyramid Network for Video Domain Generalization
Authors Zhiyu Yao, Yunbo Wang, Xingqiang Du, Mingsheng Long, Jianmin Wang
本文介紹了視頻域泛化視頻DG的一個新研究問題,其中由於缺乏對發散分佈的目標域的暴露,大多數最先進的動作識別網絡都在退化。雖然視頻理解的最新進展集中於捕獲長期視頻上下文的時間關係,但我們觀察到全局時間特徵在視頻DG設置中的通用性較低。原因是來自其他看不見的域的視頻可能會出現時間關係的意外缺失,未對齊或比例轉換,這被稱爲時域移位。因此,視頻DG比圖像DG更具挑戰性,由於空間和時間域偏移的纏結,圖像DG也正在探索中。

ICDAR 2019 Competition on Image Retrieval for Historical Handwritten Documents
Authors Vincent Christlein, Anguelos Nicolaou, Mathias Seuret, Dominique Stutzmann, Andreas Maier
這項比賽調查了根據寫作風格對歷史文獻圖像進行大規模檢索的性能。基於文化遺產機構和數字圖書館提供的大圖像數據集,總共提供了約20000張文檔圖像,代表約10000名作家,分爲i手稿,ii信,iii憲章和法律文件三種類型的作家。我們專注於自動圖像檢索的任務,以模擬人文研究的常見場景,例如作者檢索。大多數團隊提交了不使用深度學習技術的傳統方法。競爭結果表明,方法的組合優於單個方法。此外,字母比手稿難找得多。

SolarNet: A Deep Learning Framework to Map Solar Power Plants In China From Satellite Imagery
Authors Xin Hou, Biao Wang, Lei Yin, Haishan Wu
太陽能等可再生能源對於應對日益嚴重的氣候變化至關重要。中國是全球領先的太陽能電池板安裝商,並且建造了許多太陽能發電廠。在本文中,我們提出了一個名爲SolarNet的深度學習框架,該框架旨在對大規模衛星圖像數據執行語義分割以檢測太陽能場。 SolarNet已成功在中國測繪了439個太陽能發電場,覆蓋了近2000平方公里,相當於整個深圳市或紐約市的兩個半。據我們所知,這是我們第一次使用深度學習來揭示中國太陽能發電場的位置和規模,這可以爲太陽能發電公司,市場分析師和政府提供見識。

VM-Net: Mesh Modeling to Assist Segmentation in Volumetric Data
Authors Udaranga Wickramasinghe, Graham Knott, Pascal Fua
現在,基於CNN的用於標記單個體素的體積方法在生物醫學分割領域佔據主導地位。在本文中,我們證明了同時執行分割和恢復對錶面進行建模的3D網格可以提高性能。

Domain-adaptive Crowd Counting via Inter-domain Features Segregation and Gaussian-prior Reconstruction
Authors Junyu Gao, Tao Han, Qi Wang, Yuan Yuan
最近,使用監督學習進行人羣計數取得了顯着進步。儘管如此,大多數計數器仍依賴大量手動標記的數據。隨着合成人羣數據的發佈,一種潛在的替代方案是無需任何人工標籤即可將知識從它們轉移到真實數據。但是,沒有方法可以有效地抑制轉移過程中的疇隙和輸出精細的密度圖。爲了解決上述問題,本文提出了一種域自適應人羣計數DACC框架,該框架由域間特徵分離IFS和高斯先驗重建GPR組成。具體來說,IFS將合成數據轉換爲逼真的圖像,其中包含域共享特徵提取和獨立於域的特徵修飾。然後,對粗略計數器進行翻譯後數據的訓練,並將其應用於現實世界。此外,根據粗略的預測,GPR生成僞標記以提高實際數據的預測質量。接下來,我們使用這些僞標籤重新訓練最終計數器。對六個現實世界數據集的適應性實驗表明,所提出的方法優於最新方法。此外,代碼和預先訓練的模型將盡快發佈。

Detection of False Positive and False Negative Samples in Semantic Segmentation
Authors Matthias Rottmann, Kira Maag, Robin Chan, Fabian H ger, Peter Schlicht, Hanno Gottschalk
近年來,深度學習方法在圖像識別方面已經勝過其他方法。這激發了人們對深度學習技術潛在應用的想象力,其中包括安全相關的應用,例如醫學圖像的解釋或自動駕駛。從人類決策者的協助到越來越多的自動化系統的轉變,增加了正確處理深度學習模塊的故障模式的需求。在此貢獻中,我們回顧了一組基於不確定性量化的機器學習算法自我監控技術。特別地,我們將其應用於語義分割任務,其中機器學習算法根據語義類別分解圖像。我們在實例級別討論了錯誤肯定和錯誤否定錯誤模式,並回顧了作者最近提出的用於檢測此類錯誤的技術。我們還對未來的研究方向進行了展望。

Feature-aware Adaptation and Structured Density Alignment for Crowd Counting in Video Surveillance
Authors Junyu Gao, Qi Wang, Yuan Yuan
隨着深度神經網絡的發展,人羣計數和逐像素密度估計的性能不斷得到更新。儘管如此,該領域仍然存在兩個具有挑戰性的問題1當前的監督學習需要大量的訓練數據,但是很難對其進行收集和註釋2現有的方法不能很好地推廣到看不見的領域。最近發佈的綜合人羣數據集緩解了這兩個問題。但是,現實世界的數據與合成圖像之間的領域差距降低了模型的性能。爲了縮小差距,本文提出了一種領域適應風格的人羣計數方法,該方法可以有效地將模型從合成數據適應特定的現實世界場景。它由多級特徵感知適應MFA和結構化密度圖對齊SDA組成。具體來說,MFA增強了模型以從多層提取域不變特徵。 SDA保證網絡在實際域上輸出合理分佈的精細密度圖。最後,我們在四個主要的監視人羣數據集上評估了所提出的方法,這些數據集包括:上海技術B部分,WorldExpo 10,Mall和UCSD。大量實驗證明,對於相同的跨域計數問題,我們的方法優於最新方法。

SampleNet: Differentiable Point Cloud Sampling
Authors Itai Lang, Asaf Manor, Shai Avidan
直接在點雲上運行的任務越來越多。隨着點雲大小的增加,這些任務的計算需求也隨之增加。一種可能的解決方案是先對點雲進行採樣。經典採樣方法(例如,最遠點採樣FPS)不考慮下游任務。最近的一項工作表明,學習任務特定的採樣可以顯着改善結果。但是,提出的技術並未處理採樣操作的不可微性,而是提供了一種解決方法。

Bidirectional Scene Text Recognition with a Single Decoder
Authors Maurits Bleeker, Maarten de Rijke
場景文本識別STR是在裁剪的單詞圖像中識別正確的單詞或字符序列的問題。爲了獲得更魯棒的輸出序列,已經引入了雙向STR的概念。到目前爲止,已經通過使用兩個單獨的解碼器來實現雙向STR,一個用於左至右解碼,一個用於右至左解碼器。從計算和優化的角度來看,具有兩個單獨的解碼器來完成幾乎相同的任務且具有相同的輸出空間是不希望的。我們介紹了雙向場景文本變壓器Bi STET,這是一種新穎的帶有單個解碼器的雙向STR方法,用於雙向文本解碼。通過其單個解碼器,Bi STET優於使用兩個單獨的解碼器進行雙向解碼的方法,同時還比那些方法更有效。此外,我們在Bi STET的所有STR基準測試中都達到或超越了最新的SOTA方法。最後,我們提供有關Bi STET性能的分析和見解。

ILS-SUMM: Iterated Local Search for Unsupervised Video Summarization
Authors Yair Shemer, Daniel Rotman, Nahum Shimkin
近年來,人們對構建視頻摘要工具的興趣日益濃厚,其目的是自動創建可正確代表原始內容的輸入視頻的簡短摘要。我們考慮基於鏡頭的視頻摘要,其中摘要由可以不同長度的視頻鏡頭的子集組成。使鏡頭子集的代表性最大化的一種直接方法是最小化鏡頭與其最近選擇的鏡頭之間的總距離。我們將視頻彙總的任務表述爲一個優化問題,該問題具有對總彙總持續時間的揹包式約束。先前的研究提出了貪婪算法來近似解決該問題,但是沒有實驗可以衡量這些方法獲得總距離短的解決方案的能力。確實,我們在視頻彙總數據集上的實驗表明,當前方法在獲得總距離較小的結果方面的成功仍然有很大的改進空間。在本文中,我們開發了ILS SUMM,這是一種新穎的視頻彙總算法,用於解決揹包約束下的子集選擇問題。我們的算法基於衆所周知的元啓發式優化框架Iterated Local Search ILS(迭代局部搜索ILS),以避免弱局部最小值並獲得良好的近似全局最小值的能力而聞名。大量實驗表明,我們的方法找到的解決方案比以前的方法具有更好的總距離。此外,爲了表明ILS SUMM的高度可擴展性,我們引入了一個新的數據集,其中包含各種長度的視頻。

Lossless Compression for 3DCNNs Based on Tensor Train Decomposition
Authors Dingheng Wang, Guangshe Zhao, Guoqi Li, Lei Deng, Yang Wu
三維卷積神經網絡3DCNN已應用於視頻或3D點雲識別的許多任務。但是,由於卷積核的維數較大,因此3DCNN的空間複雜度通常大於傳統的二維卷積神經網絡2DCNN的空間複雜度。爲了使3DCNN小型化以在受限環境(例如嵌入式設備)中進行部署,神經網絡壓縮是一種有前途的方法。在這項工作中,我們採用張量訓練TT分解(一種最緊湊和最簡單的Emph原位訓練壓縮方法)來縮小3DCNN模型。我們給出TT格式的3D卷積核的張量,並研究如何爲TT格式的張量選擇合適的秩。根據基於VIVA挑戰和UCF11數據集的多次對比實驗,我們得出結論,TT分解可以以高達121倍的比率壓縮冗餘3DCNN,而準確性幾乎沒有提高。此外,我們在VIVA挑戰數據集81.83上獲得了TT 3DCNN的最新結果。

SaLite : A light-weight model for salient object detection
Authors Kitty Varghese, Sauradip Nag
突出對象檢測是一種普遍的計算機視覺任務,其應用範圍從異常檢測到異常處理。上下文建模是顯着性檢測領域中的重要標準。全局上下文通過對比場景的全局視圖中的其他對象來幫助確定給定圖像中的顯着對象。但是,局部上下文特徵可以在給定區域中以更高的精度檢測顯着對象的邊界。爲了融合兩個方面的優勢,我們提出的SaLite模型同時使用了全局和局部上下文特徵。它是基於編碼器解碼器的體系結構,其中編碼器使用輕量級的SqueezeNet,解碼器使用卷積層建模。有權進行顯着性檢測的現代深度模型基於大量參數,很難在嵌入式系統上進行部署。本文嘗試使用SaLite解決上述問題,這是一種在不影響性能的情況下顯着檢測目標物體的較輕方法。我們的方法在DUTS,MSRA10K和SOC這三個可公開獲得的數據集上得到了廣泛評估。實驗結果表明,我們提出的SaLite在現有技術方法方面具有顯着而一致的改進。

Capsule-Based Persian/Arabic Robust Handwritten Digit Recognition Using EM Routing
Authors Ali Ghofrani, Rahil Mahdian Toroghi
本文解決了手寫數字識別的問題。但是,基礎語言是波斯阿拉伯語,與此任務相關的系統是膠囊網絡CapsNet的出現比其祖先CNN卷積神經網絡更先進。使用Hoda數據集對體系結構進行培訓,該數據集已爲波斯語阿拉伯手寫數字提供。該系統的輸出明顯優於其祖先以及其他先前提出的識別算法所獲得的結果。

View-invariant Deep Architecture for Human Action Recognition using late fusion
Authors Chhavi Dhiman, Dinesh Kumar Vishwakarma
人類行爲識別未知的觀點是一項艱鉅的任務。我們提出了一種視圖不變的深度人類動作識別框架,該框架是兩個重要的動作線索運動和形狀時態動力學STD的新穎集成。運動流將動作的運動內容封裝爲RGB動態圖像RGB DI,這些RGB DI由微調的InceptionV3模型處理。 STD流使用基於人體姿勢模型HPM的視圖不變特徵來學習動作的長期視圖不變形狀動力學,該觀點不變特徵是從基於結構相似性指標矩陣SSIM的關鍵深度人類姿勢幀中提取的。爲了預測測試樣品的分數,將三種後期融合最大值,平均值和乘積技術應用於各個流分數。爲了驗證所提出的新穎框架的性能,在三個公共基準NUCLA多視圖數據集,UWA3D II活動數據集和NTU RGB D活動數據集上,使用跨主題和跨視圖驗證方案進行了實驗。我們的算法在準確性,接收器工作特性ROC曲線和曲線AUC下面積方面均表現出明顯優於現有技術的優勢。

Face Beautification: Beyond Makeup Transfer
Authors Xudong Liu, Ruizhe Wang, Chih Fan Chen, Minglei Yin, Hao Peng, Shukhan Ng, Xin Li
面部表情在我們的社交生活中起着重要作用。對女性美麗的主觀感知取決於與面部相關的各種因素,例如皮膚,形狀,頭髮和環境,例如化妝,照明,角度因素。類似於物理世界中的整容手術,虛擬面部美化是一個新興領域,有許多未解決的問題需要解決。受到基於樣式的合成和麪部美容預測的最新進展的啓發,我們提出了面部美化的新穎框架。對於具有較高美容分數的給定參考臉部,我們基於GAN的體系結構能夠將查詢的面部轉換爲具有參考美容風格和目標美容分數值的一系列美化面部圖像。爲了實現這一目標,我們建議將從參考臉部提取的基於樣式的美容表示與在SCUT FBP數據庫上訓練的美容分數預測集成到美化過程中。與化妝轉移不同,我們的方法針對的是多對多翻譯,而不是一對一翻譯,在這種翻譯中,可以通過不同的參考文獻或不同的美容分數來定義多個輸出。據報道,大量的實驗結果證明了所提出的面部美化框架的有效性和靈活性。

VoronoiNet: General Functional Approximators with Local Support
Authors Francis Williams, Daniele Panozzo, Kwang Moo Yi, Andrea Tagliasacchi
Voronoi圖是用於各種圖形應用程序的高度緊湊的表示形式。在這項工作中,我們將展示如何通過新穎的深度架構將其不同版本嵌入到生成性深度網絡中。通過這樣做,我們實現了高度緊湊的潛在嵌入,能夠爲各種形狀在2D和3D中提供更詳細的重建。在此技術報告中,我們介紹了我們的表示形式,並提供了一組初步結果,將其與最近提出的隱式佔用網絡進行了比較。

Deep Reflection Prior
Authors Qingnan Fan, Yingda Yin, Dongdong Chen, Yujie Wang, Angelica Aviles Rivero, Ruoteng Li, Carola Bibiane Schnlieb, Dani Lischinski, Baoquan Chen
反射是我們日常攝影中非常普遍的現象,它使人們的注意力從玻璃後面的場景中轉移開。去除反射僞像的問題很重要,但由於其不適性而具有挑戰性。最近的基於學習的方法已證明在消除反射方面有重大改進。但是,這些方法受到限制,因爲它們需要大量的合成反射清潔圖像對進行監控,但存在過度擬合合成圖像域的風險。在本文中,我們提出了一種基於學習的方法,該方法先捕獲反射統計信息,然後再去除單個圖像反射。我們的算法是通過在訓練階段通過在多個輸入圖像之間增強聯合約束來優化目標來驅動的,但是能夠消除僅來自單個輸入的反射以進行評估。我們的框架允許通過一個分支的深度神經網絡來預測背景和反射,該神經網絡由指示背景或反射輸出的可控潛在代碼實現。我們在各種真實世界的圖像上展示了優於最新方法的性能。我們還將在學到的潛在代碼後面提供有見地的分析,這可能會激發更多的未來工作。

Zero-shot Recognition of Complex Action Sequences
Authors Jonathan D. Jones, Tae Soo Kim, Michael Peven, Jin Bai, Zihao Xiao, Yi Zhang, Weichao Qiu, Alan Yuille, Gregory D. Hager
使用類似於基於圖像的對應方法的方法,即通過定義用於區分類別的圖像派生屬性,已在很大程度上探索了用於細粒度活動識別的零鏡頭視頻分類。但是,這樣的方法不能捕獲活動的基本動態,因此僅限於僅靜態圖像內容就足以對活動進行分類的情況。例如,諸如進出汽車之類的可逆動作通常是無法區分的。

Learning Sparse 2D Temporal Adjacent Networks for Temporal Action Localization
Authors Songyang Zhang, Houwen Peng, Le Yang, Jianlong Fu, Jiebo Luo
在此報告中,我們介紹了HACS 2019臨時行動本地化挑戰賽的獲勝者方法。臨時行動本地化具有挑戰性,因爲目標提案可能與未整理視頻中的其他幾個候選提案相關。現有的方法不能很好地解決這一挑戰,因爲臨時提議被單獨考慮並且它們的臨時相關性被忽略了。爲了解決這個問題,我們提出了稀疏的2D時間相鄰網絡來對候選提議之間的時間關係進行建模。該方法基於最近提出的2D TAN方法。 2D TAN中的採樣策略引入了不平衡的上下文問題,與長提案相比,短提案可以感知更多的上下文。因此,我們進一步提出了一個稀疏的2D時間相鄰網絡S 2D TAN。它可以爲長期建議包含更多上下文信息,並可以從中進一步學習區分功能。通過將我們的S 2D TAN與簡單的動作分類器相結合,我們的方法在測試集上的mAP達到了23.49,這在HACS挑戰賽中獲得了第一名。

Individual predictions matter: Assessing the effect of data ordering in training fine-tuned CNNs for medical imaging
Authors John R. Zech, Jessica Zosa Forde, Michael L. Littman
我們用固定的超參數和50個不同的隨機種子再現了CheXNet的結果,以確定在X線胸片中發現14個發現。由於CheXNet會微調預訓練的DenseNet,因此隨機種子會影響訓練數據批次的排序,但不會影響初始化的模型權重。我們發現,在整個模型運行中,同一張X射線片的預測中存在很大的變異性,即均值ln最大概率最小概率2.45,變異係數0.543。在大型測試集上,這種個體射線照相水平的變異性並未完全反映在AUC的變異性中。 10個模型的平均預測將變異性降低了近70個,平均變異係數從0.543降低至0.169,t檢驗爲15.96,p值爲0.0001。我們鼓勵研究人員注意CNN的潛在變異性以及來自多個模型的整體預測,以最大程度地減少這種變異性在臨牀上部署後可能對個別患者的護理產生的影響。

Neural Network Generalization: The impact of camera parameters
Authors Zhenyi Liu, Trisha Lian, Joyce Farrell, Brian Wandell
我們對經過訓練以識別汽車的卷積神經網絡CNN的推廣進行量化。首先,我們進行了一系列實驗,使用一個合成的圖像數據或來自相機的圖像數據集訓練網絡,然後在另一個圖像數據集上進行測試。我們表明,使用不同相機獲得的圖像之間的概括與來自相機的圖像與光線跟蹤的多光譜合成圖像之間的概括大致相同。其次,我們使用ISETAuto(一種軟原型工具),該工具可以創建光線跟蹤的相機圖像多光譜模擬,以模擬具有一系列像素大小,濾色器,採集和採集後處理的傳感器圖像。這些實驗揭示了特定相機參數和圖像處理操作的變化如何影響CNN泛化。我們發現像素大小會影響一般性,b去馬賽克會嚴重影響淺8位深的深度的性能和泛化,但不會影響10位深的深度,並且c使用10位像素的未去馬賽克的原始傳感器數據,網絡性能會很好。

Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language
Authors Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo
我們解決了通過查詢語句從未修剪的視頻中檢索特定時刻的問題。這是一個具有挑戰性的問題,因爲目標時刻可能與未修剪視頻中的其他瞬時時刻有關。現有方法無法很好地解決這一挑戰,因爲它們會單獨考慮時間矩,而忽略了時間依賴性。在本文中,我們通過二維映射對視頻時刻之間的時間關係進行建模,其中一維指示時刻的開始時間,另一維指示結束時間。該2D時間圖可以代表不同的視頻時長,同時代表它們的相鄰關係。基於2D地圖,我們提出了時間相鄰網絡2D TAN,這是一個用於矩定位的單發框架。它能夠對相鄰的時間關係進行編碼,同時學習區分特徵,以使視頻時刻與參考表達相匹配。我們在三個具有挑戰性的基準上評估了擬議的2D TAN,即Charades STA,ActivityNet Captions和TACoS,其中我們的2D TAN優於最新技術。

Feature Augmentation Improves Anomalous Change Detection for Human Activity Identification in Synthetic Aperture Radar Imagery
Authors Hannah J. Murphy, Christopher X. Ren, Matthew T. Calef
異常變化檢測ACD方法將常見的,無趣的變化與在不同時間點收集的共同註冊圖像的罕見,顯着變化分開。在本文中,我們評估了以戶外音樂節爲目標,以提高ACD在SAR圖像中檢測人類活動的性能的方法。我們的結果表明,與較簡單的方法(例如圖像差分)相比,SAR數據的低維性導致ACD的性能較差,但通過合併局部空間信息來增強輸入特徵空間的維數會導致性能提高。

Long Term Temporal Context for Per-Camera Object Detection
Authors Sara Beery, Guanhang Wu, Vivek Rathod, Ronny Votel, Jonathan Huang
在靜態監控攝像機中,有用的上下文信息可能會遠遠超出典型的視頻理解模型可能會看到的對象在數天之內表現出相似行爲且背景對象保持靜態的幾秒鐘之內。但是,由於功率和存儲的限制,採樣頻率很低,通常不快於每秒一幀,並且有時由於使用運動觸發而不規則。爲了在此設置下表現良好,模型必須對不規則採樣率具有魯棒性。在本文中,我們提出了一種基於注意力的方法,該模型可使我們的模型索引到基於每個攝像機構建的長期存儲庫中,並彙總來自其他幀的上下文特徵,以提高當前幀的對象檢測性能。我們將模型應用於以下兩種設置:1使用攝像機陷阱數據進行物種檢測,該數據基於運動觸發以低的可變幀速率進行採樣並用於研究生物多樣性; 2在交通攝像機中進行車輛檢測,幀速率同樣較低。我們表明,在所有設置中,我們的模型都可以使性能指標超過嚴格的基準。此外,我們表明,增加存儲庫的時間範圍可以改善結果。當應用於Snapshot Serengeti數據集中的相機陷阱數據時,我們的最佳模型可以利用長達一個月的圖像的上下文在0.5 IOU時的性能優於單幀基線17.9 mAP,並且比S3D的11.2 mAP性能優於基於3d卷積的基線。

A Real-time Global Inference Network for One-stage Referring Expression Comprehension
Authors Yiyi Zhou, Rongrong Ji, Gen Luo, Xiaoshuai Sun, Jinsong Su, Xinghao Ding, Chia wen Lin, Qi Tian
引用表達理解REC是計算機視覺中一個新興的研究熱點,它指的是在給定文本描述的情況下檢測圖像中的目標區域。大多數現有的REC方法遵循多級流水線,這在計算上是昂貴的,並且極大地限制了REC的應用。在本文中,我們提出了一種針對實時REC的單階段模型,稱爲實時全球推斷網絡RealGIN。 RealGIN通過兩種創新設計,即自適應特徵選擇AFS和全球關注解決方案部門GARAN,解決了REC中的多樣性和複雜性問題。 AFS自適應融合不同語義級別的功能,以處理表達式的各種內容。 GARAN使用文本功能作爲樞紐,從所有區域收集與表達相關的視覺信息,然後有選擇地將這些信息傳播回所有區域,這爲建模表達中的複雜語言條件提供了足夠的上下文。在五個基準數據集(即RefCOCO,RefCOCO,RefCOCOg,ReferIt和Flickr30k)上,擬議的RealGIN優於大多數以前的工作,並且與最先進的方法(即MAttNet)相比具有非常有競爭力的性能。最重要的是,在相同的硬件下,RealGIN可以將處理速度提高到現有方法的約10倍。

Dynamic Convolution: Attention over Convolution Kernels
Authors Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, Zicheng Liu
輕量級卷積神經網絡的CNN性能低下,因爲它們的低計算預算限制了CNN的卷積層深度和通道寬度數量,從而限制了表示能力。爲了解決這個問題,我們提出了動態卷積,一種新的設計,可以在不增加網絡深度或寬度的情況下增加模型的複雜性。動態卷積不是基於每層使用單個卷積內核,而是根據它們的注意力動態聚合多個並行卷積內核,這些依賴於輸入。組裝多個內核不僅由於內核尺寸小而在計算上很有效,而且由於這些內核通過注意力以非線性方式聚合,因此具有更大的表示能力。通過簡單地將動態卷積用於最先進的MobilenetV3 Small體系結構,ImageNet分類的前1個精度僅增加了4個額外的FLOP即可提高2.3,而在COCO關鍵點檢測上可實現2.9 AP增益。

Digital Twin: Acquiring High-Fidelity 3D Avatar from a Single Image
Authors Ruizhe Wang, Chih Fan Chen, Hao Peng, Xudong Liu, Oliver Liu, Xin Li
我們提出一種從單個圖像生成具有高分辨率UV紋理貼圖的高保真3D面部頭像的方法。爲了估計人臉的幾何形狀,我們使用深度神經網絡直接根據給定圖像預測3D人臉模型的頂點座標。通過非剛性變形過程進一步完善了3D臉部幾何形狀,以便在紋理投影之前更準確地捕獲臉部界標。我們方法的一個關鍵新穎之處是,在使用高質量渲染引擎綜合生成的面部圖像上訓練形狀迴歸網絡。此外,我們的形狀估算器充分利用了從數百萬張臉部圖像中獲悉的深層臉部識別特徵的判別能力。我們進行了廣泛的實驗,以證明我們優化的2D到3D渲染方法的優越性,尤其是其在現實世界中自拍圖像上的出色泛化特性。我們提出的從2D圖像渲染3D化身的系統具有廣泛的應用,從虛擬增強現實VR AR和遠程精神病學到人機交互和社交網絡。

DAVID: Dual-Attentional Video Deblurring
Authors Junru Wu, Xiang Yu, Ding Liu, Manmohan Chandraker, Zhangyang Wang
盲視頻去模糊可以從模糊序列中恢復清晰的幀,而無需任何先驗。這是一項具有挑戰性的任務,因爲由於相機抖動,物體移動和散焦造成的模糊在時間和空間維度上都是異質的。傳統方法在具有單一模糊水平的合成數據集上進行訓練,因此無法在各個模糊水平上很好地概括。爲了解決這一挑戰,我們提出了一種雙重注意機制,以動態聚合時間線索以進行端到端可訓練網絡結構的去模糊處理。具體而言,內部注意模塊自適應地選擇最佳時間尺度以恢復清晰的中心幀。外部注意模塊從幾個針對不同模糊級別設計的內部注意模塊中,自適應地聚合和優化多個清晰的幀估計。爲了訓練和評估更多不同的模糊嚴重性級別,我們提出了一個具有挑戰性的DVD數據集,該數據集是通過合併具有不同時間窗口的幀從原始DVD視頻集生成的。我們的框架在這​​個更具挑戰性的數據集上始終獲得了更好的性能,同時在原始DVD基準上獲得了具有競爭力的結果。廣泛的燒蝕研究和定性可視化進一步證明了我們的方法在處理真實視頻模糊方面的優勢。

Spatio-Temporal Pyramid Graph Convolutions for Human Action Recognition and Postural Assessment
Authors Behnoosh Parsa, Athma Narayanan, Behzad Dariush
識別人類行爲以及與對象和環境的關聯交互是計算機視覺中的一個重要問題,因爲它在各種領域中都有潛在的應用。最通用的方法可以推廣到各種環境,並處理混亂的背景,遮擋和視點變化。其中,基於圖卷積網絡的從骨架中提取特徵的方法表現出了令人鼓舞的性能。在本文中,我們提出了一種新穎的時空金字塔圖卷積網絡ST PGN,用於人體工學風險評估的在線動作識別,可以使用骨架特徵層次中所有級別的特徵。所提出的算法優於在兩個通常用於姿勢評估TUM和UW IOM的公共基準數據集中測試的最新動作識別算法。我們還介紹了通過在線動作識別技術增強姿勢評估方法的渠道。最後,所提出的算法與傳統的人體工學風險指數REBA集成在一起,以證明其在職業安全中評估肌肉骨骼疾病的潛在價值。

Improved Few-Shot Visual Classification
Authors Peyman Bateni, Raghav Goyal, Vaden Masrani, Frank Wood, Leonid Sigal
很少有鏡頭學習是計算機視覺中的一項基本任務,它有望減輕對詳盡標記數據的需求。迄今爲止,大多數鏡頭學習方法都集中在逐漸複雜的神經特徵提取器和分類器適應策略上,以及對任務定義本身的改進。在本文中,我們探索一種假設,即基於簡單類協方差的距離度量(即Mahalanobis距離)已被應用到最先進的鏡頭學習方法中,而CNAPS本身可以帶來顯着的性能改善。我們還發現,有可能學習自適應特徵提取器,該提取器允許從令人驚訝的少量樣本中對該度量所需的高維特徵協方差進行有用的估計。我們工作的結果是新的簡單CNAPS體系結構,其可訓練參數比CNAPS少多達9.2,並且在標準的少量鏡頭圖像分類基準數據集上的性能比最新技術好6.1。

Self-Supervised 3D Keypoint Learning for Ego-motion Estimation
Authors Jiexiong Tang, Rares Ambrus, Vitor Guizilini, Sudeep Pillai, Hanme Kim, Adrien Gaidon
對於基於特徵的SLAM和SfM,生成可靠的照明和視點不變關鍵點至關重要。基於現有技術的學習方法通​​常依賴於通過採用單應性適配來創建2D合成視圖的方式生成訓練樣本。儘管這樣的方法瑣碎地解決了視圖之間的數據關聯,但是它們無法有效地從真實照明和非平面3D場景中學習。在這項工作中,我們提出了一種完全自我監督的方法,通過結合可區別的姿勢估計模塊來完全從未標記的視頻中學習深度感知關鍵點文本,該模塊聯合優化了關鍵點及其在“運動結構”設置中的深度。我們介紹了3D多視圖自適應,這是一種利用視頻中的時間上下文以點對點可區分方式自我監控關鍵點檢測和匹配的技術。最後,我們展示瞭如何將完全自我監督的關鍵點檢測和描述網絡作爲前端簡單地合併到強大而準確的最新視覺里程錶框架中。

Deep Distance Transform for Tubular Structure Segmentation in CT Scans
Authors Yan Wang, Xu Wei, Fengze Liu, Jieneng Chen, Yuyin Zhou, Wei Shen, Elliot K. Fishman, Alan L. Yuille
醫學圖像中的管狀結構分割,例如在CT掃描中分割血管,是使用計算機協助篩查相關疾病早期階段的重要步驟。但是由於對比度差,噪聲和背景複雜等問題,CT掃描中的自動管狀結構分割是一個具有挑戰性的問題。管狀結構通常具有圓柱狀的形狀,可以通過其骨架半徑和橫截面半徑刻度很好地表示。受此啓發,我們提出了一種幾何感知的管狀結構分割方法“深距離變換DDT”,該方法結合了用於骨架化的經典距離變換和現代深度分割網絡的直覺。 DDT首先學習多任務網絡,以預測管狀結構和距離圖的分割蒙版。圖中的每個值表示從每個管狀結構體素到管狀結構表面的距離。然後,通過利用從距離圖重新構造的形狀來細化分割蒙版。我們將DDT應用於六個醫學圖像數據集。實驗表明,1 DDT可以顯着提高管狀結構的分割性能,例如,通過DSC進行的胰管分割可改善13倍以上的改善,而2 DDT還可提供管狀結構的幾何尺寸,這對於臨牀診斷非常重要,例如橫截面胰管的規模可能是胰腺癌的指標。

Sparse and redundant signal representations for x-ray computed tomography
Authors Davood Karimi
圖像模型是所有圖像處理任務的核心。沒有強大的模型,數字圖像處理的巨大進步將無法實現,而模型本身會隨着時間而發展。在過去的十年中,基於補丁的模型已經成爲自然圖像最有效的模型之一。在許多圖像處理任務中,基於補丁的方法優於其他競爭方法。這些發展之時正值強大的計算資源的日益普及和對電離輻射對健康風險的日益關注促使對計算機斷層CT CT圖像處理算法進行研究的時候。本文的目的是解釋基於補丁的方法的原理,並回顧它們在CT中的最新應用。我們回顧了基於補丁的圖像處理中的核心概念,並解釋了一些最新的算法,重點是與CT更相關的方面。然後,我們回顧一些基於補丁的方法在CT中的最新應用。

Bilinear Models for Machine Learning
Authors Tayssir Doghri, Leszek Szczecinski, Jacob Benesty, Amar Mitiche
在這項工作中,我們定義並分析了雙線性模型,該模型替代了許多機器學習ML構建塊中使用的常規線性運算。主要思想是設計適合其所處理對象的ML算法。在單色圖像的情況下,我們表明雙線性運算比忽略像素之間空間關係的常規線性運算更好地利用了圖像的結構。這轉化爲產生相同性能所需的參數數量明顯減少。我們在MNIST數據集中顯示了分類的數值示例。

ClusterFit: Improving Generalization of Visual Representations
Authors Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, Dhruv Mahajan
在一些計算機視覺任務中,具有弱監督和自我監督策略的預訓練卷積神經網絡正變得越來越流行。然而,由於缺乏強的判別信號,這些學習的表示可能過度適合於預訓練目標,例如,標籤預測,並且不能很好地推廣到下游任務。在這項工作中,我們提出了一個簡單的策略ClusterFit CF,以提高訓練前學習的視覺表示的魯棒性。給定一個數據集,我們使用k均值從預先訓練的網絡中提取其特徵進行聚類,然後使用聚類分配作爲僞標籤從該數據集的頭開始重新訓練新的網絡。我們根據經驗表明,聚類有助於從提取的特徵中減少訓練前任務的特定信息,從而最大程度地減少對其的過度擬合。我們的方法可以擴展到弱和自我監督的不同預訓練框架,模態圖像和視頻以及預訓練任務的對象和動作分類。通過對11個不同詞彙和粒度的不同目標數據集進行的廣泛遷移學習實驗,我們證明,與最先進的大規模億萬億弱監督圖像和視頻模型以及自我監督圖像模型相比,ClusterFit顯着提高了表示質量。

A Neural Network Based on the Johnson $S_\mathrm{U}$ Translation System and Related Application to Electromyogram Classification
Authors Hideaki Hayashi, Taro Shibanoki, Toshio Tsuji
肌電圖肌電圖分類是基於肌電圖的控制系統中的一項關鍵技術。現有的EMG分類方法未考慮分佈具有偏斜度和峯度的EMG特徵的特徵,從而導致諸如需要超參數調整的缺點。在本文中,我們提出了一種基於Johnson S mathrm U翻譯系統的神經網絡,該系統能夠表示偏度和峯度的分佈。 Johnson系統是一種規範化轉換,可將非正態數據轉換爲正態分佈,從而能夠表示各種分佈。在這項研究中,基於對數Johnson Johnson S mathrm U翻譯系統的判別模型使用對數線性化轉換爲係數和輸入向量的線性組合。然後將其合併到神經網絡結構中,從而允許計算每個類別的輸入向量的後驗概率,並確定模型參數作爲網絡的權重係數。從理論上保證了網絡學習融合的唯一性。在實驗中,使用人工生成的數據評估了所建議網絡對包括偏度和峯度的分佈的適用性。還通過EMG分類實驗評估了其對實際生物學數據的適用性。結果表明,所提出的網絡無需超參數優化即可實現較高的分類性能。

cGANs with Multi-Hinge Loss
Authors Ilya Kavalerov, Wojciech Czaja, Rama Chellappa
我們提出了一種新的算法,通過對常用鉸鏈損失的多類歸納將類條件信息納入GAN的判別器中。我們的方法與大多數GAN框架形成對比,因爲我們針對具有1個損失函數的K 1類訓練單個分類器,而不是真正的假鑑別器或鑑別器分類器對。我們表明,在監督和半監督的環境中,同時學習單個好的分類器和最新的生成器狀態是可能的。通過我們對多鉸鏈損耗的修改,我們能夠將最新的CIFAR10 IS FID提升至9.58 6.40,將CIFAR100 IS FID提升至14.36 13.32,將STL10 IS FID提升至12.16 17.44。用PyTorch編寫的代碼可在以下位置獲得

Parallel Total Variation Distance Estimation with Neural Networks for Merging Over-Clusterings
Authors Christian Reiser, J rg Schl tterer, Michael Granitzer
我們考慮數據集被過度劃分爲k個聚類的初始情況,並尋求一種獨立於域的方式來合併這些初始聚類。我們確定總變化距離TVD適合此目標。通過利用TVD與貝葉斯精度的關係,我們展示瞭如何使用神經網絡並行估計所有成對集羣之間的TVD。至關重要的是,通過將所需的輸出神經元數量從k 2減少到k,減少了所需的存儲空間。通過對ImageNet子集的聚類進行實際獲得的結果表明,與依賴於最新的無監督表示形式獲得的合併決策相比,我們的TVD估計得出的合併決策更好。通過在點雲數據集上對其進行評估,可以驗證該方法的通用性。

Naive Gabor Networks
Authors Chenying Liu, Jun Li, Lin He, Antonio J. Plaza, Shutao Li, Bo Li
在本文中,我們介紹了樸素的Gabor網絡或Gabor網絡,這在文獻中是第一次以Gabor濾波器的形式嚴格設計和學習卷積核,旨在減少參數數量並限制卷積神經的解空間。網絡CNN。與其他基於Gabor的方法相比,Gabor Nets利用正弦諧波的相位偏移來控制Gabor核的頻率特性,從而能夠根據頻率角度的數據調整卷積核。此外,還實現了Gabor核的快速一維分解,從而使二維卷積的原始二次計算複雜度變爲線性。我們在兩個遙感高光譜基準上評估了我們最新開發的Gabor網絡,表明我們的模型架構可以顯着提高CNN的收斂速度和性能,尤其是在訓練樣本非常有限的情況下。

InfoCNF: An Efficient Conditional Continuous Normalizing Flow with Adaptive Solvers
Authors Tan M. Nguyen, Animesh Garg, Richard G. Baraniuk, Anima Anandkumar
連續歸一化流由於CNF具有可逆性和精確的似然估計能力,因此它們已成爲有前景的深度生成模型,可用於各種任務。但是,由於模型生成的高維潛碼(需要與輸入數據具有相同的大小),因此根據條件信號生成和下游預測任務對目標信號進行CNF調整效率很低。在本文中,我們提出了InfoCNF,這是一種有效的條件CNF,它將潛在空間劃分爲特定於類的監督代碼和在所有類之間共享的無監督代碼,以有效利用標記信息。由於劃分策略略微增加了功能評估NFE的數量,因此InfoCNF還採用門控網絡來學習其常微分方程ODE求解器的容錯能力,以提高速度和性能。我們憑經驗表明,InfoCNF可以提高基準測試的準確性,同時產生可比的可能性評分並減少CIFAR10上的NFE。此外,在InfoCNF中對時間序列數據應用相同的分區策略有助於提高外推性能。

Video Motion Capture from the Part Confidence Maps of Multi-Camera Images by Spatiotemporal Filtering Using the Human Skeletal Model
Authors Takuya Ohashi, Yosuke Ikegami, Kazuki Yamamoto, Wataru Takano, Yoshihiko Nakamura
本文討論了視頻運動捕獲,即從多攝像機圖像對人體運動進行3D重建。從每個攝像機圖像計算出零件置信度圖後,將所提出的時空濾波器應用於爲人體運動分析提供準確且平滑的人體運動數據。時空濾波器使用人體骨骼,並在兩個時間逆運動學計算中混合了時間平滑。實驗結果表明,常規運動的平均每個關節位置誤差爲26.1mm,反向運動的平均爲38.8mm。

AI2D-RST: A multimodal corpus of 1000 primary school science diagrams
Authors Tuomo Hiippala, Malihe Alikhani, Jonas Haverinen, Timo Kalliokoski, Evanfiya Logacheva, Serafina Orekhova, Aino Tuomainen, Matthew Stone, John A. Bateman
本文介紹AI2D RST,這是一個包含1000種英語圖表的多模式語料庫,代表了小學自然科學中的主題,例如食物網,生命週期,月相和人類生理學。該語料庫基於Allen Institute for AI人工智能圖AI2D數據集,該圖是帶有人羣來源描述的圖的集合,其最初是爲諸如自動圖理解和視覺問題解答之類的計算任務而開發的。 AI2D RST語料庫以AI2D中的圖佈局分割爲基礎,提供了一個新的多層註釋模式,該模式提供了對其多峯結構的豐富描述。由受過訓練的專家註釋,這些層描述1將圖元素劃分爲感知單元,2將由圖元素(如箭頭和線條)建立的連接,以及3用修辭結構理論RST描述的圖元素之間的話語關係。 AI2D RST中的每個註釋層均使用圖形表示。該語料庫可免費用於研究和教學。

Less Confusion More Transferable: Minimum Class Confusion for Versatile Domain Adaptation
Authors Ying Jin, Ximei Wang, Mingsheng Long, Jianmin Wang
域自適應DA將學習模型從標記的源域轉移到遵循不同分佈的未標記的目標域。存在多種受標籤集和域配置約束的DA方案,包括封閉集和部分集DA以及多源和多目標DA。值得注意的是,現有的DA方法通常僅針對特定方案而設計,而對於不適合它們的方案可能表現不佳。朝着一種通用的DA方法,應該探索除域對準以外的更通用的電感偏置。在本文中,我們深入研究了現有方法類混淆的缺失部分,即分類器混淆了目標示例正確和歧義類之間的預測的趨勢。我們揭露,在所有上述情況下,更少的類混淆明確表明更多的類可區分性,並隱含更多的域可轉讓性。

6-DOF Grasping for Target-driven Object Manipulation in Clutter
Authors Adithyavairavan Murali, Arsalan Mousavian, Clemens Eppner, Chris Paxton, Dieter Fox
在混亂的環境中抓握是一項基本但具有挑戰性的機器人技能。它既需要對看不見的物體部分進行推理,又需要與機械手潛在的碰撞。大多數現有的數據驅動方法通過將自己限制爲自上而下的平面抓取來避免此問題,這對於許多實際場景來說是不夠的,並且極大地限制了可能的抓取。我們提出了一種從局部點雲觀測中爲雜亂場景中的任何所需對象計劃6自由度抓取的方法。我們的方法獲得了80.3的成功抓取成功,性能比基線方法高17.6,並且在一個真實的機器人平臺上清除了9個混亂的桌子場景,這些場景包含23個未知對象和51個拾取項。通過使用學習到的衝突檢查模塊,我們甚至可以推理出有效的抓取順序來檢索無法立即訪問的對象。補充視頻可以在下面找到

Deep Learning-Based Feature-Aware Data Modeling for Complex Physics Simulations
Authors Qun Liu, Subhashis Hazarika, John M. Patchett, James Paul Ahrens, Ayan Biswas
數據建模和現場還原非常重要。用於原位數據分析和歸納的特徵驅動方法是未來百億億次計算機的優先事項,因爲此類方法目前很少。我們研究了基於深度學習的工作流,該工作流使用自動編碼器來針對原位數據處理。我們提出了在殘差密集塊RRDB中集成殘差自動編碼器以獲得更好的性能。我們提出的框架將測試數據從每3D體積時間2.1 MB壓縮到66 KB。

Privacy-Preserving Inference in Machine Learning Services Using Trusted Execution Environments
Authors Krishna Giri Narra, Zhifeng Lin, Yongqin Wang, Keshav Balasubramaniam, Murali Annavaram
這項工作提出了Origami,它通過結合安全區執行,加密盲法和散佈基於加速器的計算,爲大型深度神經網絡DNN模型提供了隱私保護推斷。摺紙將ML模型劃分爲多個分區。第一分區在SGX安全區域內接收加密的用戶輸入。安全區對輸入解密,然後對輸入數據和模型參數應用加密盲法。加密盲是一種增加噪聲以混淆數據的技術。摺紙會將混淆後的數據發送到不受信任的GPU CPU進行計算。 SGX飛地將盲目性和去盲目性因素保持私有狀態,從而在計算被卸載到GPU CPU時,可以防止任何對手對數據進行消噪處理。計算出的輸出返回到飛地,飛地使用專用於SGX內存儲的非致盲因子對噪聲數據進行解碼。像在先前的工作Slalom中所做的那樣,可以爲每個DNN層重複此過程。

Comparison of Neuronal Attention Models
Authors Mohamed Karim Belaid
用於圖像處理的最新模型使用卷積神經網絡CNN,該網絡需要對輸入圖像進行逐像素分析。此方法效果很好。但是,如果我們有大圖像,那會很費時間。爲了提高性能,通過改善訓練時間或準確性,我們需要一種尺寸無關的方法。作爲解決方案,我們可以添加神經元注意力模型NAM。這種新方法的強大之處在於它可以有效地從初始圖像中選擇幾個小區域進行聚焦。本文的目的是解釋和測試NAM的每個參數。

Temporal Wasserstein non-negative matrix factorization for non-rigid motion segmentation and spatiotemporal deconvolution
Authors Erdem Varol, Amin Nejatbakhsh, Conor McGrory
自然圖像的運動分割通常依賴於密集的光流來產生屈服點軌跡,這些屈服點軌跡可以通過包括光譜聚類或最低成本的多次切割在內的各種方式歸爲一組。但是,在諸如熒光顯微鏡或鈣成像的生物成像場景中,信噪比受到損害並且強度發生波動,光流可能難以估算。爲此,我們提出了一種基於最佳傳輸的運動分割方法,該方法將視頻幀建模爲表示爲直方圖的時變質量。因此,我們將運動分割作爲具有Wasserstein度量損失的時間非線性矩陣分解問題。該分解的字典元素可將運動分割爲相干對象,而加載係數允許捕獲運動對象隨時間變化的強度信號。我們證明了擬議的範式在模擬的多電極漂移情況下的使用,以及線蟲秀麗隱杆線蟲C.elegans的鈣指示熒光顯微鏡視頻。後者的應用具有在自由進行的行爲中提取動物神經活動的附加效用。

Cascaded Deep Neural Networks for Retinal Layer Segmentation of Optical Coherence Tomography with Fluid Presence
Authors Donghuan Lu, Morgan Heisler, Da Ma, Setareh Dabiri, Sieun Lee, Gavin Weiguang Ding, Marinko V. Sarunic, Mirza Faisal Beg
光學相干斷層掃描OCT是一種非侵入性成像技術,可以提供眼睛內部結構的微米分辨率橫截面圖像。它被廣泛用於診斷具有視網膜改變的眼科疾病,例如層變形和積液。在本文中,提出了一種新穎的框架來分割存在液體的視網膜層。這項研究的主要貢獻有兩個方面1我們開發了一個級聯網絡框架以合併現有的結構知識2我們提出了一種基於U Net和完全卷積網絡的新型深度神經網絡,稱爲LF UNet。交叉驗證實驗證明,與現有方法相比,所提出的LF UNet具有更好的性能,並且不管網絡如何,結合相對距離圖結構先驗信息都可以進一步提高性能。

Principal Component Properties of Adversarial Samples
Authors Malhar Jere, Sandro Herbig, Christine Lind, Farinaz Koushanfar
已經發現,用於圖像分類的深度神經網絡容易受到對抗性樣本的攻擊,對抗性樣本包括添加到良性圖像中的次知覺噪聲,這些噪聲容易使愚弄訓練有素的神經網絡,從而對其商業部署構成重大風險。在這項工作中,我們通過鏡頭分析對抗性樣本對每個圖像主要成分的貢獻,這與以前的作者在整個數據集中執行PCA的工作不同。我們研究了在ImageNet上訓練的許多最先進的深度神經網絡,以及針對每個網絡的幾種攻擊。我們的結果從經驗上證明,幾次攻擊中的對抗性樣本對神經網絡輸入的主要成分的貢獻具有相似的屬性。我們提出了一種用於神經網絡的新度量,以衡量其對對抗性樣本的魯棒性,稱爲k,p點。對於在ImageNet上訓練的模型,我們利用此指標在檢測對抗樣本時達到93.36的準確性,而與結構和攻擊類型無關。

Geometric Capsule Autoencoders for 3D Point Clouds
Authors Nitish Srivastava, Hanlin Goh, Ruslan Salakhutdinov
我們提出了一種使用3D點雲學習對象表示的方法,該方法使用幾何可解釋的隱藏單元束(稱爲幾何膠囊)來進行學習。每個幾何囊表示一個視覺實體,例如一個對象或一個零件,並由一個姿勢和一個特徵兩個部分組成。姿勢編碼實體的位置,而特徵編碼實體的位置。我們使用這些膠囊來構造幾何膠囊自動編碼器,該編碼器學會以無監督的方式將3D點分組爲局部小的局部曲面,然後將這些局部分組爲整個對象。我們新穎的多視圖協議投票機制用於發現對象的規範姿勢及其姿勢不變特徵向量。使用ShapeNet和ModelNet40數據集,我們分析了所獲學習表示的屬性,並顯示了獲得多張選票同意的好處。我們對任意旋轉的對象執行對齊和檢索,以評估模型的對象識別和規範的姿態恢復能力,並獲得有見地的結果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
在這裏插入圖片描述

pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章