【AI視野·今日CV 計算機視覺論文速覽 第175期】Fri, 10 Jan 2020

AI視野·今日CS.CV 計算機視覺論文速覽
Fri, 10 Jan 2020
Totally 27 papers
👉上期速覽更多精彩請移步主頁

在這裏插入圖片描述

Interesting:

📚**基於單目視頻的循環深度估計, 將三種不同類型的深度估計(監督深度預測,自我監督深度預測和自我監督深度完成)放入一個通用框架。將相應的網絡與卷積LSTM集成在一起利用遞歸網絡實現了高性能深度估計。(from ETH Zurich )
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述
code: www.github.com/wvangansbeke/Recurrent-Depth-Estimation

📚基於超圖譜分析的點雲處理, 引入了基於張量的方法來估計點雲的超圖譜元素和頻率稀疏,建立了超圖頻率與結構特徵間的關係。(from 待定)
在這裏插入圖片描述在這裏插入圖片描述

📚高性能的圖像編碼壓縮方法, 通過利用壓縮模型和生成模型,提出了一種新穎的圖像編碼框架,以共同支持機器視覺和人類感知任務。給定輸入圖像,首先應用特徵分析,然後使用生成模型對特徵和附加參考像素執行圖像重建,在該工作中提取緊湊的邊緣圖,以可擴展的方式將兩種視覺連接起來。緊湊的邊緣圖用作機器視覺任務的基本層,而參考像素則充當一種增強層,以保證人類視覺的信號保真度。(from 北大)
在這裏插入圖片描述code:https://williamyang1991.github.io/projects/VCM-Face/

📚****P-RSDet極座標下的目標檢測器, 提出了一種新穎的以極座標爲模型的無錨檢測器來檢測遙感圖像的對象,這使得定向輸出形式的獲取與水平形式的獲取一樣簡單。這一稱爲極座標遙感物體檢測器(P-RSDet)的模型以每個物體的中心點爲極點,以水平正方向爲極軸來建立極座標系。可以將一個物體的檢測視爲水平和定向包圍盒的一個極半徑和兩個極角的預測。(from 中科院空天信息創新研究院)
在這裏插入圖片描述在這裏插入圖片描述
在這裏插入圖片描述
dataset: DOTA, UCAS-AOD and NWPU VHR-10 datasets

📚**Neural Data Server, 爲遷移學習目標領域推薦最適合的預訓練數據,以便適配目標領域的少量用戶數據(from 多倫多大學)
在這裏插入圖片描述
在這裏插入圖片描述
service:http://aidemos.cs.toronto.edu/nds/

📚***通過元學習的快速適應圖像超分辨率方法圖像去噪方法, (from 漢陽大學 韓國)
在這裏插入圖片描述
在這裏插入圖片描述

📚****Learning to Zoom-in via Learning to Zoom-out通過生成和退化過程學習實現超分辨, 提出一種根本不需要LR-HR圖像配對和對準並直接使用真實圖像的方法,首先訓練降級生成網絡以生成逼真的LR圖像,更重要的是捕獲其分佈(即學習縮小)。假設已經消除了高低分辨率間的差異,在學習降級自適應SR網絡(即學習放大)的同時將生成的數據與實際數據之間的差異最小化。所提出的未配對方法即使在更偏愛配對學習方法的數據集中也能在真實世界的圖像上獲得良好的結果。(from 阿德萊德大學 澳大利亞)

在這裏插入圖片描述
在這裏插入圖片描述

More reading:
📚生成樹形狀的點雲數據集, (from 重慶大學)
在這裏插入圖片描述在這裏插入圖片描述
code:https://github.com/liujiboy/TreePointCloud.git.

📚DeeperForensics-1.0, 人臉僞造識別庫(from 南洋理工 商湯)
在這裏插入圖片描述
在這裏插入圖片描述
Project page: https://liming-jiang.com/projects/DrF1/DrF1.html

📚**手繪到圖像的深度學習 綜述, (from 北郵)

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
Homepage: http://www.pengxu.net,
GitHub: https://github.com/PengBoXiangShang


一個通過蠟燭圖預測交易的方法:https://github.com/pecu/FinancialVision


Daily Computer Vision Papers

Don't Judge an Object by Its Context: Learning to Overcome Contextual Bias
Authors Krishna Kumar Singh, Dhruv Mahajan, Kristen Grauman, Yong Jae Lee, Matt Feiszli, Deepti Ghadiyaram
現有模型通常利用對象及其上下文之間的共現來提高識別準確性。但是,強烈依賴上下文可能會使模型具有普遍性,尤其是在缺少典型的共現模式時。這項工作的重點是解決此類上下文偏差,以提高學習到的特徵表示的魯棒性。我們的目標是在沒有上下文的情況下準確識別類別,而與上下文同時出現時則不影響性能。我們的主要思想是從類別的共現上下文中解關聯類別的要素表示。我們通過學習一個特徵子空間來實現此目的,該子空間明確表示在沒有上下文的情況下出現的類別,同時沿着表示類別和上下文的聯合特徵子空間。我們非常簡單而有效的方法可擴展到兩個多標籤任務對象和屬性分類。在4個具有挑戰性的數據集上,我們證明了我們的方法在減少上下文偏差方面的有效性。

Robust Facial Landmark Detection via Aggregation on Geometrically Manipulated Faces
Authors Seyed Mehdi Iranmanesh, Ali Dabouei, Sobhan Soleymani, Hadi Kazemi, Nasser M. Nasrabadi
在這項工作中,我們提出了一種實用的方法來解決人臉界標檢測問題。所提出的方法可以在形狀變形豐富的情況下處理較大的形狀和外觀變化。爲了處理形狀變化,我們爲我們的方法配備了經過處理的人臉圖像集合。所提出的框架僅使用一個給定的面部圖像來生成不同的被操縱的面部。該方法利用了這樣一個事實,即在輸入域中進行細微但精心設計的幾何操作可能會欺騙深層面部識別模型。我們提出了三種不同的方法來生成可操作的面孔,其中兩種方法通過對抗性攻擊執行操作,另一種使用已知的變換。彙總操作過的面部可提供一種更強大的界標檢測方法,該方法能夠捕獲面部形狀的更重要的變形和變化。與基準數據集AFLW,300 W和COFW的最新方法相比,我們的方法證明了它的優越性。

Unpaired Multi-modal Segmentation via Knowledge Distillation
Authors Qi Dou, Quande Liu, Pheng Ann Heng, Ben Glocker
多模態學習通常是利用包含模態特定層和共享層的網絡體系結構,利用不同模態的共同註冊圖像來執行的。我們提出了一種用於不配對跨模態圖像分割的新穎學習方案,其高度緊湊的架構可實現出色的分割精度。在我們的方法中,我們通過共享CT和MRI上的所有卷積核來大量重用網絡參數,並且僅採用模態特定的內部歸一化層來計算各自的統計信息。爲了有效地訓練這種高度緊湊的模型,我們通過顯式限制我們在模式之間得出的預測分佈的KL散度,引入了一個受知識蒸餾啓發的新穎損失項。我們已經在兩個多類分割問題上進行了廣泛的驗證,這些問題是心臟結構分割和腹腔器官分割。利用不同的網絡設置(即2D擴張網絡和3D U網)來研究我們方法的一般功效。這兩項任務的實驗結果表明,我們新穎的多模式學習方案始終優於單模式培訓和以前的多模式方法。

Compression of convolutional neural networks for high performance imagematching tasks on mobile devices
Authors Roy Miles, Krystian Mikolajczyk
深度神經網絡已經通過新的大型多樣數據集的出現證明了基於特徵的圖像匹配的最新性能。但是,在評估這些模型的計算成本,模型大小以及匹配精度的權衡方面,工作很少。本文通過考慮最新的L2Net體系結構來明確解決這些實際約束。我們觀察到L2Net架構中的大量冗餘,我們通過使用深度可分離層和有效的Tucker分解來利用該冗餘。我們證明了這些方法的組合更有效,但仍然犧牲了最高端的準確性。因此,我們提出了卷積深度逐點CDP層,它提供了在標準和深度方向可分離卷積之間進行插值的方法。藉助這一提議的層,我們能夠在L2Net架構上最多減少8倍的參數數量,將計算複雜度減少13倍,同時在HPatches基準測試的總體精度上犧牲不到1倍。爲了進一步說明這種方法的一般性,我們將其應用於SuperPoint模型。我們表明,CDP層可提高準確性,同時使用更少的參數和浮點運算進行推理。

STAViS: Spatio-Temporal AudioVisual Saliency Network
Authors Antigoni Tsiami, Petros Koutras, Petros Maragos
我們介紹STAViS,一種時空視聽顯着性網絡,它將時空視覺和聽覺信息相結合,以便有效解決視頻中的顯着性估計問題。我們的方法採用一個結合了視覺顯着性和聽覺特徵的單一網絡,並學會適當地定位聲源並融合這兩種顯着性以獲得最終顯着性圖。該網絡已經過設計,端到端培訓,並在六個不同的數據庫中進行了評估,這些數據庫包含各種視頻的視聽眼睛跟蹤數據。我們將我們的方法與8種不同的視覺顯着性模型進行了比較。跨數據庫的評估結果表明,在大多數情況下,我們的STAViS模型優於僅視覺變量以及其他最新模型。而且,它爲所有數據庫實現的一致良好的性能表明,它適合於評估野外的顯着性。

Virtual to Real adaptation of Pedestrian Detectors for Smart Cities
Authors Luca Ciampi, Nicola Messina, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato
通過計算機視覺進行行人檢測是在智慧城市中進行多種應用的基礎,例如敏感區域的監視,人身安全,監視和控制人流等。最近,人們對用於執行此類任務的深度學習架構越來越感興趣。這些算法的關鍵目標之一是將在訓練階段獲得的知識概括爲具有各種特徵的新場景,並且適當標記的數據集對於實現此目標至關重要。主要問題在於,手動註釋數據集通常需要大量人力,這是一項耗時的操作。因此,在這項工作中,我們引入了ViPeD虛擬行人數據集,這是從真實的3D視頻遊戲收集的一組新合成圖像,其中可以利用從圖形引擎提取的2D行人位置自動生成標籤。我們使用了這個新的合成數據集,訓練了先進的計算效率高的卷積神經網絡CNN,該網絡已準備好安裝在智能低功耗設備(如智能相機)中。我們通過使用合成數據對CNN進行微調,並利用混合批監督訓練方法來解決從虛擬世界到真實世界的域適應問題。與文獻中提供的其他方法相比,在不同的現實世界數據集上進行的廣泛實驗顯示出非常具有競爭力的結果,在文獻中,使用實際數據對算法進行了訓練。

DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection
Authors Liming Jiang, Wayne Wu, Ren Li, Chen Qian, Chen Change Loy
在本文中,我們介紹了我們正在努力構建用於人臉僞造檢測的大型基準程序DeeperForensics 1.0。我們的基準測試代表了迄今爲止最大的人臉僞造檢測數據集,共有60,000個視頻,共1760萬幀,是現有同類數據集的10倍。應用廣泛的現實世界擾動來獲得更具挑戰性的更大規模和更高多樣性的基準。我們會仔細收集DeeperForensics 1.0中的所有源視頻,並通過新提議的端到端交換框架生成虛假視頻。經用戶研究驗證,生成的視頻質量優於現有數據集中的視頻。該基準測試具有一個隱藏的測試集,其中包含在人工評估中獲得較高欺騙性分數的操縱視頻。我們將進一步進行全面的研究,以評估五個代表性的檢測基準並對不同的設置進行徹底的分析。我們相信該數據集將有助於現實世界中的僞造品檢測研究。

Spherical Image Generation from a Single Normal Field of View Image by Considering Scene Symmetry
Authors Takayuki Hara, Tatsuya Harada
全方位360度拍攝的球形圖像可以代表被攝對象的周圍環境和空間本身,從而爲觀看者提供身臨其境的體驗。由於不需要使用特定的全景相機或從多個方向拍攝圖像,因此從單個法線視場生成球形圖像NFOV圖像非常方便,並且極大地擴展了使用場景,但是,這仍然是一個充滿挑戰且尚未解決的問題。主要的挑戰是控制在生成包括所需的合理球形圖像的所有方向的寬區域中涉及的高度自由度。另一方面,場景對稱性是球形圖像整體結構的基本屬性,例如旋轉對稱性,平面對稱性和不對稱性。我們提出了一種從單個NFOV圖像生成球面圖像的方法,並使用場景對稱性控制生成區域的自由度。我們將場景對稱性參數作爲潛在變量合併到條件變分自動編碼器中,然後我們瞭解NFOV圖像和場景對稱性的球面圖像的條件概率。此外,概率密度函數使用神經網絡表示,場景對稱性通過隱藏變量的循環移位和翻轉實現。我們的實驗表明,所提出的方法可以生成各種可能的球形圖像,從對稱到不對稱控制。

Objects detection for remote sensing images based on polar coordinates
Authors Lin Zhou, Haoran Wei, Hao Li, Yue Zhang, Xian Sun, Wenzhe Zhao
定向和水平邊界框是遙感目標檢測領域中的兩種典型輸出形式。在這種情況下,當前最先進的探測器屬於基於錨的方法,並在笛卡爾座標中執行迴歸任務,這導致定向探測器的設計比水平探測器複雜得多,因爲前者通常需要設計更復雜的旋轉探測器。錨,旋轉聯合IOU上的交點和旋轉非最大壓緊NMS。在本文中,我們提出了一種新穎的以極座標爲模型的無錨檢測器來檢測遙感圖像的對象,這使得定向輸出形式的獲取與水平形式的獲取一樣簡單。我們的模型稱爲極地遙感物體檢測器P RSDet,它以每個物體的中心點爲極點,以水平正方向爲極軸來建立極座標系。我們的模型可以將一個物體的檢測視爲水平和定向包圍盒的一個極半徑和兩個極角的預測。 P RSDet以最小的成本實現了兩種輸出形式的組合。實驗表明,我們的P RSDet在水平和原始檢測領域的DOTA,UCAS AOD和NWPU VHR 10數據集上均具有競爭優勢。

Generative Pseudo-label Refinement for Unsupervised Domain Adaptation
Authors Pietro Morerio, Riccardo Volpi, Ruggero Ragonesi, Vittorio Murino
我們調查並表徵了條件生成對抗網絡cGAN在其條件標籤中針對噪聲的固有彈性,並在無監督域自適應UDA的背景下利用了這一事實。在UDA中,可以使用在標記源集上訓練的分類器來推斷未標記目標集上的僞標記。但是,由於衆所周知的域移位問題,這將導致大量錯誤分類的示例,這可以解釋爲目標集的地面真相標籤中的噪聲注入。我們表明,cGAN在某種程度上對這種移位噪聲具有魯棒性。實際上,訓練有素的僞標籤的cGAN能夠過濾此類噪聲並生成更乾淨的目標樣本。我們在迭代過程中利用這一發現,其中依次對生成模型和分類器進行聯合訓練,生成器允許從目標分佈中採樣更清潔的數據,分類器允許將更好的標籤與目標樣本相關聯,逐步完善目標僞標籤。通用基準測試的結果表明,我們的方法與無監督域自適應技術相比具有更好的性能或可比性。

Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach
Authors Yueyu Hu, Shuai Yang, Wenhan Yang, Ling Yu Duan, Jiaying Liu
在過去的幾十年中,見證了大數據時代圖像和視頻編碼技術的飛速發展。但是,信號保真度驅動的編碼流水線設計限制了現有圖像視頻編碼框架滿足機器視覺和人類視覺需求的能力。在本文中,我們通過利用壓縮模型和生成模型,提出了一種新穎的圖像編碼框架,以共同支持機器視覺和人類感知任務。給定輸入圖像,首先應用特徵分析,然後使用生成模型對特徵和附加參考像素執行圖像重建,在該工作中提取緊湊的邊緣圖,以可擴展的方式將兩種視覺連接起來。緊湊的邊緣圖用作機器視覺任務的基本層,而參考像素則充當一種增強層,以保證人類視覺的信號保真度。通過引入高級生成模型,我們訓練了一個靈活的網絡,以從緊湊的特徵表示和參考像素重建圖像。實驗結果證明了我們的框架在人的視覺質量和麪部標誌檢測方面的優越性,這爲機器視覺MPEG VCM視頻編碼的新興標準化工作提供了有用的證據。

Fast Adaptation to Super-Resolution Networks via Meta-Learning
Authors Seobin Park, Jinsu Yoo, Donghyeon Cho, Jiwon Kim, Tae Hyun Kim
常規的監督超分辨率SR方法是使用大量外部SR數據集進行訓練的,但無法利用給定測試圖像的理想特性。另一方面,自我監督的SR方法利用測試圖像中的內部信息,但是在運行時會遇到計算複雜性。在這項工作中,我們觀察到了通過實際利用輸入圖像提供的附加信息,在不改變傳統SR網絡架構的情況下進一步提高SISR性能的機會。在訓練階段,我們通過元學習對網絡進行訓練,因此,網絡可以在測試時快速適應任何輸入圖像。然後,在測試階段,僅使用給定的低分辨率圖像,只需幾次迭代即可快速微調此元學習網絡的參數。在測試時進行的調整充分利用了自然圖像中觀察到的斑塊遞歸特性。我們的方法可有效處理未知的SR內核,並可應用於任何現有模型。我們證明了所提出的模型不可知論方法在各種基準SR數據集上不斷提高了常規SR網絡的性能。

Self-Supervised Fast Adaptation for Denoising via Meta-Learning
Authors Seunghwan Lee, Donghyeon Cho, Jiwon Kim, Tae Hyun Kim
在噪聲的某些統計假設下,已引入了最近的自我去噪方法來學習沒有真正乾淨圖像的網絡參數,並且這些方法可以通過利用來自給定輸入的可用信息(即測試時的內部統計信息)來還原圖像。但是,自我監督方法尚未與傳統的監督降噪方法相結合,後者用大量外部訓練樣本訓練降噪網絡。因此,我們提出了一種新的降噪方法,該方法可以通過自我監督將其網絡參數調整爲給定輸入,而無需更改網絡體系結構,從而大大優於現有的監督降噪方法。此外,我們提出了一種元學習算法,以使參數可以在測試時快速適應特定輸入。我們證明,所提出的方法可以輕鬆地與最新的去噪網絡一起使用,而無需其他參數,並且可以在衆多基準數據集上實現最新的性能。

Deep Plastic Surgery: Robust and Controllable Image Editing with Human-Drawn Sketches
Authors Shuai Yang, Zhangyang Wang, Jiaying Liu, Zongming Guo
基於草圖的圖像編輯旨在根據人類繪製的草圖提供的結構信息來合成和修改照片。由於草圖很難收集,因此先前的方法主要使用邊緣圖而不是草圖來訓練稱爲基於邊緣的模型的模型。但是,草圖與邊緣貼圖顯示出很大的結構差異,因此無法使用基於邊緣的模型。此外,草圖經常顯示出不同用戶之間的差異,要求更高的通用性和魯棒性才能使編輯模型起作用。在本文中,我們提出了“深層整形手術”,一種新穎,強大且可控制的圖像編輯框架,該框架允許用戶使用手繪草圖輸入交互地編輯圖像。我們提出了一種素描改進策略,其靈感來自於藝術家從粗略到精細的繪畫過程,我們展示了該策略可以幫助我們的模型很好地適應隨意和多樣化的素描,而無需實際的素描訓練數據。我們的模型還提供了一個細化級別控制參數,使用戶可以靈活定義輸入草圖對於最終輸出應考慮的可靠性,在草圖真實性和輸出逼真度之間取得平衡,因爲如果輸入草圖繪製得不好,這兩個目標可能會矛盾。爲了實現多級細化,我們引入了一種基於樣式的級調節模塊,該模塊允許在單一網絡中針對不同級進行自適應特徵表示。大量的實驗結果表明,與現有方法相比,我們的方法在改善圖像編輯的視覺質量和用戶可控制性方面具有優勢。

HMANet: Hybrid Multiple Attention Network for Semantic Segmentation in Aerial Images
Authors Ruigang Niu
高分辨率VHR航拍圖像中的語義分割是遙感圖像理解中最具挑戰性的任務之一。當前的大多數方法都基於深度卷積神經網絡DCNN,因爲它具有出色的特徵表示能力。具體而言,基於注意力的方法可以有效地捕獲遠程依存關係,並進一步重構特徵圖以更好地表示。然而,僅受空間和頻道關注的角度以及自我關注機制的巨大計算複雜性的限制,不太可能對每個像素對之間的有效語義相互依賴性進行建模。在這項工作中,我們提出了一個新穎的基於注意力的框架,稱爲混合多重注意力網絡HMANet,可以以更有效和高效的方式從空間,渠道和類別的角度自適應地捕獲全局相關性。具體地,嵌入有班級頻道注意CCA模塊的班級增強注意CAA模塊可以用於計算基於類別的相關性並重新校準班級信息。此外,我們引入了一個簡單但區域隨機的注意力RSA模塊,以減少特徵冗餘並通過區域智能表示提高自我注意機制的效率。 ISPRS Vaihingen和波茨坦基準測試的大量實驗結果證明了我們HMANet相對於其他現有方法的有效性和效率。

Semi-supervised Learning via Conditional Rotation Angle Estimation
Authors Hai Ming Xu, Lingqiao Liu, Dong Gong
自我監督學習SlfSL旨在通過精心設計的無人註釋的藉口任務學習特徵表示,在過去幾年中取得了令人矚目的進步。最近,SlfSL還被認爲是半監督學習SemSL的有前途的解決方案,因爲它提供了利用未標記數據的新範例。通過建議將SlfSL與SemSL結合使用,這項工作進一步探索了這個方向。我們的見解是,可以將SemSL中的預測目標建模爲SlfSL目標的預測變量中的潛在因素。對潛在因素進行邊際化自然會得出一種新的公式,該公式將這兩個學習過程的預測目標結合在一起。通過簡單但有效的SlfSL方法旋轉角度預測來實現此想法,我們創建了一種新的SemSL方法,稱爲條件旋轉角度估計CRAE。具體而言,CRAE的特點是採用了一個模塊,該模塊可預測以候選圖像類爲條件的圖像旋轉角度。通過實驗評估,我們顯示出CRAE比結合SlfSL和SemSL的其他現有方法具有更高的性能。爲了進一步提高CRAE,我們提出了兩個擴展,以加強基本CRAE中SemSL目標和SlfSL目標之間的耦合。我們表明,這導致了一種改進的CRAE方法,可以實現最新的SemSL性能。

A novel tree-structured point cloud dataset for skeletonization algorithm evaluation
Authors Yan Lin, Ji Liu, Jianlin Zhou
從無組織的點雲中提取曲線骨架是計算機視覺以及三維數據預處理和可視化的基本任務。從點雲中提取骨架的工作量很大。但是缺乏具有地面真實框架的點雲標準數據集,使得評估這些算法變得困難。在本文中,我們構建了一個全新的樹狀點雲數據集,其中包括地面真相骨架和點雲模型。另外,在帶噪聲的乾淨點雲,缺少數據的點雲,不同密度的點雲和密度分佈不​​均勻的點雲上構建了四種類型的點雲。我們首先使用樹編輯器來構建樹骨架和相應的網格模型。由於隱式表面具有足夠的表達力,可以保留複雜分支模型的邊緣和細節,因此我們使用隱式表面對三角形網格進行建模。通過隱式表面,虛擬掃描儀將應用於點雲採樣。最後,考慮到骨架提取中的挑戰,我們介紹了構建四種不同類型的點雲模型的不同方法。該數據集可用作骨架提取算法的標準數據集。並且,可以通過將地面真實骨骼與所提取的骨骼進行比較來進行骨骼提取算法之間的評估。

Multi-Scale Weight Sharing Network for Image Recognition
Authors Shubhra Aich, Ian Stavness, Yasuhiro Taniguchi, Masaki Yamazaki
在本文中,我們探索了卷積網絡中多個尺度上的權重共享的思想。受傳統計算機視覺方法的啓發,我們在網絡的同一層中以不同規模共享卷積核的權重。儘管在卷積網絡中多尺度特徵聚合和共享在實踐中很常見,但是以前的工作都沒有解決卷積權重共享的問題。我們在兩個異構圖像識別數據集ImageNet對象識別和Places365標準場景分類中評估權重分配方案。與基線ResNet相比,我們的共享權重ResNet模型減少了大約25個參數,從而提供了類似的性能。通過在四個附加圖像識別數據集Caltech256和Stanford 40 Actions以對象爲中心以及SUN397和MIT Inddor67以場景爲中心的轉移學習實驗中進一步驗證了共享權重模型。實驗結果表明,在更深層網絡的原始實現中存在大量冗餘,並且還表明朝着增加每個參數的接收場的轉變可能會改善未來的卷積網絡體系結構。

Learning landmark guided embeddings for animal re-identification
Authors Olga Moskvyak, Frederic Maire, Feras Dayoub, Mahsa Baktashmotlagh
由於不同個體之間的身體標記存在細微變化,並且對野外動物的姿勢沒有任何限制,因此在圖像中重新識別單個動物可能是模棱兩可的。人物重新識別是一項類似的任務,已經通過深度卷積神經網絡CNN進行了研究,該網絡學習了對人像的判別嵌入。但是,由於與個體身份的標記數據集相比,生態數據集的大小相對較小,因此學習個體動物的辨別特徵比人的外觀更具挑戰性。我們建議通過顯式地利用身體地標信息來改善嵌入學習。身體界標作爲可從單獨的身體界標預測變量獲得的置信度熱圖提供給CNN的輸入。通過學習重建輸入熱圖的輔助任務,鼓勵模型使用熱圖。身體界標引導特徵提取網絡學習獨特模式的表示及其在身體上的位置。我們在大型綜合數據集和小型實際數據集上評估了該方法。我們的方法優於相同的模型,而沒有分別在合成數據集和真實數據集上輸入26和18的人體界標。該方法對於輸入座標中的噪聲是魯棒的,並且可以容忍高達圖像大小的10的座標中的誤差。

Neural Data Server: A Large-Scale Search Engine for Transfer Learning Data
Authors Xi Yan, David Acuna, Sanja Fidler
事實證明,遷移學習是在缺乏訓練數據的領域中訓練深度學習模型的成功技術。主要方法是在大型通用數據集(例如ImageNet)上預訓練模型,並在目標域上微調其權重。但是,在海量數據集數量不斷增加的新時代,選擇相關數據進行預訓練是一個關鍵問題。我們引入了神經數據服務器NDS,這是一個大型搜索引擎,用於查找最有用的轉移學習數據到目標域。我們的NDS由一個數據服務器組成,該數據服務器爲幾個大型的流行圖像數據集建立索引,並旨在將數據推薦給具有目標應用程序和最終用戶的最終用戶,該應用程序具有自己的小標籤數據集。就像在任何可能爲衆多用戶提供信息的搜索引擎中一樣,我們希望數據服務器執行的在線計算最少。數據服務器代表具有更緊湊的專家模型組合的大型數據集,並使用它以低計算量在一系列數據服務器客戶端事務中執行數據搜索。我們展示了NDS在各種轉移學習場景中的有效性,展示了在幾個目標數據集和任務(例如圖像分類,對象檢測和實例分割)上的最新性能。我們的神經數據服務器可通過以下Web服務獲得:

Toward Generalized Clustering through an One-Dimensional Approach
Authors Luciano da F. Costa
在將羣集的概念歸納爲包含通過一些相對狹窄的橋樑鏈接到其他羣集的羣集之後,基於聚結羣集(更具體地講,是將單個鏈接應用於一維切片),開發了一種檢測這些羣集之間的分離補丁的方法。從各個特徵空間獲得。關於點的無簇均勻和正態分佈以及一維聚類模型的分析,說明了該方法的潛力,該模型以兩個間隔高,密度小的點間隔較小的特徵爲特徵的一維聚類模型。然後,將這種部分聚類方法視爲特徵選擇和聚類識別的一種手段,並針對某些假設情況描述和說明了兩種簡單但可能有效的相應方法。

Investigating the Impact of Inclusion in Face Recognition Training Data on Individual Face Identification
Authors Chris Dulhanty, Alexander Wong
現代人臉識別系統利用包含數十萬特定個人面孔圖像的數據集來訓練深度卷積神經網絡,以學習將任意個人面孔映射到其身份矢量表示的嵌入空間。人臉識別系統1 1和人臉識別1 N任務中人臉識別系統的性能與嵌入空間區分身份的能力直接相關。近來,公衆對大規模面部識別訓練數據集(例如MS Celeb 1M和MegaFace)的來源和隱私含義進行了廣泛的審查,因爲許多人不滿意其面部被用於訓練可以實現大規模監視的雙重用途技術。但是,以前沒有研究過將個人包含在訓練數據中對派生系統識別它們的能力的影響。在這項工作中,我們對ArcFace(一種先進的開放源代碼人臉識別系統)進行了大規模審覈,該實驗使用了超過一百萬張分心器圖像。我們發現存在於模型訓練數據中的個人的1級面部識別準確度爲79.71,對於不存在的個人,則爲75.73。準確性上的這種適度差異表明,使用深度學習的面部識別系統更適合他們所培訓的個人,當人們認爲所有主要的開源面部識別訓練數據集在收集過程中未獲得個人的知情同意時,這會對隱私產生嚴重影響。

An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal
Authors Sifeng Xia, Kunchangtai Liang, Wenhan Yang, Ling Yu Duan, Jiaying Liu
在本文中,我們研究了由於新興的MPEG標準化努力而產生的新問題,即用於機器VCM的視頻編碼,其目的是彌合視覺特徵壓縮與經典視頻編碼之間的差距。 VCM致力於以或多或少可擴展的方式滿足機器和人類視覺對緊湊信號表示的需求。爲此,我們努力利用預測模型和生成模型的優勢來同時支持機器視覺和人類視覺任務的高級壓縮技術,其中視覺功能充當橋樑,以可擴展的方式連接信號級和任務級緊湊表示方式。具體來說,我們採用條件深度生成網絡在學習運動模式的指導下重建視頻幀。通過學習通過預測模型提取稀疏運動模式,網絡依靠編碼鍵幀的外觀,優雅地利用特徵表示通過生成模型生成編碼幀的外觀。同時,稀疏的運動模式緊湊且對高水平視覺任務(例如:動作識別。實驗結果表明,與傳統的SSIM中0.0063增益的傳統視頻編解碼器相比,我們的方法產生了更好的重建質量,以及在高度壓縮的視頻上的最新動作識別性能9.4的識別精度方面的表現,展示了一種有前途的編碼信號模式對於人類和機器視覺。

An inexact matching approach for the comparison of plane curves with general elastic metrics
Authors Yashil Sukurdeep, Martin Bauer, Nicolas Charon
本文介紹了一種新的數學公式和數值方法,用於計算沉浸平面曲線之間的距離和測地線。我們的方法結合了最近由Kurtek和Needham引入的針對一階彈性度量的通用簡化變換,以及使用參數化不變保真度度量的匹配約束的放寬。這種公式化的主要優點是,它導致離散曲線的簡單優化問題,並且爲處理嘈雜,不一致或損壞的數據提供了靈活的方法。通過一些初步的數值結果可以說明這些好處。

An Internal Covariate Shift Bounding Algorithm for Deep Neural Networks by Unitizing Layers' Outputs
Authors You Huang, Yuanlong Yu
提出了批歸一化BN技術,以通過嘗試保持層輸出的分佈不變來減少所謂的內部協變量頻移ICS。實驗證明了它們在訓練深度神經網絡方面的有效性。但是,由於在這些BN技術中僅控制前兩個時刻,因此似乎對層分佈施加了較弱的約束,而且這種約束是否可以降低ICS尚不清楚。因此,本文提出了一種利用地球移動器EM距離的ICS度量,然後推導出該度量的上限和下限,以提供BN的理論分析。上限表明,BN技術只能控制尺寸小,噪聲小的輸出的ICS,而在其他情況下,其控制無效。本文還證明了這種控制僅僅是ICS的邊界,而不是ICS的簡化。同時,分析表明,BN無法控制的高階矩和噪聲對下限有很大影響。在這種分析的基礎上,本文還提出了一種算法,該算法將具有可調參數的輸出組合到進一步綁定的ICS,以解決BN問題。所提出的單元化的上限是無噪聲的,並且僅由參數決定。因此,可以訓練參數以調整邊界並進一步控制ICS。此外,將單元化嵌入到BN的框架中以減少信息丟失。實驗表明,該算法優於CIFAR 10,CIFAR 100和ImageNet數據集上的現有BN技術。

Explainable Deep Convolutional Candlestick Learner
Authors Jun Hao Chen, Samuel Yen Chi Chen, Yun Cheng Tsai, Chih Shiang Shur
燭臺是給定時期內價格走勢的圖形表示。交易者可以通過查看燭形圖來發現資產的趨勢。儘管深度卷積神經網絡在識別燭臺模式方面取得了巨大成功,但其推理卻隱藏在黑匣子中。交易者無法確定模型學到了什麼。在此貢獻中,我們提供了一個框架,用於解釋確定時間序列的特定燭形模式的學習模型的原因。基於本地搜索對抗攻擊,我們表明學習的模型以類似於人類交易者的方式感知燭臺的模式。

Learning Generative Models using Denoising Density Estimators
Authors Siavash A. Bigdeli, Geng Lin, Tiziano Portenier, L. Andrea Dunbar, Matthias Zwicker
學習生成概率模型可以在給定一組樣本的情況下估計連續密度,並且可以從該密度進行採樣,這是無監督機器學習中的基本挑戰之一。在本文中,我們引入了一種基於降噪密度估計器DDE的獲取這種模型的新方法。 DDE是由神經網絡參數化的標量函數,可以有效地訓練它來表示數據的核密度估計量。利用DDE,我們的主要貢獻是開發一種新穎的方法來獲取可從給定密度採樣的生成模型。我們證明,獲得DDE和生成模型的算法可以保證收斂到正確的解決方案。我們方法的優點包括,我們不需要像規範化流程中那樣的特定網絡體系結構,不需要像連續規範化流程中那樣的普通微分方程求解器,也不需要像生成對抗性網絡GAN中那樣的對抗性訓練。最後,我們提供的實驗結果證明了我們技術的實際應用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩請移步主頁


在這裏插入圖片描述
在這裏插入圖片描述
pic from pexels.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章