CVPR2020:Learning in the Frequency Domain(翻譯)(一)

圖像分析新方法:“頻域學習”(Learning in the Frequency Domain)

就是省略圖像壓縮/解壓縮中計算量最大的步驟,直接利用頻域特徵來進行圖像推理,減少系統中模塊之間的數據傳輸量,從而提升系統性能。輸入的數據量更小,深度神經網絡在圖像分類/分割任務上的精度反而提升了。

論文地址:https://arxiv.org/pdf/2002.12416.pdf

摘要:

DNN在計算機視覺任務中取得了顯著的成功。現有的神經網絡主要在固定輸入尺寸的空間域內運行。在實際應用中,圖像通常很大,必須向下採樣到預定的神經網絡輸入大小。儘管下采樣減少了計算量和所需的通信帶寬,但它同時在不影響冗餘和顯著信息的前提下消除了冗餘和顯著信息,從而導致精度下降。受數字信號處理的啓發,從頻率的角度分析了頻譜偏差spectral bias,提出了一種基於學習的頻率選擇方法來識別可以在不損失精度的情況下去除的瑣碎頻率分量trivial frequency components。提出的頻域學習方法利用衆所周知的神經網絡的相同結構,如ResNet-50、MobileNetV2和Mask R-CNN,並輸入獲取的頻域信息。

實驗結果表明,與傳統的下采樣方法相比,基於靜態信道選擇static channel selection的頻域學習方法可以獲得更高的精度,同時進一步減小了輸入數據的大小。針對相同輸入大小的ImageNet分類,分別在ResNet-50和MobileNetV2上實現了1.41%和0.66%的top-1精度改進。即使只有一半的輸入大小,該方法仍然可以將ResNet-50的前1位精度提高1%。此外,我們還觀察到,在COCO數據集的實例分割方面,Mask R-CNN的平均精度提高了0.8%。

1.介紹

CNN在圖像分類、目標檢測、語義分割等各種任務上的優異表現,使計算機視覺領域發生了革命性的變化。由於計算資源和內存的限制,大多數CNN模型只接受低分辨率的RGB圖像(如224×224)。然而,現代相機拍攝的圖像通常要大得多。例如,高清晰度(HD)分辨率圖像(1920×1080)被認爲是相對較小的現代標準。即使是ImageNet數據集的平均圖像分辨率也是482×415,這大約是大多數CNN模型所能接受的尺寸的四倍。

因此,爲了滿足分類網絡的輸入要求,大量的真實圖像被壓縮到224×224。然而,圖像的縮小不可避免地會帶來信息的丟失和精度的下降。先前的工作旨在通過學習任務感知的縮小網絡來減少信息損失。然而,這些網絡是特定於任務的,需要額外的計算,這在實際應用中是不利的。

在本文中,我們提出在頻域內對高分辨率圖像進行reshape,而不是在空間域對其進行調整,然後將重新調整後的DCT係數輸入CNN模型進行推理。我們的方法需要對現有的以RGB圖像爲輸入的CNN模型進行少許修改。因此,它是常規數據預處理通道的通用替代品。實驗結果表明,與傳統的基於RGB的方法相比,該方法在圖像分類、目標檢測和實例分割等方面具有更高的精度。在AI加速器/ gpu快速發展的情況下,該方法直接降低了所需的片間通信帶寬inter-chip communication bandwidth ,而片間通信帶寬是現代深度學習推理系統的瓶頸,如圖1所示。

(a)使用RGB圖像作爲輸入的傳統的基於CNN的方法的工作流程。

(b)採用DCT係數作爲輸入的方法的工作流程。CB表示CPU和GPU/加速器之間所需的通信帶寬。

受人類視覺系統(HVS)對不同頻率分量的不平等敏感性這一觀察結果的啓發,我們分析了頻域內的圖像分類、檢測和分割任務,發現CNN模型對低頻信道的敏感性高於高頻信道,其與HVS重合。

這一觀察結果通過一個基於學習的通道選擇方法得到驗證,該方法由多個“開關”組成。將具有相同頻率的DCT係數打包成一個通道,每個開關堆疊在一個特定的頻率通道上,以允許整個通道流入或不流入網絡。

利用解碼後的高保真圖像進行模型訓練和推理,在數據傳輸和計算方面都面臨着巨大的挑戰。由於CNN模型的頻譜偏倚spectral bias,在推理過程中只能保留重要的頻率信道,而不會丟失準確性。在這篇論文中,我們也發展了一種靜態的信道選擇方法來保留顯著的信道,而不是使用整個頻譜來進行推斷。實驗結果表明,當輸入數據量減少87.5%時,CNN模型仍然保持相同的精度。

1.我們提出了一種系統方法可以在基本不改變現有的卷積神經網絡(如ResNet,MobileNet等)的前提下做基於頻域的機器識別。2.由於基於頻域的機器識別可以在不增加計算量的前提下,接受空間域尺寸更大的圖片,因此提高了圖像識別的精度。3.我們從頻率的角度分析了頻譜偏差,發現CNN模型對低頻頻道比對高頻頻道更敏感,類似於人類視覺系統(HVS)。4.我們提出了一種基於學習的動態信道選擇方法來識別瑣碎的頻率成分,以便在推理過程中進行靜態去除。在ResNet-50上的實驗結果表明,在ImageNet分類任務中,使用所提出的信道選擇方法,在不降低或幾乎不降低精度的情況下,可以修剪高達87.5%的頻率信道。5.之前基於頻域的機器學習只完成了單一物體的圖像分類 (single object recognition),我們首次將基於頻域的機器學習擴展到了圖像的物體檢測(object detection)和語義/實例分割(instance segmentation)任務中,通常物體檢測和語義/實例分割被定義爲高級視覺(High level vision) 任務。

2.相關工作

頻域學習:頻域壓縮表示包含豐富的圖像理解任務模式。[14,15,16]聯合訓練專用的基於自動編碼器的網絡進行壓縮和推理任務。[17]從頻域提取特徵對圖像進行分類。[18]提出了一種模型轉換算法,將空間域CNN模型轉換爲頻域。我們的方法與以往的方法有兩個不同之處。首先,我們避免了從空間到頻域的複雜模型轉換過程。因此,我們的方法具有更廣闊的應用範圍。其次,我們提供了一種分析方法來解釋神經網絡在頻域上的頻譜偏差。

動態神經網絡:前人的研究[19,20,21,22,23]提出了基於對卷積塊的激活來動態地選擇性地跳過卷積塊。這些工作根據每個卷積塊的輸入來調整模型的複雜度。在推理階段,只計算與輸入最相關的中間特徵,以減少計算成本。相比之下,我們的方法只對原始輸入進行操作,並提取顯著的頻率成分,以降低輸入數據的通信帶寬要求。

高效網絡訓練:近年來,人們對高效網絡的訓練產生了濃厚的興趣[24,25,26,27],主要關注通過核剪枝、學習量化和熵編碼 kernel pruning,learned quantization, and entropy encoding進行網絡壓縮。另一項工作是在頻域內對CNN模型進行壓縮。[28]通過將過濾器權值轉換爲頻域並使用哈希函數將頻率參數分組到哈希桶中來減少存儲空間。[29]還將內核轉換爲頻域,並拋棄了低能量的頻域係數來進行高壓縮。[30]限制了CNN內核的頻譜以減少內存消耗。這些網絡壓縮工作在頻域都依賴於基於FFT的卷積,在較大的內核上通常更有效。然而,最先進的CNN模型使用小內核,如3×3或1×1。需要付出大量的努力來優化這些基於FFT的CNN模型[31]的計算效率。相比之下,我們的方法對現有的CNN模型的修改很少。因此,我們的方法不需要額外的努力來提高它在小核CNN模型上的計算效率。另一個基本的區別是,我們的方法的目標是減少輸入數據的大小,而不是減少模型的複雜性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章