多任務訓練的模式結構擴散

多任務訓練的模式結構擴散

Pattern-Structure Diffusion for Multi-Task Learning

論文地址:

http://openaccess.thecvf.com/content_CVPR_2020/html/Zhou_Pattern-
Structure_Diffusion_for_Multi-Task_Learning_CVPR_2020_paper.html

摘要

基於模式結構在任務內和任務間頻繁重複的觀察,提出了一個模式結構擴散(PSD)框架,在任務層空間中挖掘和傳播特定任務和任務,用於聯合深度估計、分割和表面法向預測。爲了表示局部模式結構,將其建模爲小規模的圖形,並以兩種不同的方式傳播,即任務內和任務間PSD。對於前者,爲了克服模式結構局部性的限制,利用鄰域上的高階遞歸聚集來乘性地增加擴展範圍,從而在任務空間內傳播長距離模式。在任務間PSD中,根據任務中成對模式結構的匹配程度,將對應於同一空間位置的對應結構相互轉換爲任務本身。最後,將任務內和任務間的模式結構在任務級模式之間進行聯合擴散,並封裝成端到端PSD網絡,以提高多任務學習的性能。在兩個廣泛使用的基準上進行的大量實驗表明,提出的PSD更爲有效,並且取得了最新的或有競爭力的結果。

一.基本原理和貢獻

由於在智能機器人[42]、自動駕駛[6]等領域有着重要的應用,密集像素預測任務,如深度估計、分割和曲面法向預測是計算機視覺領域的基礎性和挑戰性工作。然而,單任務模型更多的關注於魯棒迴歸的學習,而很少考慮任務之間的交互作用。作爲場景理解中的像素級任務,這三個任務實際上有一些共同的特點,可以相互共享。最近,聯合任務學習方法[29,55,8,38,53]出現了,並顯示出一個有希望的方向,通過跨任務交互來提高性能。大多致力於特徵融合(如級聯)或模型共享(如公共網絡參數),遵循傳統的融合路線。由於非故意的集成,這些“黑盒”方法無法關注/知道多個任務之間傳輸/交互的具體信息。最終,在多任務像素預測的研究中,哪些信息可以用來橋接不同的任務還沒有得到很好的揭示和利用。一個觀察結果是[58]局部斑圖在同一幅圖像中以及不同比例的圖像中頻繁地重複出現。隱含着大量自然圖像局部模式結構的高度相似性。局部模式的結構爲像素級的預測提供了有力的線索,匹配的模式結構可以產生相似的高概率預測值。更重要的是,如圖1所示,這種觀察可以擴展到跨不同任務的場景中,其中在相同的空間位置處,大量的面片具有極其相似的模式結構。例如,來自不同任務的相同位置的面片(紅方塊)在深度、分段和曲面法線上具有相似的模式結構。描述相同的對象,並賦予有關對象形狀/邊界的類似信息。因此,對於隱藏在圖像中的局部模式結構,以及任務間的局部模式結構,應該進行挖掘,並用於像素級的多任務學習。

基於對任務內和任務間模式結構重現性的觀察,提出了一個模式結構擴散(PSD)框架,在任務層空間中挖掘和傳播任務特定和任務間的模式結構,以實現跨深度估計的多任務聯合學習,分割和曲面法向預測。爲了刻畫局部模式結構,將其構造爲小尺度圖形,其拓撲結構表示像素級的結構佈局,而每個頂點固定在一個像素位置。這意味着圖w.r.t a局部區域編碼其中像素級模式的相關性。爲了在任務域中傳輸模式結構,構造了兩種模式結構擴散過程,稱爲任務內和任務間PSD。對於前者,爲了克服模式結構局部性的限制,提出了高階遞歸擴散,通過對鄰接矩陣的計算來乘性地增加傳播範圍。這種遞歸模式結構擴散可以減少計算負擔和內存需求,而不是直接的更大範圍或全局模式相關。在任務間PSD過程中,首先得到對應於同一空間位置的成對模式結構的相似性,然後根據學習到的相似性將對應的結構相互轉化爲任務本身。由於遠程擴散是在任務內進行的,實際上,任務間PSD可以隱式地借用任務本身之外的對應任務的大範圍模式結構。最後,將任務內模式和任務間模式結構在任務級模式間進行聯合擴散,並封裝成端到端PSD網絡,提高了多任務學習的性能。在兩個公共數據集NYUD-v2[35]、SUNRGB-D[40]上進行了廣泛的聯合深度、分割和表面法向估計實驗。實驗表明,本文提出的PSD方法比傳統的PSD方法更爲有效,達到了目前的水平或具有競爭力的結果。

綜上所述,貢獻主要體現在三個方面:一)提出了一個新的模式結構擴散框架,試圖挖掘和傳播不同任務域中的局部模式結構;二)提出了兩種模式結構擴散,即任務內和任務間的模式結構擴散,其中前者引入遞歸機制學習長距離傳播,而後者導出任務間關聯以傳遞跨任務結構;iii)驗證了提出的PSD方法的有效性,並在深度上達到了最先進或最具競爭力的性能,兩個公共多任務學習數據集的分割和表面正態估計。
在這裏插入圖片描述
二.相關研究

語義分割

隨着深度學習在高級視覺任務中的巨大成功,許多語義分割方法[31、33、4、9、37]都從CNNs中受益。Long等人[24]提出了一種用於語義分割的全卷積神經網絡(FCN),以端到端的方式進行像素級分類。後來,許多方法[7,20,31]都是基於FCN的。隨着大規模RGB-D數據集的發佈,一些RGBD方法[36、47、13、14]如雨後春筍般湧現。此外,一些方法[44,15]使用基於圖的表示來解決將圖像分割成區域的問題。與這些方法不同,只使用RGB圖像作爲輸入源,基於深度預測進行語義分割預測,而不是基於深度-真值。此外,還從其任務中獲得支持,以改進分割預測。

深度估計

單目深度估計的研究由來已久,以往的研究多采用馬爾可夫隨機場(MRF)[3,2]。近年來,美國有線電視新聞網(CNN)的一些建築作品(45、19、34、50、38、27、18、52、57、56)取得了最新的成果。Eigen等人[11] 首先利用CNN提出了一種多級網絡來解決單目深度估計問題。羅伊等人[39]利用迴歸森林,在每個樹節點構建淺層結構來預測深度。與這些只進行深度預測的方法不同,建議利用其任務的提示來提高深度估計。

表面法向估計

由於深部神經網絡具有很強的特徵表示能力,因此[30,16,17,26,48]的表面法向估計方法大多是基於深部神經網絡的。Eigen和Fergus[14]採用單一的粗到細分層網絡進行深度/法向預測。Wang等人。[46]是第一個通過單一的RGB圖像利用平面信息對密集幾何估計進行正則化的方法。最近,齊等人。[38]建議使用三維幾何信息預測表面法向和深度。在工作中,深度和分割信息增強了對曲面法向的預測。

多任務學習

許多多任務學習方法[1,23,43,22,53,41,54]取得了巨大的成功。一些研究者[22,53]提出了多任務學習的特徵傳遞機制。最近,張等人。[55]建議學習非本地任務特定模式定義,並獲得具有固定交互參數的跨任務定義。方法與這些方法在以下幾個方面不同:i)跨任務傳輸模式結構,而不是簡單的加權特徵;ii)挖掘局部斑塊模式結構(即圖形),並將其從局部到全局進行多重擴散,與全局定義相比,具有高效計算的附帶優勢[55],iii)具有可用於不同任務的圖形拓撲的模型。
在這裏插入圖片描述
三.模式結構擴散

在這一部分中,首先概述了整個網絡結構,然後分別介紹了局部模式結構、任務內模式結構擴散和任務間模式結構擴散的定義,最後提出了由三個不同像素級預測任務組成的目標函數。

3.1.網絡架構

模式結構擴散被封裝到端到端的深網絡中,如圖2所示。整個網絡可分爲一個共享編碼器和三個任務專用解碼器,其中模式結構在任務內部也跨任務相互傳播。給定一個RGB圖像x,編碼器通過卷積神經網絡生成多尺度層次特徵映射,例如ResNet[21]。從編碼器的最後一個卷積層將響應圖輸入到每個任務分支,以解碼像素級的任務相關信息。爲了產生重新定義的高分辨率預測,將這些卷積特徵解碼爲更高分辨率的特徵映射,然後在編碼器處與相同比例的特徵連接,以饋入剩餘塊以產生特定於任務的特徵。接下來,對三個任務特定的特徵映射執行模式結構擴散。具體地說,任務內PSD(第3.3節)首先對解碼後的特徵執行,以在每個任務內傳輸長距離上下文信息,然後任務間PSD(第3.4節)用於兩個不同的任務,以相互吸收對應結構。爲了提高PSD的效率,在像素級局部模式區域而不是第3.2節中介紹的大尺度或全局區域構建小圖形。此外,還推導出了一個遞歸的過程,即在傳聲器上傳播到遠距離位置。對於任務間PSD,在同一位置將成對的筆跡關聯起來,並將結構信息有分量地傳遞到目標任務中。藉助於任務內和任務間的聯合PSD,模式結構可以在三個任務內/跨任務的遠程上下文中廣泛傳播。

反覆地,可以繼續向上縮放特徵映射,並執行上述解碼過程,以產生最終像素級預測所需的更高特徵尺度。這種粗到精的過程在多損失函數下被監督,然後在每個尺度上有卷積預測層,其中的細節在第節中給出。

3.2. 局部模式結構定義

表示解碼後的深度、分割、表面法向任務的多通道特徵圖。這裏H,W,C分別表示高度,寬度和通道號。用像素級的相關性來刻畫每一個局部模式,稱之爲模式結構。爲了方便說明模式結構的構造,在下面的描述中省略上標T。

因此,在實際應用中可以利用稀疏矩陣的計算來加快計算速度。局部結構不僅有利於高效率計算和低內存需求,而且在高階計算後可以擴展到全局。

Intra-Task
PSD

任務內擴散的目的是通過在單個任務中擴散局部模式來獲取長距離語義信息,從而增強任務特定模式。

任務內擴散過程如圖3所示。爲了傳播長距離模式信息,可以遞歸地迭代聚合過程,把局部模式傳播到更遠程模式。

Inter-Task PSD

對於相同的輸入,不同的任務像素級預測在相應的位置具有相似的局部模式結構,這意味着一些潛在的線索可以關聯不同的任務。爲此,嘗試將局部模式結構從一個任務轉移到另一個任務,以實現跨任務模式傳播。在圖4中,展示了任務間模式結構擴散的主要過程。下面以分割爲目標任務,將另外兩個任務的信息傳播到分割任務中。因此,在實際應用中可以利用稀疏矩陣的計算來加快計算速度。局部結構不僅有利於高效率計算和低內存需求,而且在高階計算後可以擴展到全局。

損失函數

對於不同的任務,採用任務特定的損失函數。根據最新的深度估計算法[27],使用berHu損耗進行深度監控。對於語義分割和曲面法向,分別採用交叉熵損失和L1損失。

三.測試實驗

4.1. 數據集NYUD-v2

NYUD-v2數據集[35]是一個流行的室內場景RGB圖像數據集,由微軟Kinect捕獲。從40個類別中只有1449個選定的幀被標記爲要分割。按照標準設置[14],使用795幅圖像來訓練模型,使用654幅圖像來測試最終性能。此外,遵循[16,38]中的方法,隨機抽取12k幅圖像,生成地表法向地面真值。

因此,可以利用更多的數據來訓練關節深度和表面法向模型。

SUNRGB-D

SUNRGB-D數據集[40]是一個非常大且具有挑戰性的數據集,包含10355個室內場景的RGB-D圖像。這些圖像分爲37類,包括牆壁、桌子、地板等。所有這些圖像都有分割和深度標籤,但沒有表面法向標籤。因此,利用5285幅圖像訓練聯合預測分割和深度模型,並根據官方文獻對5050幅圖像進行測試。

4.2.實施細節培訓

在Pythorch上實現了提出的模型,具有雙NVIDIA GeForce RTX2080Ti(每個12GB的GPU內存)。基於ResNet-50[21]構建框架,ResNet-50[21]是在ImageNet分類任務[12]上預先訓練的。對於預訓練層和其層的參數,初始學習率分別爲1e-4/0.01,並且在微調過程中衰減到1e-5/0.01。使用0.9的動量和1e-4的重量衰減。該網絡以端到端的方式對RGB圖像進行深度、分割和曲面法向訓練。爲了進一步提高計算速度和降低存儲成本,只關注中心節點與局部圖中其節點的連接,使得鄰接矩陣更加稀疏,並聚集鄰接矩陣的所有通道,而不是進行通道計算,即。,APi∈Rl×l,將640×480像素的原始幀中心裁剪爲416×416。爲了增加數據的多樣性,採用了與[32]相同的數據增長策略:縮放、偏移、裁剪和旋轉。對於SUN-RGBD數據集,爲50個階段訓練模型,併爲30個階段優化模型。對於NYUD-v2數據集,聯合深度分割模型針對50個階段進行訓練,並針對另外25個包含12k個圖像的階段進行調整。對於三任務聯合模型,分別取200個階段和100個階段進行優化。

Metrics

對於深度估計的評估,遵循了前人的工作[14,27],使用的度量包括:均方根誤差(RMSE)、平均相對誤差(REL)、對數空間均方根誤差(RMSE-log)和閾值δ的精度,其中δ∈{1.25,1.252,1.253}。對於語義分割,採用了與[10,31]相同的度量:像素精度(PixAcc)、平均精度(mAcc)和聯合上的平均交集(mIoU)。對於曲面法向,使用以下度量:角度誤差的平均值(mean)、角度誤差的中間值(Median)、法向均方根誤差(Nor RMSE)和像素精度作爲角度誤差低於閾值η的像素的百分比,其中η∈{11.25°22.50°30°30}。

4.3.與本節的研究現狀相比,將提出的方法分別與深度估計、語義分割和表面法線的各種最新方法進行了比較。在每個實驗中,設置節點數=9(即區域大小=3×3),迭代步驟爲9。以下實驗均採用ResNet-50作爲骨幹。

語義分割

在廣泛使用的NYUD-v2和SUNRGB-D數據集上進行了語義分割的比較。NYUD-v2數據集的優勢或競爭性比較結果如表1所示。注意,這裏的大多數方法都是RGB-D方法,直接以深度圖作爲輸入源。相反,爲三個任務訓練的模型僅以795個RGB圖像作爲輸入,獲得最佳PixAcc(優於TRL[53]0.8%)和mIoU(優於D-CNN[47]2.6%),但mAcc比D-CNN[47]稍差。這可能是由於深度預測不完善。雖然PSD可以得到令人印象深刻的深度估計結果,但其預測精度仍不如地面真值,這對分割預測造成了負面影響。對於SUNRGB-D數據集,訓練了深度和分割模型。如表2所示,可以觀察到,方法在mAcc上略弱於RDF-ResNet152[36],但在PixAcc和mIoU上優於RDF-ResNet152[36]。這也可能是由於上述原因。同時,RDF-ResNet152使用比ResNet-50更強的網絡骨幹。定量結果如圖5所示。所有這些結果都表明PSD可以通過其任務的信息來提高分割效果。

深度估計

主要將提出的PSD與NYUDv2數據集深度估計的最新進展進行比較。如表3所示,爲三個任務(PSD Td+Ts+Tn)聯合訓練的模型,雖然僅使用795幅圖像進行訓練,但能夠提供與以往最先進方法相當的結果。

深度估計

主要將提出的PSD與NYUDv2數據集深度估計的最新進展進行比較。如表3所示,爲三個任務(PSD Td+Ts+Tn)聯合訓練的模型,雖然僅使用795幅圖像進行訓練,但能夠提供與以往最先進方法相當的結果。

實際上,AdaD-S[34]和DORN[18]使用大規模數據(120k/100k圖像)進行訓練,這對模型非常有利。定量結果如圖6所示,預測更加精確,這表明提出的PSD的性能優越。

表面法向

本文主要對NYUD-v2數據集上的表面法向預測方法進行了評價。結果見表4。除了η3=30°外,PSD在大多數指標上始終優於以前的方法。結果表明,PSD可以利用任務特性和任務間的相關性來提高當前任務的性能。定量結果如圖7所示,從中可以發現,PSD預測更好,包含更多的細節。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
如表5所示,聯合任務模型的性能比單一任務模型的性能提高了7.0%,並且每個任務在聯合學習後都得到了提升。

如表6所示,前五行顯示了在16個輸入標度下進行的實驗結果。基線表示在沒有任何交互性的情況下,在三個任務上聯合訓練的模型。還比較了相同背景下的兩種特徵融合方法,即樸素融合和十字繡[22]。前者直接連接跨任務特徵。後者將十字單位添加到基線。可以看到,這兩個性能都比差。其背後的原因應該是,這兩種方法只是結合了特徵,而不是挖掘/利用模式結構。接下來,將任務內或任務間PSD添加到基線。性能的提高表明了每個模塊的優點。此外,還研究了不同尺度的影響。結果報告在表6的最後四行。更大尺度的結果是更好的性能,因爲在更大尺度上的內模式可以被解碼以更好地估計像素級的細微信息。此外,在圖8中展示了一些定性的視覺結果。可以發現任務內和任務間PSD都能很好地促進像素級語義理解。

筆跡尺寸分析

在這裏,進行了實驗,以研究小筆畫大小(即節點數)的影響。從圖9中可以看到,隨着小筆尺寸的增加,性能變得更好,然後在25的尺寸達到最佳。原因應該是兩個方面的:一)隨着圖形尺寸的增加,更多的模式結構將被擴散,這使得相關性變得更加複雜,對特徵響應更加敏感;二)在某種程度上,一些細節可能會隨着擴散接收場的變大而變得模糊。此外,25的大小比9的大小帶來了有限的改進,同時消耗了更大的內存和計算量,這可以看作是一種折衷。

擴散迭代次數分析

在圖9中,展示了不同迭代次數的結果。在這裏,將任務內和任務間PSD設置爲輸入的116級,圖形大小爲9。可以觀察到,當迭代次數爲9時,性能首先增加,並趨於飽和。結果表明,隨着迭代次數的增加,該模型能夠捕捉到較長距離的相關性。然而,傳輸太長距離的模式在一定程度上會給當前的區域模式帶來負面影響。這可能是因爲,在像素級預測任務中,每個像素高度依賴其鄰域而不是太遠的像素,除非有相似的模式結構。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章