ReLabel:自動將ImageNet轉化成多標籤數據集,更準確地有監督訓練 | 2021新文

人工標註數據集中普遍存在噪聲,ReLabel能夠自動且低成本地將原本的單標籤數據集轉化爲多標籤數據集,並且提出配合random crop使用的高效LabelPooling方法,能夠更準確地指導分類網絡的訓練

來源:曉飛的算法工程筆記 公衆號

論文: Re-labeling ImageNet:from Single to Multi-Labels, from Global to Localized Labels

Introduction


  ImageNet數據集是圖像識別領域很重要的數據集,數據集本身假設圖片中只有一個目標,但是目前發現其中包含了很多噪聲數據,很多圖片實際上可能存在多個類別目標,這種情況就會誤導網絡的學習。此外,論文發現常用的Random crop數據增強方法會加劇這一現象,對驗證集的每張圖片進行100次Random crop,統計裁剪圖片與原目標之間的IoU,結果如上面的圖所示,IoU低於0.5的佔比爲76.5%,IoU爲0的佔比甚至高達8%,這顯然會給訓練帶來極大的干擾。

  爲了解決這一問題,論文提出ReLabel,通過一個標註網絡(machine annotator)取得圖片的pixel-wise多標籤標註\(L\in \mathbb{R}^{H\times W\times C}\),該標註包含標籤信息和位置信息,然後按該多標籤標註信息將原本的單標籤標註轉化爲多標籤標註。論文也提出LabelPooling來配合Random crop使用,根據crop的區域與pixel-wise標註輸出對應的多標籤信息。區別於知識蒸餾,每張圖片每次都需要forward計算,ReLabel方法僅需要每張圖片進行一次forward計算,後續都是簡單的比例計算,計算量較小。

Re-labeling ImageNet


  由於人工標註的成本很高,論文采用了一個標註網絡(machine annotator)獲取pixel-wise標註,網絡結構可以爲任意sota網絡,考慮到訓練的耗時,取該網絡在Super-ImageNet數據集上預訓練模型,然後在ImageNet上進行fine-tuned。根據交叉熵損失函數的特性,雖然該標註網絡是在單標籤數據集上訓練得到的,但由於數據集存在噪聲,這使得網絡潛在有多標籤預測的能力。

  由於我們希望獲取pixel-wise多標籤標註,將原網絡的全局池化層去掉,並將後續的全連接層替換爲\(1\times 1\)卷積層,修改後的網絡\(f(x)\)的輸出變爲\(L\in \mathbb{R}^{W\times H\times C}\),這便是我們需要的pixel-wise標註信息。

Training a Classifier with Dense Multi-labels


  在獲得多標籤信息\(L\)後,訓練時通過Label Pooling獲取訓練目標,如上圖所示,與常規方法的主要區別如下:

  • 常規的訓練步驟不管random crop的結果,均賦予原圖的單標籤。
  • Label Pooling先獲取圖片對應的pixel-wise多標籤信息,然後使用RoIAlign對random crop對應的區域進行特徵提取,最後使用全局池化和softmax操作進行分類,得到多標籤向量\([0,1]^C\)

  使用ReLabel的訓練流程可參考上面的僞代碼,由於pixel-wise多標籤標註是預先計算好的,所以採用ReLabel帶來額外計算非常小。

Discussion


Space consumption

  當使用EfficientNet-L2作爲標註網絡時,輸入分辨率爲\(475\times 475\),輸出的pixel-wise標註信息大小\(L\in \mathbb{R}^{15\times 15\times 100}\),保存所有圖片的完整標註信息大約需要1TB的存儲。對於每一張圖片,除了top-k類別外,其它類別的pixel-wise標註信息幾乎都爲0,所以可以只需要保存每張圖片的top-5 pixel-wise標註信息,大約爲10GB,相當於ImageNet數據集大小的10%。

Time consumption

  ReLabel需要將ImageNet中每張圖片進行一次前向計算,大約耗費10 GPU/時,相當於ResNet-50完整訓練時間的3.3%。在每個迭代,LabelPooling大約增加每次迭代的0.5%的額外耗時,而知識蒸餾每輪迭代都要teacher網絡進行一次完整的前向計算,耗時相當大。

Which machine annotator should we select?

  不同標註網絡對ReLabel的效果影響很大,論文對比了多種網絡結構,結果如上圖所示,最終論文選擇了EfficientNet-L2作爲標註網絡。

Factor analysis of ReLabel

  ReLabel是多標籤和pixel-wise的,爲了對比這兩個特性的必要性,增加了以下三種實現的對比:

  • Localized single labels:跟ReLabel的步驟一樣,最後取softmax分數最大的標籤,而非多標籤。
  • Global multi-labels:不使用RoIAlign,直接將完整的標註信息進行全局池化,最後取多標籤。
  • Global single labels:不使用RoIAlign,直接將完整的標註信息進行全局池化,最後softmax分數最大的標籤。

  結果如上圖所示,論文提出的ReLabel實現方式效果最好。

Confidence of ReLabel supervision

  論文也對ReLabel在不同IoU情況下的監督能力進行了探討,記錄5百萬張random crop的圖片與GT的IoU以及ReLabel輸出的最大標籤分數,結果如上圖所示,標籤分數與IoU正相關。當IoU非常小時,標籤分數也非常小,這就相當於給網絡訓練提供了一個訓練目標不確定的信號。

Experiments


  多標籤pixel-wise標註信息的可視化。

  與其它標籤監督方法對比。

  對不同網絡結構的性能提升。

  搭配其它訓練技巧的效果。

  與知識蒸餾的耗時對比。

  作爲目標檢測主幹網絡的表現。

Conclusion


  人工標註數據集中普遍存在噪聲,ReLabel能夠自動且低成本地將原本的單標籤數據集轉化爲多標籤數據集,並且提出配合random crop使用的高效LabelPooling方法,能夠更準確地指導分類網絡的訓練。



如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公衆號【曉飛的算法工程筆記】

work-life balance.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章