ReLabel：自動將ImageNet轉化成多標籤數據集，更準確地有監督訓練 | 2021新文

人工標註數據集中普遍存在噪聲，ReLabel能夠自動且低成本地將原本的單標籤數據集轉化爲多標籤數據集，並且提出配合random crop使用的高效LabelPooling方法，能夠更準確地指導分類網絡的訓練

來源：曉飛的算法工程筆記公衆號

論文: Re-labeling ImageNet:from Single to Multi-Labels, from Global to Localized Labels

論文地址：https://arxiv.org/abs/2101.05022
論文代碼：https://github.com/naver-ai/relabel_imagenet

Introduction

ImageNet數據集是圖像識別領域很重要的數據集，數據集本身假設圖片中只有一個目標，但是目前發現其中包含了很多噪聲數據，很多圖片實際上可能存在多個類別目標，這種情況就會誤導網絡的學習。此外，論文發現常用的Random crop數據增強方法會加劇這一現象，對驗證集的每張圖片進行100次Random crop，統計裁剪圖片與原目標之間的IoU，結果如上面的圖所示，IoU低於0.5的佔比爲76.5%，IoU爲0的佔比甚至高達8%，這顯然會給訓練帶來極大的干擾。

爲了解決這一問題，論文提出ReLabel，通過一個標註網絡(machine annotator)取得圖片的pixel-wise多標籤標註\(L\in \mathbb{R}^{H\times W\times C}\)，該標註包含標籤信息和位置信息，然後按該多標籤標註信息將原本的單標籤標註轉化爲多標籤標註。論文也提出LabelPooling來配合Random crop使用，根據crop的區域與pixel-wise標註輸出對應的多標籤信息。區別於知識蒸餾，每張圖片每次都需要forward計算，ReLabel方法僅需要每張圖片進行一次forward計算，後續都是簡單的比例計算，計算量較小。

Re-labeling ImageNet

由於人工標註的成本很高，論文采用了一個標註網絡(machine annotator)獲取pixel-wise標註，網絡結構可以爲任意sota網絡，考慮到訓練的耗時，取該網絡在Super-ImageNet數據集上預訓練模型，然後在ImageNet上進行fine-tuned。根據交叉熵損失函數的特性，雖然該標註網絡是在單標籤數據集上訓練得到的，但由於數據集存在噪聲，這使得網絡潛在有多標籤預測的能力。

由於我們希望獲取pixel-wise多標籤標註，將原網絡的全局池化層去掉，並將後續的全連接層替換爲\(1\times 1\)卷積層，修改後的網絡\(f(x)\)的輸出變爲\(L\in \mathbb{R}^{W\times H\times C}\)，這便是我們需要的pixel-wise標註信息。

Training a Classifier with Dense Multi-labels

在獲得多標籤信息\(L\)後，訓練時通過Label Pooling獲取訓練目標，如上圖所示，與常規方法的主要區別如下：

常規的訓練步驟不管random crop的結果，均賦予原圖的單標籤。
Label Pooling先獲取圖片對應的pixel-wise多標籤信息，然後使用RoIAlign對random crop對應的區域進行特徵提取，最後使用全局池化和softmax操作進行分類，得到多標籤向量\([0,1]^C\)。

使用ReLabel的訓練流程可參考上面的僞代碼，由於pixel-wise多標籤標註是預先計算好的，所以採用ReLabel帶來額外計算非常小。

Discussion

Space consumption

當使用EfficientNet-L2作爲標註網絡時，輸入分辨率爲\(475\times 475\)，輸出的pixel-wise標註信息大小\(L\in \mathbb{R}^{15\times 15\times 100}\)，保存所有圖片的完整標註信息大約需要1TB的存儲。對於每一張圖片，除了top-k類別外，其它類別的pixel-wise標註信息幾乎都爲0，所以可以只需要保存每張圖片的top-5 pixel-wise標註信息，大約爲10GB，相當於ImageNet數據集大小的10%。