who
- Longlong Jing and Yingli Tian ∗ , Fellow, IEEE
- 2019-
what
- 爲了避免收集和註釋大規模數據集的大量成本,作爲無監督學習方法的子集,提出了自我監督學習方法,以從大規模未標記數據中學習一般圖像和視頻特徵,而無需使用任何人工標註的標籤。
一些術語
1. Pseudo label:
- 僞標籤是基於pretext tasks的數據屬性自動生成的標籤。
2. Pretext Task
- Pretext tasks 是網絡要解決的預先設計的任務,通過學習Pretext tasks 的目標函數來學習視覺特徵。
3. Downstream Task
- 用於評估自我監督學習所學習的特徵的質量。
- 需要人工標註的標籤來解決Downstream Task。
- 在某些應用程序中,Downstream Task可以與Pretext tasks 一樣不使用任何人工註釋標籤。
4. Self-supervised Learning
- 無監督學習方法的一個子集。
- 學習方法,其中使用自動生成的標籤明確訓練ConvNets;
本綜述僅關注視覺特徵的自我監督學習方法
where
動機
1. 經過預先訓練的模型,並針對其他任務進行了調整,主要有兩個原因
- 從大規模不同數據集中學習的參數提供了一個很好的起點,因此,對其他任務的網絡訓練可以更快地收斂;
- 在大規模數據集上訓練的網絡已經學習了層次結構特徵,這有助於減少其他任務訓練期間的過擬合問題,特別是當其他任務的數據集很小或者訓練標籤很少時。
2. 要從未標記的數據中學習視覺特徵
- 爲了避免耗時且昂貴的數據標註;
- 一種流行的解決方案是提出網絡要解決的各種pretext tasks,同時通過學習pretext tasks的目標函數來訓練網絡,並通過該過程學習特徵。
3. pretext tasks共享兩個共同屬性
- ConvNets需要捕獲圖像或視頻的視覺特徵來解決pretext tasks,
- 可以基於圖像或視頻的屬性自動生成用於pretext tasks的僞標籤。
整體思路框架
創新
- 據我們所知,這是第一個關於深度ConvNets的自我監督視覺特徵學習的全面調查,這將有助於該領域的研究人員。
- 深入審查最近開發的自我監督學習方法和數據集。
- 提供了定量性能分析和現有方法的比較。
不同學習方法的函數
1. 監督學習函數
2. 半監督學習函數
3. 弱監督學習函數
4. Self-supervised Learning
- 自我監督學習也用數據及其僞標籤訓練,而是爲預先定義的Pretext tasks自動生成的,不涉及任何人類註釋。
- 僞標籤可以通過使用圖像或視頻的屬性來生成,例如圖像的上下文,或者通過傳統的手工設計方法。
how
從Pretext任務學習視覺特徵
- 整體架構
- 步驟
- ConvNets和視覺特徵可以通過完成這個pretext task來學習到。
- 可以在沒有人類標註的情況下自動生成用於pretext task的僞標籤P.
- 通過最小化ConvNet O和僞標籤P的預測之間的誤差來優化ConvNet;
- 在完成pretext task的訓練之後,獲得可以捕獲圖像或視頻的視覺特徵的ConvNet模型。
一般的pretext task
1. 基於生成的方法
- Visual features are learned through the process of image generation tasks.
- This type of methods includes
- image colorization [18],
- image super resolution [15],
- image inpainting
- image generation with Generative Adversarial Networks (GANs)
2. Context-based pretext tasks
- Context Similarity
- image clusteringbased methods
- graph constraint-based methods
- Spatial Context Structure
- image jigsaw puzzle
- context prediction
- geometric transformation recognition
Commonly Used Downstream Tasks for Evaluation
- 爲了通過自我監督方法評估學習圖像或視頻特徵的質量,採用自我監督學習的學習參數作爲預訓練模型,然後對Downstream Tasks進行調整,如圖像分類,語義分割,
1. 選擇圖像分類作爲Downstream Tasks來評估從自我監督學習方法中學習的圖像特徵的質量
- 自我監督學習模型應用於每個圖像以提取特徵,
- 然後用於訓練分類器,如支持向量機(SVM)
2. e.g. image colorizaion任務
-
將灰度圖像着色爲彩色圖像的任務。
-
the data X is the 通過RGB圖像線性變換得來的gray-scale images;
-
pseudo label P is the RGB image itself.
-
對於圖像分類任務的學習過程
IMAGE FEATURE LEARNING
1. Generation-based Image Feature Learning
- Image Generation with GAN
- Image Generation with Inpainting
2. Context-Based Image Feature Learning
- 簇在特徵空間中具有較小的距離,並且來自不同簇的圖像在特徵空間中具有較大的距離。
- 可以訓練ConvNet使用羣集分配作爲僞類標籤對數據進行分類。
Performance of Image Feature Learning
- 訓練pretext task,得到網絡的特徵:
- 使用AlexNet作爲基礎網絡訓練ImageNet數據集,而不使用類別標籤。
- 處理down stream任務得到評估結果;
- 在ImageNet的訓練中,在ConvNet的不同凍結卷積層上訓練線性分類器;
- 得到三個結論
- 來自不同層次的特徵總是受益於自我監督的前期任務訓練。 自我監督學習方法的表現總是優於從頭開始訓練的模型的表現。
- 所有自我監督的方法都能很好地利用conv3和conv4層的特性,同時使用conv1,conv2和conv5層的特性表現更差。 這可能是因爲淺層捕獲了一般的低級特徵,而深層捕獲了與任務相關的特徵。
- 當用於pretext task訓練的數據集與down stream的數據集之間存在域差距時,自監督學習方法能夠與使用ImageNet標籤訓練的模型達到相當的性能。