19-Self-supervised-Visual-Feature-Learning-with-Deep-Neural-Networks-A-Survey

who

  • Longlong Jing and Yingli Tian ∗ , Fellow, IEEE
  • 2019-

what

  • 爲了避免收集和註釋大規模數據集的大量成本,作爲無監督學習方法的子集,提出了自我監督學習方法,以從大規模未標記數據中學習一般圖像和視頻特徵,而無需使用任何人工標註的標籤。

一些術語

1. Pseudo label:

  • 僞標籤是基於pretext tasks的數據屬性自動生成的標籤。

2. Pretext Task

  • Pretext tasks 是網絡要解決的預先設計的任務,通過學習Pretext tasks 的目標函數來學習視覺特徵。

3. Downstream Task

  • 用於評估自我監督學習所學習的特徵的質量。
  • 需要人工標註的標籤來解決Downstream Task。
  • 在某些應用程序中,Downstream Task可以與Pretext tasks 一樣不使用任何人工註釋標籤。

4. Self-supervised Learning

  • 無監督學習方法的一個子集。
  • 學習方法,其中使用自動生成的標籤明確訓練ConvNets;

本綜述僅關注視覺特徵的自我監督學習方法

where

動機

1. 經過預先訓練的模型,並針對其他任務進行了調整,主要有兩個原因

  1. 從大規模不同數據集中學習的參數提供了一個很好的起點,因此,對其他任務的網絡訓練可以更快地收斂;
  2. 在大規模數據集上訓練的網絡已經學習了層次結構特徵,這有助於減少其他任務訓練期間的過擬合問題,特別是當其他任務的數據集很小或者訓練標籤很少時。

2. 要從未標記的數據中學習視覺特徵

  • 爲了避免耗時且昂貴的數據標註;
  • 一種流行的解決方案是提出網絡要解決的各種pretext tasks,同時通過學習pretext tasks的目標函數來訓練網絡,並通過該過程學習特徵。

3. pretext tasks共享兩個共同屬性

  1. ConvNets需要捕獲圖像或視頻的視覺特徵來解決pretext tasks,
  2. 可以基於圖像或視頻的屬性自動生成用於pretext tasks的僞標籤。

整體思路框架

image-20190505130546656

創新

  1. 據我們所知,這是第一個關於深度ConvNets的自我監督視覺特徵學習的全面調查,這將有助於該領域的研究人員。
  2. 深入審查最近開發的自我監督學習方法和數據集。
  3. 提供了定量性能分析和現有方法的比較。

不同學習方法的函數

1. 監督學習函數

image-20190505130546656

2. 半監督學習函數

image-20190505131856497

3. 弱監督學習函數

image-20190505131939056

4. Self-supervised Learning

  • 自我監督學習也用數據XiX _{i}及其僞標籤pip_{i}訓練,而pip_{i}是爲預先定義的Pretext tasks自動生成的,不涉及任何人類註釋。
  • 僞標籤pip_{i}可以通過使用圖像或視頻的屬性來生成,例如圖像的上下文,或者通過傳統的手工設計方法。

image-20190505132222962

how

從Pretext任務學習視覺特徵

  • 整體架構

image-20190505132511874

  • 步驟
    1. ConvNets和視覺特徵可以通過完成這個pretext task來學習到。
    2. 可以在沒有人類標註的情況下自動生成用於pretext task的僞標籤P.
    3. 通過最小化ConvNet O和僞標籤P的預測之間的誤差來優化ConvNet;
    4. 在完成pretext task的訓練之後,獲得可以捕獲圖像或視頻的視覺特徵的ConvNet模型。

一般的pretext task

image-20190505134156819

1. 基於生成的方法

  • Visual features are learned through the process of image generation tasks.
  • This type of methods includes
    • image colorization [18],
    • image super resolution [15],
    • image inpainting
    • image generation with Generative Adversarial Networks (GANs)

2. Context-based pretext tasks

  • Context Similarity
    • image clusteringbased methods
    • graph constraint-based methods
  • Spatial Context Structure
    • image jigsaw puzzle
    • context prediction
    • geometric transformation recognition

Commonly Used Downstream Tasks for Evaluation

  • 爲了通過自我監督方法評估學習圖像或視頻特徵的質量,採用自我監督學習的學習參數作爲預訓練模型,然後對Downstream Tasks進行調整,如圖像分類,語義分割,

1. 選擇圖像分類作爲Downstream Tasks來評估從自我監督學習方法中學習的圖像特徵的質量

  • 自我監督學習模型應用於每個圖像以提取特徵,
  • 然後用於訓練分類器,如支持向量機(SVM)

2. e.g. image colorizaion任務

  • 將灰度圖像着色爲彩色圖像的任務。

  • the data X is the 通過RGB圖像線性變換得來的gray-scale images;

  • pseudo label P is the RGB image itself.

  • 對於圖像分類任務的學習過程

image-20190505134600139

IMAGE FEATURE LEARNING

1. Generation-based Image Feature Learning

  • Image Generation with GAN

image-20190505135607752

  • Image Generation with Inpainting

image-20190505135701199

2. Context-Based Image Feature Learning

image-20190505135846980

  • 簇在特徵空間中具有較小的距離,並且來自不同簇的圖像在特徵空間中具有較大的距離。
  • 可以訓練ConvNet使用羣集分配作爲僞類標籤對數據進行分類。

Performance of Image Feature Learning

  1. 訓練pretext task,得到網絡的特徵:
    • 使用AlexNet作爲基礎網絡訓練ImageNet數據集,而不使用類別標籤。
  2. 處理down stream任務得到評估結果;
    • 在ImageNet的訓練中,在ConvNet的不同凍結卷積層上訓練線性分類器;

image-20190505140215502

  • 得到三個結論
    1. 來自不同層次的特徵總是受益於自我監督的前期任務訓練。 自我監督學習方法的表現總是優於從頭開始訓練的模型的表現。
    2. 所有自我監督的方法都能很好地利用conv3和conv4層的特性,同時使用conv1,conv2和conv5層的特性表現更差。 這可能是因爲淺層捕獲了一般的低級特徵,而深層捕獲了與任務相關的特徵。
    3. 當用於pretext task訓練的數據集與down stream的數據集之間存在域差距時,自監督學習方法能夠與使用ImageNet標籤訓練的模型達到相當的性能。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章