19-Self-supervised-Visual-Feature-Learning-with-Deep-Neural-Networks-A-Survey

原創

2019-05-06 03:35

who

Longlong Jing and Yingli Tian ∗ , Fellow, IEEE
2019-

what

爲了避免收集和註釋大規模數據集的大量成本，作爲無監督學習方法的子集，提出了自我監督學習方法，以從大規模未標記數據中學習一般圖像和視頻特徵，而無需使用任何人工標註的標籤。

一些術語

1. Pseudo label:

僞標籤是基於pretext tasks的數據屬性自動生成的標籤。

2. Pretext Task

Pretext tasks 是網絡要解決的預先設計的任務，通過學習Pretext tasks 的目標函數來學習視覺特徵。

3. Downstream Task

用於評估自我監督學習所學習的特徵的質量。
需要人工標註的標籤來解決Downstream Task。
在某些應用程序中，Downstream Task可以與Pretext tasks 一樣不使用任何人工註釋標籤。

4. Self-supervised Learning

無監督學習方法的一個子集。
學習方法，其中使用自動生成的標籤明確訓練ConvNets；

本綜述僅關注視覺特徵的自我監督學習方法

where

動機

1. 經過預先訓練的模型，並針對其他任務進行了調整，主要有兩個原因

從大規模不同數據集中學習的參數提供了一個很好的起點，因此，對其他任務的網絡訓練可以更快地收斂；
在大規模數據集上訓練的網絡已經學習了層次結構特徵，這有助於減少其他任務訓練期間的過擬合問題，特別是當其他任務的數據集很小或者訓練標籤很少時。

2. 要從未標記的數據中學習視覺特徵

爲了避免耗時且昂貴的數據標註；
一種流行的解決方案是提出網絡要解決的各種pretext tasks，同時通過學習pretext tasks的目標函數來訓練網絡，並通過該過程學習特徵。

3. pretext tasks共享兩個共同屬性

ConvNets需要捕獲圖像或視頻的視覺特徵來解決pretext tasks，
可以基於圖像或視頻的屬性自動生成用於pretext tasks的僞標籤。

整體思路框架

創新

據我們所知，這是第一個關於深度ConvNets的自我監督視覺特徵學習的全面調查，這將有助於該領域的研究人員。
深入審查最近開發的自我監督學習方法和數據集。
提供了定量性能分析和現有方法的比較。

不同學習方法的函數

1. 監督學習函數

2. 半監督學習函數

3. 弱監督學習函數

4. Self-supervised Learning

自我監督學習也用數據 $X _{i}$ 及其僞標籤 $p_{i}$ 訓練，而 $p_{i}$ 是爲預先定義的Pretext tasks自動生成的，不涉及任何人類註釋。
僞標籤 $p_{i}$ 可以通過使用圖像或視頻的屬性來生成，例如圖像的上下文，或者通過傳統的手工設計方法。

how

從Pretext任務學習視覺特徵

整體架構

步驟
1. ConvNets和視覺特徵可以通過完成這個pretext task來學習到。
2. 可以在沒有人類標註的情況下自動生成用於pretext task的僞標籤P.
3. 通過最小化ConvNet O和僞標籤P的預測之間的誤差來優化ConvNet；
4. 在完成pretext task的訓練之後，獲得可以捕獲圖像或視頻的視覺特徵的ConvNet模型。

一般的pretext task

1. 基於生成的方法

Visual features are learned through the process of image generation tasks.
This type of methods includes
- image colorization [18],
- image super resolution [15],
- image inpainting
- image generation with Generative Adversarial Networks (GANs)

2. Context-based pretext tasks

Context Similarity
- image clusteringbased methods
- graph constraint-based methods
Spatial Context Structure
- image jigsaw puzzle
- context prediction
- geometric transformation recognition

Commonly Used Downstream Tasks for Evaluation

爲了通過自我監督方法評估學習圖像或視頻特徵的質量，採用自我監督學習的學習參數作爲預訓練模型，然後對Downstream Tasks進行調整，如圖像分類，語義分割，

1. 選擇圖像分類作爲Downstream Tasks來評估從自我監督學習方法中學習的圖像特徵的質量

自我監督學習模型應用於每個圖像以提取特徵，
然後用於訓練分類器，如支持向量機（SVM）

2. e.g. image colorizaion任務

將灰度圖像着色爲彩色圖像的任務。
the data X is the 通過RGB圖像線性變換得來的gray-scale images；
pseudo label P is the RGB image itself.
對於圖像分類任務的學習過程

IMAGE FEATURE LEARNING

1. Generation-based Image Feature Learning

Image Generation with GAN

Image Generation with Inpainting

2. Context-Based Image Feature Learning

簇在特徵空間中具有較小的距離，並且來自不同簇的圖像在特徵空間中具有較大的距離。
可以訓練ConvNet使用羣集分配作爲僞類標籤對數據進行分類。

Performance of Image Feature Learning

訓練pretext task，得到網絡的特徵：
- 使用AlexNet作爲基礎網絡訓練ImageNet數據集，而不使用類別標籤。
處理down stream任務得到評估結果；
- 在ImageNet的訓練中，在ConvNet的不同凍結卷積層上訓練線性分類器；

得到三個結論
1. 來自不同層次的特徵總是受益於自我監督的前期任務訓練。自我監督學習方法的表現總是優於從頭開始訓練的模型的表現。
2. 所有自我監督的方法都能很好地利用conv3和conv4層的特性，同時使用conv1，conv2和conv5層的特性表現更差。這可能是因爲淺層捕獲了一般的低級特徵，而深層捕獲了與任務相關的特徵。
3. 當用於pretext task訓練的數據集與down stream的數據集之間存在域差距時，自監督學習方法能夠與使用ImageNet標籤訓練的模型達到相當的性能。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

語義分割模型架構演進與相關論文閱讀

本文總結分析了主流語義分割模型架構演進過程，涉及FCN、DeepLab系列、RefineNet、PSPNet、BiSeNet、FastFCN、ConvCRFs、DUpsampling、DFANet、DANet、FickleNet

不会算命的赵半仙

2020-07-01 00:25:02

論文閱讀：《LIP: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》

CVPR 2017 Workshop 數據集：http://hcp.sysu.edu.cn/lip 主要貢獻提出了一個新的large-scale benchmark，以及一個測評服務器用支持進一步的人物解析研究，新

2020-07-06 05:52:22

CVPR2020論文閱讀——超強通道注意力模塊ECANet！

Abstract 最近，通道注意機制已被證明在改善深度卷積神經網絡（CNN）的性能方面具有巨大潛力。然而，大多數現有方法致力於開發更復雜的注意模塊以實現更好的性能，這不可避免地會增加模型的複雜性。爲了克服性能和複雜性折衷之間的

2020-07-03 20:09:09

語義分割看這一篇就夠了！

語義分割技術綜述本文就Image Segmentation Using Deep Learning: A Survey 第三章的模型進行了分析和介紹，第一第二章的基礎指示可以看原文進行學習，相關知識有很多這裏就不班門弄斧了。最

2020-07-03 17:24:21

語義分割入坑從Unet開始

最近由於項目需要做了一段時間的語義分割，希望能將自己的心路歷程記錄下來，以提供給所需幫助的人接下來我將依託Unet語義分割網絡介紹以下內容：首先我的環境配置 pytorch1.10 win10 vs2017 python3.6

2020-07-02 16:05:05

DeepLabV3論文解讀（空洞卷積/膨脹卷積理解）

DeepLabV3論文解讀（空洞卷積/膨脹卷積理解）最近在做基礎網絡研究，設計的網絡結構除了在分類數據集上測試，還需要在分割和檢測網絡上測試效果，故選擇了DeepLabV3作爲對比平臺。本想直接替換backbone查看結果，但

我喜欢你就像

2020-07-01 15:21:53

語義分割入門系列之 FCN（全卷積神經網絡）

FCN論文解讀及代碼分析 Fully Convolutional Networks for Semantic Segmentation FCN是卷積神經網絡用於語義分割的開山之作，文章的出發點在於如何將普通的分類卷積神經網絡用於語

我喜欢你就像

2020-07-01 15:21:53

【目標檢測】FCOS：Fully Convolutional One-Stage Object Detection【附pytorch實現】

Abstract 我們提出了一種完全卷積的一階段目標檢測器（FCOS），以按像素預測的方式來解決對象檢測，類似於語義分割。幾乎所有最新的物體檢測器（例如RetinaNet，SSD，YOLOv3和Faster R-CNN）都依賴於預

2020-07-01 01:37:15

VoVNet：一種實時高效的目標檢測Backbone網絡【pytorch代碼詳解】

Pytorch實現代碼 2.Factors of Efficient Network Design 在設計輕量級網絡時，FLOPs和模型參數是主要考慮因素，但是減少模型大小和FLOPs不等同於減少推理時間和降低能耗。比如Shuff

2020-07-01 01:37:15

【語義分割小白教程】手把手教你訓練自己的數據集（基於輕量級的FCN-DenseNet）

【語義分割小白教程】手把手教你訓練自己的數據集（基於輕量級的FCN-DenseNet）0. 任務描述：1. 標註數據：1.1 Labelme 的安裝：1.2 Labelme 的使用：1.3 轉換標註格式：2. 數據的目錄結構：3.

2020-06-29 02:27:45

【語義分割】常用模型架構淺讀

Semantic Segmentation with Deep Learning From FCN to Dilated Convolution Fcn-Fully Convolutional Networ

2020-06-28 06:16:42

keras框架下dense_unet對稻田草地分割

如圖所示是圖像拓展後的數據集，主要分割稻田路徑。老生長談，搞起來！數據集拓展程序： import cv2 import os import numpy as np from PIL import Image # 圖像混合

树莓派派酒

2020-06-27 05:18:31

語義分割之《PIXEL DECONVOLUTIONAL NETWORKS》論文閱讀筆記

論文地址：PIXEL DECONVOLUTIONAL NETWORKS 代碼地址：github 一、簡介這篇文章提出的PixelDCL主要是爲了解決Deconvolution所造成的棋盤效應。二、細節 1、Tran

2020-06-26 03:10:24

語義分割之《Pyramid Scene Parsing Network》論文閱讀筆記

文章目錄一、簡介二、所面對的問題及其解決方向三、結構1、Pyramid Pooling Module2、網絡結構3、Deep Supervision for ResNet-Based FCN四、實驗1、實驗設置2、ImageNet

2020-06-26 03:10:24

語義分割之《CCNet: Criss-Cross Attention for Semantic Segmentation》論文閱讀筆記

論文地址：CCNet: Criss-Cross Attention for Semantic Segmentation 代碼地址：CCNet github 文章目錄一、簡介二、結構1、CCNet結構2、Criss-Cros

2020-06-26 03:10:24

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章