關於預訓練和表示學習的部分文章簡讀

目錄

1 Mask R-CNN (ICCV2017, 本文旨在學習寫作和創新點的定位思考) 

2 Masked Autoencoders Are Scalable Vision Learners (arXiv2021) 

3 SimMIM: A Simple Framework for Masked Image Modeling (arXiv 2021) 

4 Masked Feature Prediction for Self-Supervised Visual Pre-Training (arXiv 2021) 

5 TS2Vec: Towards Universal Representation of Time Series (AAAI 2022) 

6 Generative Semi-supervised Learning for Multivariate Time Series Imputation (AAAI 2021) 

 

本文主要講述六篇文章,前兩篇由是出自大神何凱明之手,第一篇做圖像分割,第二篇做圖像的預訓練。接着講兩篇圖像的掩碼預測訓練文章;最後兩篇是關於時序的文章,其中一篇是做預訓練,另一篇做缺失填補。


1 Mask R-CNN (ICCV2017, 本文旨在學習寫作和創新點的定位思考)

論文鏈接

代碼

動機

實例分割需要正確地檢測出圖像中的所有對象,並且同時要精確地分割每個實例,是一個充滿挑戰的問題。實例分割一般可以分爲兩個階段:目標檢測和目標分類。

貢獻

本文提出的方法Mask-R-CNN能夠有效地檢測圖像中的對象,同時爲每個實例生成一個高質量的分割掩碼,即再在每個實例目標中,在像素層面上,來區分哪些像素點是目標位置區域,哪些像素點是背景,相當於一個二分類問題(像素級目標分割)。

 

本文模型的學習目標也是一個多任務學習:

 

具體的細節闡述可以參考以下文章的講解:

[1]    https://blog.csdn.net/jiongnima/article/details/79094159

[2]    https://zhuanlan.zhihu.com/p/57759536

實驗分析

我的想法

本文將實例分割中的像素點識別定義爲一個二分類的掩碼任務,這個預訓練任務中的掩碼預測在概念上有些類似,但是這種掩碼二分類任務的創新簡單的同時也是覺得腦洞很開闊。

 


2 Masked Autoencoders Are Scalable Vision Learners (arXiv2021)

論文鏈接

代碼

動機

深度學習見證了容量和能力不斷增長的架構爆發式發展,然而已有的模型很容易對百萬級別的圖像數據過擬合或者缺乏有效的標註數據。與此同時,在自然語言處理領域的無監督預訓練學習模型取得了重大的成功,比如自迴歸語言建模GPT以及掩碼自編碼器的BERT模型。已有研究表明,掩碼自迴歸架構在計算視覺領域也可以很自然地被應用。

貢獻

  本文解決一個疑問:究竟是什麼使得masked autoencoding在視覺和語言數據處理方面不同?

   1)兩者的基本架構有很大的差異,即模型代溝。在視覺領域,卷積神經網絡模型一直佔據主導地位,卷積模塊通過在固定的網格空間進行操作,而不會直接結合mask tokens或者位置編碼等指示器到卷積網絡。然而,最近提出的Vision Transormer解決了這一模型代溝問題,打通了視覺和語言數據的基礎架構。

   2)視覺和語言視覺的信息稠密度不同。由人類生成的語言信號一般具有很高的語義和信息稠密度,當採用模型進行缺失單詞預測時,能夠引起老練的語言理解。與此相反,視覺圖像數據擁有很多空間冗餘,一個缺失的patch很難獲取其鄰近的高水平物體或者目標的語義信息。針對上述問題,本文提出了一種mask random patches策略,能夠有效地減少冗餘信息,並提高在圖像領域的無監督學習效果。

   3)自動編碼器的解碼器在視覺和語言數據方面扮演的角色不同。在視覺領域,解碼器需要將潛在表示解碼到低語義信息的像素級輸出。然而,在語言方面,解碼器則扮演了預測缺失的單詞,擁有較高的語義信息。因此,對於視覺領域的數據,如何設計一個decoder將很大程度上決定了學習的潛在表示的語義水平。

   依據上述分析,本文提出了一種簡單高效可拓展的masked autoencoder(MAE)模型,用於視覺領域的表示學習。MAE模型隨機掩碼大部分的patches,並且擁有非對稱的編碼-解碼結構設定。其中編碼器只處理沒有被掩碼的可觀察部分數據,而解碼器則把編碼器學習的表示和掩碼位置的數據進行像素級的重構。實驗表明,當掩碼率在75%時,對下游任務有高效的性能提升。具體模型示意圖如下:

實驗分析

在patches缺失率達到80%情形下,即重構的數據能夠有效地恢復原始圖的語義信息。

然而,當patches缺失率達到了85%或者95%時,重構得到的圖像分佈信息和原始圖有較大的區別,但是也說明了模型有較強的泛化能力。

 

此外,本文分析不同缺失率對有監督微調和線性探測下游任務性能的影響,具體如下:

 

我的想法

   本文的想法很簡潔,其最大的亮點在於其對decoder的設計,使得encoder最終學習的潛在表示更加有利於下游任務建模。該模塊設計的核心在於能夠有效捕捉視覺數據的高效語義信息,藉助這一點啓發,是否可以採用類似的架構設計一種符合時間序列數據場景的masked time-series的decoder呢?

 


3 SimMIM: A Simple Framework for Masked Image Modeling (arXiv 2021)

論文鏈接

代碼

動機

在NLP領域,掩碼再預測的任務學習在無監督預訓練方面取得很大的成功。在計算機視覺領域,雖然當前已有掩碼預測用於預訓練,但是已有的研究幾乎是被對比學習機制佔據主導。對比學習和掩碼預測兩種路線有較大不同,此外掩碼預測在NLP和視覺領域,由於原始數據的特性差異,兩者學習機制也存在較大不同,具體可以歸納如下:

1) 圖像具有更強的局部性:相鄰的像素往往具有高度相關的,因此可以通過複製接近的像素來很好地完成任務,而不是通過語義推理。

2) 視覺信號是原始的、低級的,而文本標記是由人類生成的高級概念。這就提出了一個問題,即對低水平信號的預測是否對高級視覺識別任務有用。

3) 視覺信號是連續的,文本標記是離散的。如何採用基於分類的掩蔽語言建模方法來處理連續的視覺信號是一個未知的問題。

貢獻

本文提出了一種簡單的masked圖像建模方法,能夠在視覺領域數據集上學習到有利於下游任務建模的表示。具體發現有三點:
1)採用隨機mask機制,並結合大小爲32的patch能夠達到很強的預訓練效果

2)直接對原始的RGB級的像素值進行迴歸預測,而不需要設計複雜的patch分類模塊

3)預測head採用很輕量級的線性層,並且相比heavier的設計,其下游任務性能並不會變差

 

在掩碼機制方面,本文討論分析了Square, Block-wise, Random三種方式對下游任務性能的影響。

在Encoder方面,本文采用了vanilla ViT和Swin Transformer進行了實驗分析。

在Prediction head方面,本文采用了一種線性層,並和兩層的MLP等複雜的head作了比較分析。

在學習目標方面,本文采用了像素重構的l1-loss,具體表示如下:

 

實驗分析

作者在引言中表明雖然我們提倡將圖像補繪作爲一種強自我監督前文本任務,但我們也發現,較強的補繪能力並不一定會導致較強的下游任務的微調性能。

在對比學習方法中,頭部設計是一項重要的探索,但對於掩蔽圖像建模而言,這可能是不必要的。

 

另外,本文對三種不同mask機制,以及不同的缺失率大小對下游任務性能進行分析比較,實驗結果表明採用random的50%掩碼,patch size設定爲32時,下游任務性能表現最好。

 

在表4中,我們已經展示了通過掩蔽預測任務(我們的方法)和聯合掩蔽預測和可見信號重構任務學習的表示的比較,這表明純掩蔽預測任務的性能明顯更好。如下:

 

圖5比較了兩種方法的恢復效果。這表明後一種方法看起來更好,但是,可能在恢復未隱藏區域時浪費了模型容量,這對微調可能沒有那麼有用。

 

與已有的strong baseline的性能對比分析:

 

我的想法

   本文的實驗表明,在圖像修復任務上表現好,但是不一定有利於微調的下游任務性能。此外,在mask的patch選取的size大小方面,size越小,修復效果越好,但是下游學習的表示遷移效果缺變差,這也進一步說明了缺失位置修復的好,並不一定有利於下游任務性能。另外,本文對自動編碼器在mask像素級別的實驗做的很詳細,包括mask的缺失率大小,patch的size大小,分類器的設計以及相關超參數設定等,這樣的實驗設定和對比分析值得學習和借鑑。

 

 


4 Masked Feature Prediction for Self-Supervised Visual Pre-Training (arXiv 2021)

論文鏈接

代碼:暫無

動機

基於掩碼和預測思想的Transformer架構,在自然語言處理領域的無監督預訓練方面取得了很大成功。人類擁有看到局部信息能夠推測物體整體輪廓的能力,基於這一思想可以利用掩碼的思路用於無監督視覺預訓練。

視覺和語言之間的一個本質區別是,視覺沒有預先存在的詞彙表來將預測任務塑造成一個定義良好的分類問題。相比之下,原始時空視覺信號的連續性和密集性對掩蔽視覺預測提出了重大挑戰。一個直接的解決方案是通過構建視覺詞彙表來模仿語言詞彙表,該詞彙表將框架塊離散爲標記。然而,這需要一個外部的分詞器,這在計算密集的視頻理解場景中是有限的。

貢獻

  本文提出了一種掩碼特徵預測(MaskFeat)無監督預訓練模型。該模型採用vision Transformer來預測被掩蔽的特徵,通過這種方式,預先訓練的模型獲得了對密集視覺信號中複雜時空結構信息的充分理解。

   我們研究了廣泛的特徵類型,從像素顏色和手工製作的特徵描述符,到離散的視覺token,激活的深度網絡,以及來自網絡預測的僞標籤。具體貢獻如下:

1) 簡單的定向梯度直方圖(圖1中中間一列)是MaskFeat在性能和效率方面的一個特別有效的目標。

2)  掩蔽視覺預測並不需要視覺信號離散化(標記化),連續特徵迴歸的信號(即MaskFeat)可以很好地工作。

3)  人類註釋的語義知識並不總是對MaskFeat有幫助,但描述局部模式似乎很重要。例如,從經過標記數據訓練的cnn或vit預測監督特徵會導致性能下降。

我們的方法在概念上和實踐上都很簡單。相比之下,對比方法需要一個連體結構和兩個或多個視圖的每個訓練樣本(例如,[17,34,44]),MaskFeat使用單個網絡和每個樣本的單個視圖;與強烈依賴於精心設計的數據增強的對比方法不同,MaskFeat在最小的增強下工作得相當好。

本文的核心則是讓Decoder去預測HOG特徵。

MaskFeat模型:

 

上述模型將masked的原圖輸入到encoder後進行linear預測maked原圖的HOG,並最小化缺失部分的預測HOG和真實原圖的HOG特徵分佈差異。

實驗分析

 

我的想法

本文采用的HOG給視覺無監督預訓練帶來了很大的性能提升,這讓現有深度學習模型需要開始重視手工提取特徵在深度網絡學習(生成式模型)中的作用。另外,在時間序列數據方面,是否可以找到有利於下游任務的手工提取特徵進行目標學習還值得進一步調研和思考。

MAE是預測歸一化後的圖像像素原始,本文是預測經過手工提取的HOG特徵,BERT是預測maked詞,那麼在時間序列數據領域,可以考慮選取某一個序列片段?

 

 


5 TS2Vec: Towards Universal Representation of Time Series (AAAI 2022)

論文鏈接

代碼

動機

學習時間序列的普遍表示是一個基本而又具有挑戰性的問題。已有研究專注於學習實例級(instance-level)表示,它描述了輸入時間序列的整個片段,在聚類和分類等任務中取得了巨大的成功。此外,最近的工作採用對比損失來學習時間序列的內在結構。然而,現有的方法仍有明顯的侷限性,具體如下:

1) 實例級表示可能不適合需要細粒度表示的任務,例如時間序列預測和異常檢測。

2) 現有的方法很少區分不同粒度的多尺度語境信息。

3) 現有的時間序列表示方法大多受到CV和NLP領域經驗的啓發,具有很強的歸納偏差,如變換不變性和分割不變性。

貢獻

本文提出了一種用於學習時間序列在任意語義層次表示的通用框架TS2Vec。與現有的方法不同,TS2Vec在增強的上下文視圖上以分層的方式執行對比學習,從而爲每個時間戳提供健壯的上下文表示。此外,爲了得到時間序列中任意子序列的表示,我們可以對相應時間戳的表示進行簡單的聚合。

本文在時序分類、異常檢測和預測任務上均達到了SOTA效果,並且時間消耗較低。

本文的對比學習方式:

1)  實例級別層次,instance-wise

2)  時序維度層次,temporal dimension

通過上述兩者的協作,可以使得TS2Vec能夠學習到任意粒度的時序表示信息。具體的模型結構如下圖所示:

 

實驗分析

本文方法在分類任務上準確率和訓練耗時:

 

在預測任務上的MSE結果:

 

此外,可視化實驗表明,Informer在細粒度的短期預測上表現不好:

 

在異常檢測任務上的表現:

 

消融實驗結果表明,Transformer基本架構能夠有效提高下游任務準確率。此外,相比Mask策略,random cropping策略能夠有效提高下游任務準確率。與此同時,子序列的一致性比時序一致性在下游任務提升性能方面更佳。

我的想法

本文有效地利用了IJCAI2021 (Time-Series Representation Learning via Temporal and Contextual Contrasting)的雙向增強對比學習思想,並在本文進行了擴展,在概念解釋時,將不同視角的對比學習定義爲層次的概念。另外,本文最大的亮點在於其做的實驗和任務非常充分,基本囊括了時序領域任務常用的基準數據集,本文的對比學習策略可以考慮作爲相關任務的預訓練應用。

 

 


6 Generative Semi-supervised Learning for Multivariate Time Series Imputation (AAAI 2021)

論文鏈接

代碼

動機

多元時間序列數據中普遍存在缺失值,影響了數據的有效分析。現有的時間序列歸併方法沒有充分利用現實生活中時間序列數據中的標籤信息。

例如,PhysioBank存檔(Goldberger et al. 2000)包含超過40g字節的心電圖醫學時間序列數據,其中有一些缺失的值和一小部分標註標籤。由於法律上的原因,醫院通常會將更多沒有標籤的心電圖數據存檔。

貢獻

本文提出了一種新的半監督生成對抗網絡模型,命名爲SSGAN,用於多變量時間序列數據的缺失值輸入。它由三個參與者組成,即一個生成者、一個鑑別者和一個分類者。分類器預測時間序列數據的標籤,因此它驅動生成器估計缺失的值(或組件),條件是同時觀察到的組件和數據標籤。

我們引入時間提醒矩陣來幫助鑑別器更好地區分觀測分量和輸入分量。此外,我們從理論上證明,當達到納什均衡時,SSGAN利用時間提醒矩陣和分類器確實學會了估計收斂於真實數據分佈的缺失值。

在三個公開的真實數據集上進行的大量實驗表明,與最先進的方法相比,SSGAN在性能上獲得了超過15%的增益。

我的想法

    本文的實驗結果表明採用半監督或者監督學習,能夠有效提高填補任務的效果。本文有開源代碼,到時有時間可以看看復現效果。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章