谷歌Hinton團隊最新力作:讓ImageNet無監督學習的指標提升了 7-10%,可媲美有監督學習的效果

 

如今,ImageNet上圖像識別精度的性能提升通常一次只有零點幾個百分點,而來自谷歌研究人員的最新研究,如圖靈獎獲得者傑弗裏·辛頓(Geoffrey Hinton)已經將無監督學習的指數提高了7-10%,甚至可以與有監督學習的效果相媲美。

 

Geoffrey Hinton領導的研究小組最近提出的無監督SimCLR方法立即引起廣泛關注:

Geoffrey Hinton表明SimCLR是一種簡單明瞭的方法,它允許人工智能在沒有類標記的情況下學習可視化表示,並能達到有監督學習的精度。本文作者指出,在ImageNet上對1%的圖像標籤進行微調後,SimCLR可以達到85.8%的前5位精度,僅用1%的AlexNet標籤就優於後者。

 

介紹

了SimCLR:一種用於視覺表示的對比學習的簡單框架。作者簡化了最近提出的對比自我監督學習算法,而無需專門的架構或存儲庫。爲了理解什麼使對比預測任務能夠學習有用的表示,我們系統地研究了框架的主要組成部分。

我們發現:

(1)數據擴充的組合在定義有效的預測任務中起着至關重要的作用

(2)在表示和對比損失之間引入可學習的非線性轉換,實質上改善了學習表示的質量

(3)與監督學習相比,對比學習受益於更大的批量和更多的訓練步驟。通過結合這些發現,我們能夠輕鬆超過ImageNet上用於自我監督和半監督學習的方法。由Sim-CLR學習的經過自我監督表示訓練的線性分類器達到了76.5%的top-1準確性,相對於以前的最新水平有7%的相對改進,與監督的ResNet-50的性能相匹配。當僅對1%的標籤進行微調時,我們就可以達到85.8%的top-5精度,其性能要比AlexNet少100倍。

 

圖1.使用不同的自我監督方法(在ImageNet上預先訓練)學習的表示形式上訓練的線性分類器的ImageNet top-1準確性 灰色十字表示受監管的ResNet-50。

 

方法

在最近的對比學習算法的啓發下,SIMCLR通過在隱藏空間中通過對比度的損失最大化相同數據示例的不同增強視圖之間的一致性來學習表示。具體來說,該框架包括四個主要部分:

 

  • 隨機數據增強模塊,可以對任意給定的數據樣本進行隨機變換,得到同一個樣本的兩個相關視圖,分別表示爲x~i和x~j,我們將其視爲正對

     

  • 一個基本的神經網絡編碼器f(·),它從增強的數據中提取表示向量;

     

  • 一個小的神經網絡投影頭g(·),它將表示映射到對比度損失空間;

     

  • 爲對比度預測任務定義的對比度損失函數。

圖2:用於視覺表示的對比學習的簡單框架

SimCLR 學習算法如下:

算法原理總結如下:

  • 隨機抽取一小批

  • 爲每個示例繪製兩個獨立的增強函數

  • 使用兩個增強機制爲每個示例生成兩個相互關聯的視圖

  • 在排除其他示例的同時,使相關視圖相互吸引

更大批量訓練

 

我們不使用存儲庫訓練模型。取而代之的是,我們將訓練批次的大小從N更改爲256至8192.從兩個擴充視圖的8192批次的每個正對中,我們可以得到16382個負樣本。使用標準SGD、動量和線性學習率縮放(Goyal)時,進行大批量訓練可能會不穩定。爲了穩定訓練,我們對所有批次大小都使用LARS優化器(You et al。,2017)。我們使用Cloud TPU對模型進行訓練,根據批次大小使用32至128個核。

 

數據增強

 

儘管數據增強在有監督和無監督的表徵學習中得到了廣泛的應用,但它並沒有被視爲定義對比學習任務的系統方法。許多現有的方法通過改變體系結構來定義對比度預測任務。

本文的研究人員證明,通過對目標圖像執行簡單的隨機裁剪(調整大小),可以避免以前的複雜操作,從而創建一系列包含上述兩個任務的預測任務,如圖3所示。這種簡單的設計選擇使得將預測任務與其他組件(如神經網絡體系結構)分離很容易。

圖3實心矩形是圖像,虛線矩形是隨機作物

 

圖4研究的數據擴充運算符的插圖 每次擴充都可以使用一些內部參數(例如旋轉度,噪聲水平)隨機轉換數據。請注意,我們僅對這些算子進行了消融測試,用於訓練模型的增強策略僅包括隨機裁剪(具有翻轉和調整大小),顏色失真和高斯模糊。 

 

圖5單個或組合的數據擴充下的線性評估(ImageNet top-1準確性),僅適用於一個分支。對於除最後一列以外的所有列,對角線條目對應於單個變換,非對角線條目對應於兩個變換的組成(順序應用), 最後一欄反映該行的平均值。

 

編碼器和投射頭的架構

 

  • 大型模型的無監督對比學習優勢

  • 非線性投影頭可改善之前的圖層的表示質量

 

圖7:深度和寬度各異的模型的線性評估藍點模型訓練了100個紀元,紅星模型訓練了1000個紀元,綠色十字形模型監督了ResNets訓練了90個紀元.

圖8:具有不同投影頭g(·)和z = g(h)的各種尺寸的表示的線性評估。這裏的表示h(投影之前)爲2048維。

損失函數和批大小

 

溫度調節的歸一化交叉熵損失優於其他方法。研究人員比較了NT-Xent丟失和其他常用的對比丟失函數,如logistic丟失和邊緣丟失。表1顯示了目標和損失函數輸入的梯度。

表1.負損耗函數及其梯度。

對比學習可以從更大的批量和更長的訓練中獲益更多。

圖9線性評估模型ResNet-50,通過不同的批次大小和時期進行訓練 每個欄都是從頭開始的。

 

當前最佳模型的比較

 

表2.使用不同的自我監督方法學習的表示形式訓練的線性分類器的ImageNet精度

表3.用很少標籤訓練的模型的ImageNet準確性

表4:對於在ImageNet上預訓練的ResNet-50(4×)模型,我們的自監督方法與12個自然圖像分類數據集的監督基線之間的轉移學習性能比較。 結果以不顯着差於最好的結果(p> 0.05,置換測試)顯示爲粗體。 有關實驗細節和標準ResNet-50的結果.

 

結論

 

作者爲對比視覺表示學習提供了一個簡單的框架及其實例化,細研究了其組成部分,並展示了不同設計選擇的影響。通過結合我們的發現,我們比以前的自我監督,半監督和轉移學習方法有了很大的改進。我們的結果表明,先前一些自我監督方法的複雜性對於獲得良好的表現不是必需的。我們的方法與ImageNet上的標準監督學習的不同之處僅在於數據增強的選擇,網絡末端使用非線性投射頭以及損失函數。這種簡單框架的優勢表明,儘管最近興趣激增,但自我監督學習仍被低估了。

 

論文地址:

https://arxiv.org/pdf/2002.05709.pdf

更多論文地址源碼地址:關注“圖像算法”微信公衆號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章