《CLIP:Connecting text and images》論文學習

一、Abstract

儘管深度學習已經徹底改革了計算機視覺領域,但當前的深度學習視覺方案方法存在幾個主要問題:

  1. 高質量的視覺數據集,製作過程耗時且成本高昂,同時只包含了有限範圍的視覺概念
  2. 標準的深度學習視覺模型(例如ImageNet、ResNet)擅長完成單一任務,且只能完成一個任務,需要投入巨大的努力(遷移學習、stacking fine-tune)才能適應新的任務
  3. 在基準測試上表現良好的模型,在壓力測試與泛化測試中的性能卻令人失望,這讓人對整個深度學習在計算機視覺領域的方法產生了懷疑。

我們提出了一種旨在解決這些問題的神經網絡:它接受訓練時使用了多種多樣的圖片,以及網絡上大量可得的自然語言語料進行自監督監督訓練。

通過設計,這個網絡可以使用自然語言進行操控,完成多種分類基準測試,而不需提前針對基準數據集進行鍼對性訓練優化,這類似於GPT-2和GPT-3的“零樣本學習(zero-shot)”能力。

這是一個關鍵的變化:通過不提前針對基準數據集進行鍼對性訓練優化,我們展示了它能夠變得更具代表性。我們的系統在縮小“魯棒性差距”方面達到了高達75%的效果,同時在不使用任何原始的128萬個標註樣本的情況下,與原始的ResNet-50在ImageNet零樣本學習中的表現匹敵。

參考鏈接:

https://openai.com/research/clip 

 

二、Background and related work

CLIP(Contrastive Language–Image Pre-training)建立在大量關於”zero-shot transfer“、”natural language supervision“、”multimodal learning“和”transfer learning“的研究基礎之上。

零樣本學習的理念可以追溯到十多年前,但直到最近,這一理念在計算機視覺領域主要被研究作爲推廣到未見過物體類別的方法。一個關鍵的洞見是利用自然語言作爲一種靈活的預測空間,以實現泛化和轉移。2013年,斯坦福大學的Richer Socher及其合作者開發了一個概念驗證,通過在CIFAR-10上訓練一個模型,使其在一個詞向量嵌入空間中進行預測,並展示了該模型能夠預測兩個未見過的類別。同年,DeVISE擴展了這一方法,並證明可以對一個ImageNet模型進行微調,使其能夠正確地預測原始1000訓練集之外的對象。

CLIP最受啓發的是FAIR的Ang Li及其合作者在2016年展示了使用自然語言監督來實現zero-shot transfer到幾個現有的計算機視覺分類數據集的工作,如典型的ImageNet數據集。他們通過對一個ImageNet CNN進行微調,預測來自3000萬Flickr照片的標題、描述和標籤文本中更廣泛的視覺概念集(視覺n-grams),並能夠在ImageNet零次學習上達到11.5%的準確率。

最後,CLIP是過去一年重新審視從自然語言監督中學習視覺表示的一系列論文中的一部分。這一系列工作包括:

  • 使用了更現代的架構,如Transformer,幷包括VirTex,它探討了自迴歸語言建模
  • ICMLM,它研究了掩碼語言建模
  • ConVIRT,它研究了我們在CLIP中使用的相同對比目標,但應用於醫學成像領域。
參考鏈接:
https://www.cnblogs.com/LittleHann/p/17354069.html#_label3_3_1_3 

 

三、Approach

我們展示了只需擴大一個簡單的預訓練任務,就足以在各種各樣的圖像分類數據集上實現有競爭力的零樣本學習性能。

我們的方法使用了一種大量可獲得的監督來源:互聯網上與圖片配對的文本。這些數據被用來爲CLIP創建以下的代理訓練任務:給定一幅圖像,預測在我們數據集中實際與之配對的32,768個隨機採樣的文本片段中的哪一個。

爲了解決這個任務,我們的直覺是CLIP模型將需要學會識別圖像中的各種視覺概念,並將它們與其名稱關聯起來。結果,CLIP模型可以應用於幾乎任意的視覺分類任務。例如,如果數據集的任務是分類狗和貓的照片,我們檢查每幅圖像是否更可能與CLIP模型預測的文本描述“一張狗的照片”或“一張貓的照片”配對(用自然語言方式實現離散多分類任務)。

基本架構圖如下所示,

0x2:緩解模型處理任務領域狹窄(Narrow)問題

一個ImageNet模型擅長預測1000個ImageNet類別,但這就是它“開箱即用”能做的全部。如果我們希望執行任何其他任務,機器學習從業者需要構建一個新的數據集,添加一個輸出頭(output head),並對模型進行微調(fine-tune)。

相比之下,CLIP可以在不需要額外訓練樣本的情況下,適應執行各種各樣的視覺分類任務。要將CLIP應用於新任務,我們所需要做的就是“告訴”CLIP的文本編碼器任務的視覺概念名稱,它將輸出CLIP視覺表示的線性分類器。這個分類器的準確率往往與完全監督的模型具有競爭力。

我們在下面展示了各種數據集中的示例上,零樣本學習CLIP分類器的隨機、未經精選的預測結果。

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章