ImageNet的top-1終於上了90%,網友質疑:用額外數據集還不公開,讓人怎麼信服?...



來源:機器之心

本文約3000字,建議閱讀10+分鐘Quoc Le:“我原本以爲 ImageNet 的 top-1 準確率 85% 就到頭了,現在看來,這個上限難以預測。”

近日,谷歌大腦研究科學家、AutoML 鼻祖 Quoc Le 發文表示,他們提出了一種新的半監督學習方法,可以將模型在 ImageNet 上的 top-1 準確率提升到 90.2%,與之前的 SOTA 相比實現了 1.6% 的性能提升。

這一成果刷新了 Quoc Le 對於 ImageNet 的看法。2016 年左右,他認爲深度學習模型在 ImageNet 上的 top-1 準確率上限是 85%,但隨着這一數字被多個模型不斷刷新,Quoc Le 也開始對該領域的最新研究抱有更多期待。而此次 90.2% 的新紀錄更是讓他相信:ImageNet 的 top-1 還有很大空間。

Quoc Le 介紹稱,爲了實現這一結果,他們使用了一種名爲「元僞標籤(Meta Pseudo Label)」的半監督學習方法來訓練 EfficientNet-L2。

和僞標籤(Pseudo Label)方法類似,元僞標籤方法有一個用來在未標註數據上生成僞標籤並教授學生網絡的教師網絡。然而,與教師網絡固定的僞標籤方法相比,元僞標籤方法有一個從學生網絡到教師網絡的反饋循環,其教師網絡可以根據學生網絡在標記數據集上的表現進行調整,即教師和學生同時接受訓練,並在這一過程中互相教授。

這篇有關元僞標籤的論文最早提交於 2020 年 3 月,最近又放出了最新版本。

論文鏈接:

https://arxiv.org/pdf/2003.10580.pdf

代碼鏈接:

https://github.com/google-research/google-research/tree/master/meta_pseudo_labels

在新版本中,研究者針對元僞標籤方法進行了實驗,用 ImageNet 數據集作爲標記數據,JFT-300M 作爲未標記數據。他們利用元僞標籤方法訓練了一對 EfficientNet-L2 網絡,其中一個作爲教師網絡,另一個作爲學生網絡。最終,他們得到的學生模型在 ImageNet ILSVRC 2012 驗證集上實現了 90.2% 的 top-1 準確率,比之前的 SOTA 方法提升了 1.6 個百分點(此前 ImageNet 上 top-1 的 SOTA 是由谷歌提出的 EfficientNet-L2-NoisyStudent + SAM(88.6%)和 ViT(88.55%))。這個學生模型還可以泛化至 ImageNet-ReaL 測試集,如下表 1 所示。

在 CIFAR10-4K、SVHN-1K 和 ImageNet-10% 上使用標準 ResNet 模型進行的小規模半監督學習實驗也表明,元僞標籤方法的性能優於最近提出的一系列其他方法,如 FixMatch 和無監督數據增強。

論文作者還表示,他們之所以在方法的命名中採用「meta」這個詞,是因爲他們讓教師網絡根據學生網絡反饋進行更新的方法是基於雙層優化問題(bi-level optimization problem),而該問題經常出現在元學習的相關文獻中。

不過,這篇論文也受到了一些質疑,比如使用的數據集 JFT-300M 是未開源的數據集(不知道該數據集中有沒有和 ImageNet 測試集相似的圖片),導致外部人士很難判斷其真正的含金量。

爲什麼要改進「僞標籤」方法?

僞標籤或自訓練方法已經成功地應用於許多計算機視覺任務,如圖像分類、目標檢測、語義分割等。僞標籤方法有一對網絡:一個教師網絡,一個學生網絡。教師網絡基於無標籤圖像生成僞標籤,這些被「僞標註」的圖像與標註圖像結合,用來訓練學生網絡。由於使用了大量的僞標籤數據和數據增強等正則化方法,學生網絡通過學習可以超越教師網絡。

儘管僞標籤方法性能優越,但它也有一個很大的缺陷:如果僞標籤不準確,學生網絡就要從不準確的數據中學習。因此,最後訓練出的學生網絡未必比教師網絡強多少。這一缺陷也被稱爲僞標記的確認偏差(confirmation bias)問題。

爲了解決這一問題,Quoc Le 等人設計了系統的機制,讓教師網絡通過觀察其僞標籤對學生網絡的影響來糾正上述偏差。確切地說,他們提出了元僞標籤方法,利用來自學生網絡的反饋爲教師網絡提供信息,促使其生成更好的僞標籤。反饋信號是學生網絡在標記數據上的表現。在學生網絡的學習過程中,該反饋信號被用作訓練教師網絡的一種獎勵。

怎麼改進「僞標籤」方法

僞標籤方法和元僞標籤方法的區別如下圖 1 所示。可以看出,元僞標籤方法多了一個關於學生網絡表現的反饋。

  • 符號解釋

在論文中,T 和 S 分別表示教師網絡和學生網絡,它們的參數分別記爲θ_T 和 θ_S。用 (x_l , y_l) 表示一批圖像和圖像對應的標籤,x_u 表示一批未標記數據。此外,T(x_u; θ_T )表示教師網絡對於 x_u 的軟預測(soft predictions),學生網絡同理。CE(q, p)表示 q 和 p 兩個分佈之間的交叉熵損失。如果 q 是一個標籤,它會被理解爲一個 one-hot 分佈;如果 q 和 p 有多個實例,那麼 CE(q, p)就是 batch 中所有實例的平均。

  • 把僞標籤看成一個優化問題

在介紹元僞標籤之前,先來回顧一下僞標籤。具體來說,僞標籤(PL)方法會訓練學生模型來最小化其在未標記數據上的交叉熵損失:

在上面的公式中,僞目標 T(x_u; θ_T )由一個訓練良好、參數θ_T 固定的教師模型生成。給定一個優秀的教師模型,僞標籤方法的願景是讓最終得到的在未標記數據上損失很低,即

在僞標籤的框架下,最優學生參數總是通過僞目標依賴於教師參數θ_T。爲了便於討論元僞標籤,我們可以將該依賴表示爲

作爲一個即時的觀察,學生網絡在標記數據上的最終損失也是θ_T 的「函數」。因此,我們可以進一步優化與θ_T 相關的 L_1

直觀上來看,根據學生網絡在標記數據上的表現優化教師網絡參數之後,我們就能對僞標籤作出相應調整,從而提高學生網絡的性能。但需要注意的是,在θ_T 上的依賴非常複雜,因此計算梯度需要展開整個學生網絡訓練過程(即)。

  • 實際近似

爲了讓元僞標籤方法變得可行,研究者借用了前人在元學習方面的一些工作,利用θ_S 的一步梯度更新近似多步

其中,η_S 是學習率。將這個近似代入式(2)的優化問題中,就得到了元僞標籤中的實際教師網絡目標:

注意,如果軟僞標籤得到了應用,即 T(x_u; θ_T )是教師網絡預測出的完整分佈(full distribution),上述目標就是關於θ_T 完全可微的(fully differentiable),我們就能通過標準反向傳播得到梯度。然而,在這篇論文中,研究者從教師網絡分佈中採樣硬僞標籤。因此,他們用了一個略作修改的 REINFORCE 版本來得到式(3)中 L_1 關於θ_T 的梯度。

另一方面,學生網絡的訓練還依賴於式(1)中的目標,只是教師網絡的參數不再是固定的。相反,由於教師網絡的優化,θ_T 一直在發生變化。更加有趣的是,學生網絡參數的更新可以在教師網絡目標的一步近似中重用,這自然會在學生網絡更新和教師網絡更新之間產生一個交替的優化過程。

學生網絡:吸收一批未標記數據 x_u,然後從教師網絡的預測中採樣 T(x_u; θ_T ),接下來用 SGD 優化目標 1

教師網絡:吸收一批標記數據(x_l , y_l),「重用」學生網絡的更新,從而用 SGD 優化目標 3:

  • 教師網絡的輔助損失

通過實驗,研究者發現,元僞標籤方法自己就能運行良好。當然,如果教師網絡與其他輔助目標(auxiliary objective)聯合訓練,效果會更好。因此,在實現過程中,研究者用一個監督學習目標和一個半監督學習目標增強了教師網絡的訓練。對於監督學習目標,他們在標記數據上訓練教師網絡。對於半監督學習目標,他們使用 UDA 在未標記數據上訓練教師網絡。

最後,由於元僞標籤方法中的學生網絡只從帶有僞標籤的未標記數據中學習,我們可以在學生網絡訓練至收斂後藉助標記數據對其進行微調,以提高其準確率。

實驗結果

  • 小規模實驗

這部分展示了小規模實驗的結果。首先,研究者藉助簡單的 TwoMoon 數據集測了一下「反饋」在元僞標籤方法中的重要性,結果如下圖 2 所示。從中可以看出,在 TwoMoon 數據集上,元僞標籤方法(右)比監督學習方法(左)和僞標籤方法(中)的表現都要好。

接下來,他們又將元僞標籤方法與之前的 SOTA 半監督學習方法進行了對比,使用的基準包括 CIFAR-10-4K、SVHN-1K、ImageNet-10% 等,結果如下表 2 所示:

最後,他們使用完整的 ImageNet 數據集在標準的 ResNet-50 架構上進行了實驗,結果如下表3所示:

  • 大規模實驗

這部分展示了大規模實驗(大模型、大數據集)的結果。研究者使用了 EfficientNet-L2 架構,因爲該架構的容量比 ResNet 大。Noisy Student 也用到了 EfficientNet-L2,在 ImageNet 上達到了 88.4% 的 top-1 準確率。

這部分的實驗結果如下表 4 所示。從中可以看出,元僞標籤方法以 90.2% 的準確率成爲了 ImageNet top-1 的新 SOTA。

編輯:黃繼彥

校對:楊學俊

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章