文獻 Large Scale Learning of General Visual Representations for Transfer 細節分析

Detailed Analysis

Big Models and Big Data

普遍的共識是模型越大,效果越好(無論是在上游任務還是在下游任務中)。爲了評估模型容量和上游訓練集大小對性能的影響,這篇文章做了不同容量的ResNet模型分別在ILSVRC-2012, ImageNet-21k and JFT-300M上進行訓練,並在下游數據集中評估。
在這裏插入圖片描述
ResNet-50x1, ResNet-50x3, ResNet-101x1, and ResNet-101x3. 對於最大的數據集,還使用了ResNet152x4.
結論一:
使用較大模型時,在大規模的數據集上效果更明顯。
結論二:
第二個效果是:在小數據集上訓練一個大模型的好處是有限的,在大數據集上訓練一個小模型的好處也是有限的(甚至是負面的)。

因此,如果只使用具有通常容量的體系結構,則可以得出這樣的結論:增大數據大小不會帶來任何額外的好處。然而,對於更大的架構,如ResNet-101x3,在JFT-300M上預先訓練的模型明顯優於在ILSVRC-2012或ImageNet-21k上預先訓練的模型。
【這裏應該是在原來的數據量充足的前提下 表述不是很嚴謹】

在這裏插入圖片描述
關鍵的是,我們還觀察到,即使是在較小的下游數據集上,大的預訓練模型也會帶來更好的結果。

Optimization on Large Datasets

如ImageNet-21k,與ILSVRC-2012的1.28M相比,它有1420萬張圖像。但是,從這樣的大數據集中進行訓練還沒有既定的程序。這篇文章旨在解決這個缺點,併爲在大型數據集上訓練模型提供方法。

我們首先注意到,足夠的計算預算對於在大數據集上訓練性能模型至關重要。標準的ILSVRC-2012訓練計劃處理大約1億張圖像(128萬張圖像×90個epochs)。但是,如果對ImageNet-21k應用相同的計算預算,則生成的模型會導致ILSVRC-2012驗證集的性能下降(圖5,最左邊圖的左下部分)。然而,如同一圖所示,通過增加計算預算,我們不僅恢復了ILSVRC-2012的性能,並明顯優於它(我們增加了計算量)。
在這裏插入圖片描述
大數據集訓練的另一個重要方面是權值衰減參數。較低的權重衰減會導致明顯的收斂加速(圖5最右邊的圖,權重衰減1e-5)。但是,此設置最終會導致最終模型執行不足。這種違反直覺的行爲源於權重衰減和標準化層的相互作用[26,28]。

權重衰減導致體重標準增加,進而導致有效學習率下降。最初,這種效應給人一種更快收斂的印象,但最終阻止了進一步的進展。需要足夠大的重量衰減來避免這種影響。在整個論文中,對於上游訓練,我們使用10-4[13,14]的標準權重衰減。

Large Batches, Group Normalization and Weight Standardization

目前許多已知的大批量訓練算法使用批量規範化(BN),它甚至是一個非常關鍵的工具。

因此,這篇文章研究了resnet中BN的替代方案,特別是組規範化(GN)[49]和權重標準化(WS)[36]。在我們的實驗中,我們觀察到結合GN和WN標準化可以恢復BN泛化性能,並且當用於大輸入批量的訓練時是穩定的。

在這裏插入圖片描述

Tuning hyperparameters for transfer

爲了確保我們的結果不會由於上游訓練和下游測試數據之間的重疊而膨脹,我們進行了大量重複數據消除實驗。對於每個上游訓練數據集(JFT-300M、ImageNet-21k和ILSVRC-2012),我們從評估測試集中移除所有幾乎重複的數據,並在消除重複的測試集中重新評估最佳模型。結果如表6所示:“Full”是原始測試集的精度,“Dedup”是測試集的精度,而“Dups”已刪除幾乎重複的。我們觀察到,接近重複幾乎不會影響我們的結果,因此我們在整個論文的完整測試集上報告結果,以便與之前公佈的結果進行比較。注意,ILSVRC-2012的[40]和CIFAR的[3]之前報告了訓練集和測試集之間的幾乎重複。

關於小樣本學習的討論

爲了在面對新的種類時獲得良好的性能,人們提出了許多策略,並且每個類只使用幾個示例,這就是小樣本學習。
元學習(Meta learning,metric learning,metric learning)技術被提出用來學習很少或沒有標籤的內容,如[48,39,41]。然而,最近的研究表明,一個簡單的線性分類器在預先訓練的表示或微調的基礎上可以獲得相似或更好的性能[5,32]。上游的預訓練和下游的少量鏡頭學習通常在同一個域上進行,類標籤不相交。我們的目標是找到一個通用的表示,它在轉移到許多下游任務時工作良好。因此,我們不強制類在訓練和測試期間分離,而是關注將一般表示從多個域轉移到許多下游任務的有效性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章