Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet

與之前ViT、Detr、Deit等不同之處在於:本文針對ViT的特徵多樣性、結構化設計等進行了更深入的思考,提出了一種新穎的Tokens-to-Token機制,用於同時建模圖像的局部結構信息與全局相關性,同時還借鑑了CNN架構設計思想引導ViT的骨幹設計。最終,僅僅依賴於ImageNet數據,而無需JFT-300M預訓練,所提方案即可取得全面超越ResNet的性能,且參數量與計算量顯著降低;與此同時,在輕量化方面,所提方法只需簡單減少深度與隱含層維度即可取得優於精心設計的MobileNet系列方案的性能。 

分析發現:(1) 輸入圖像的簡單token化難以很好的建模近鄰像素間的重要局部結構(比如邊緣、線條等),這就導致了少量樣本時的低效性;(2) 在固定計算負載與有限訓練樣本約束下,ViT中的冗餘注意力骨幹設計限制了特徵的豐富性。

本文的主要貢獻包含以下幾個方面:

  • 首次通過精心設計Transformer結構在標準ImageNet數據集上取得了全面超越CNN的性能,而無需在JFT-300M數據進行預訓練;

  • 提出一種新穎的漸進式Token化機制用於ViT,並證實了其優越性,所提T2T模塊可以更好的協助每個token建模局部重要結構信息;

  • CNN的架構設計思想有助於ViT的骨幹結構設計並提升其特徵豐富性、減少信息冗餘。通過實驗發現:deep-narrow結構設計非常適合於ViT。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章