Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet

原創

2021-02-01 21:24

與之前ViT、Detr、Deit等不同之處在於：本文針對ViT的特徵多樣性、結構化設計等進行了更深入的思考，提出了一種新穎的Tokens-to-Token機制，用於同時建模圖像的局部結構信息與全局相關性，同時還借鑑了CNN架構設計思想引導ViT的骨幹設計。最終，僅僅依賴於ImageNet數據，而無需JFT-300M預訓練，所提方案即可取得全面超越ResNet的性能，且參數量與計算量顯著降低；與此同時，在輕量化方面，所提方法只需簡單減少深度與隱含層維度即可取得優於精心設計的MobileNet系列方案的性能。

分析發現：(1) 輸入圖像的簡單token化難以很好的建模近鄰像素間的重要局部結構(比如邊緣、線條等)，這就導致了少量樣本時的低效性；(2) 在固定計算負載與有限訓練樣本約束下，ViT中的冗餘注意力骨幹設計限制了特徵的豐富性。

本文的主要貢獻包含以下幾個方面：

首次通過精心設計Transformer結構在標準ImageNet數據集上取得了全面超越CNN的性能，而無需在JFT-300M數據進行預訓練；
提出一種新穎的漸進式Token化機制用於ViT，並證實了其優越性，所提T2T模塊可以更好的協助每個token建模局部重要結構信息；
CNN的架構設計思想有助於ViT的骨幹結構設計並提升其特徵豐富性、減少信息冗餘。通過實驗發現：deep-narrow結構設計非常適合於ViT。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

9n-triton部署bert模型實戰經驗

一、背景對於算法工程師來說，通常採用python語言來作爲工作語言，但是直接用python部署線上服務性能很差。這個問題困擾了我很久，爲了緩解深度學習模型工程落地性能問題，探索了Nvidia提供的triton部署框架，並在九數中臺上完成

2024-04-01 11:15:58

當尺度感知調製遇上 Transformer，會碰撞出怎樣的火花?

1.文章介紹近年來，基於Transformer和CNN的視覺基礎模型取得巨大成功。有許多研究進一步地將Transformer結構與CNN架構結合，設計出了更爲高效的hybrid CNN-Transformer Network，但它們的

2023-10-10 00:32:59

快速玩轉 Llama2！機器學習 PAI 最佳實踐（二）—全參數微調訓練

前言近期，Meta 宣佈大語言模型 Llama2 開源，包含7B、13B、70B不同尺寸，分別對應70億、130億、700億參數量，並在每個規格下都有專門適配對話場景的優化模型Llama-2-Chat。Llama2 可免費用於研究場景和

2023-08-02 00:25:27

EfficientFormerV2 加速 ViT，更高效的移動端視覺模型

出品人：Towhee 技術團隊顧夢佳 EfficientFormerV2 仿造卷積結構的 MobileNet，對 transformers 進行一系列針對移動端加速的設計和優化。模型的參數量和延遲對資源受限型的硬件來說至關重要，因此 Ef

2023-01-13 21:21:45

基於單機最高能效270億參數GPT模型的文本生成與理解

概述 GPT模型能較好的處理文本生成領域的各種任務，比如文本補全，自由問答，完形填空，寫作文，寫摘要，寫小說，寫詩歌等等。最近火爆全網的人工智能產品ChatGPT也是以GPT文本生成模型爲底座。雖然GPT大模型作用在這些應用領域的效果很好

2023-01-10 23:58:37

帶你讀Paper丨分析ViT尚存問題和相對應的解決方案

摘要：針對ViT現狀，分析ViT尚存問題和相對應的解決方案，和相關論文idea彙總。本文分享自華爲雲社區《【ViT】目前Vision Transformer遇到的問題和克服方法的相關論文彙總》，作者：蘇道。首先來看ViT始祖級

2021-10-08 21:33:58

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

點擊下方“AI算法與圖像處理”，一起進步！重磅乾貨，第一時間送達論文地址： https://arxiv.org/pdf/2106.00666.pdf 源代碼地

2021-09-15 21:15:06

O2OA(翱途) o2server 調用 webServices jaxws 樣例

本文分兩部分介紹如何在 o2server 服務器中調用 webServices(jaxws)服務. 第一部分介紹如何在tomcat上搭建一個webServices(jaxws)服務. 第二部分介紹如何在o2server服務器上來調用上面創建

2023-08-14 22:46:01

從Xcode啓動iOS模擬器，黑屏，接着Xcode掛了，無法停止任務

問題： I'm having trouble running my basic iPhone application (while going through the Stanford iTunes CS193p lectures) in

2021-12-29 09:18:02

chisel使用axi stream

https://github.com/amsharifian/chisel3-axistream Chisel Project Template You've done the Chiseltutorials, and now youar

2021-12-28 21:17:55

修改Scratch3.0核心代碼如何避免編譯

首先，我們來看一個原理，衆所周知，npm需要進行依賴，然後下載後有一個node_modules的文件夾，相關的文件插件等都在這個目錄，那麼SCRATCH核心的一些文件都在這裏，有興趣的朋友可以去看下scratch的核心架構的說明那麼，爲

2021-12-25 21:46:36

scratch3.0如何新增擴展插件

大家都知道默認的scratch的代碼有以下幾種那麼除了這些呢，我們還可以看到scratch3.0提供了我們更多的擴展插件，包括2.0經常在用的畫筆都在這裏，我們點擊大家可以看到我們第三個碼碼樂功能就是給大

2021-12-25 21:46:36

Terraform初探：遷移本地項目到Terraform Cloud執行

上一篇文章我們嘗試了在本地環境使用Terraform來創建和管理AWS Lightsail資源，對於管理一些雲資源，我們需要在本地安裝相應的CLI工具和配置訪問相應雲資源的憑據（例如AWS CLI， AccessKeyID等），Terraf

2021-12-25 21:36:44

LinearLayout 不在 ScrollView 內擴展 - LinearLayout not expanding inside a ScrollView

問題： I have a LinearLayout inside a ScrollView that has android:layout_height="fill_parent" , but it doesn't expand to t

2021-09-13 09:15:26

低代碼時代來臨，織信Informat攜手低碼星球探討：企業數字化轉型之路

9月7日晚19:30分，由深圳市基石協作有限公司和深圳市宇商科技有限公司聯合舉辦的“低碼星球”在線講座系列課程正式上線，主要圍繞低代碼話題展開深入講解與討論，目的是讓更多的人走進低代碼的世界。 “低碼星球”第一節課，邀請了低代碼黑馬平臺——

2021-09-10 21:12:18

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章