Vision Transformer和MLP-Mixer聯繫和對比

原創

2022-10-03 13:05

Vision Transformer和MLP-Mixer是深度學習領域最新的兩個體系結構。他們在各種視覺任務中都非常成功。視覺Vision Transformer的性能略好於MLP-Mixers，但更復雜。但是這兩個模型非常相似，只有微小的區別。本文中將對兩個模型中的組件進行聯繫和對比，說明了它們的主要區別，並比較了它們的性能。

簡介

Transformer自2016年引入以來，一直是自然語言處理(NLP)任務的重大突破。谷歌的BERT和Open AI的GPT體系結構已經成爲語言翻譯、文本生成、文本摘要和問題回答等任務的最先進解決方案。

Transformer在視覺領域的應用已經產生了令人印象深刻的結果。一個被稱爲ViT的模型能夠在視覺分類中勝過經典的基於卷積的模型。出現在被稱爲Swin Transformer的ViT變體已經在各種計算機視覺任務中實現了最先進的性能，包括分類、檢測和分割。

除此以外一個名爲MLP-Mixer的架構受到了廣泛關注。這類模型的簡單性非常吸引人。與VIT一樣，MLP-Mixer的變體也被應用於不同的計算機視覺任務，包括檢測和分割。在某些情況下，這些模型的性能與基於Transformer的模型相當。

ViT和MLP-Mixer的架構如下所示。這些體系結構非常相似，通常包括三個主要部分，a)補丁嵌入，b)通過堆疊的Transformer編碼器提取特徵，c)分類頭。

上圖爲VIT

MLP-Mixer

本文的主要目標是說明MLP-Mixer和ViT實際上是一個模型類，儘管它們在表面上看起來不同。

完整文章

https://avoid.overfit.cn/post/2416fcc61e2a48f4a0c288dfb30c81bf

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Vision Transformer和MLP-Mixer聯繫和對比

簡介

七天.NET 8操作SQLite入門到實戰 - （2）第七天Blazor班級管理頁面編寫和接口對接

自學編程兩個月，現在我月入 4 萬元

百度安全多篇議題入選Blackhat Asia以硬技術發現“芯”問題

「實戰應用」如何用圖表控件LightningChart創建2D氣泡圖

GtkSharp 設置窗口背景透明

Google Chrome驅動程序 124.0.6367.62（正式版本）去哪下載？

開源向量數據庫比較：Chroma, Milvus, Faiss,Weaviate

微軟Phi-3，3.8億參數能與Mixtral 8x7B和GPT-3.5相媲美，量化後還可直接在IPhone中運行

Barnes-Hut t-SNE:大規模數據的高效降維算法

5種搭建LLM服務的方法和代碼示例

使用ORPO微調Llama 3

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結