Vision Transformer和MLP-Mixer是深度學習領域最新的兩個體系結構。他們在各種視覺任務中都非常成功。視覺Vision Transformer的性能略好於MLP-Mixers,但更復雜。但是這兩個模型非常相似,只有微小的區別。本文中將對兩個模型中的組件進行聯繫和對比,說明了它們的主要區別,並比較了它們的性能。
簡介
Transformer自2016年引入以來,一直是自然語言處理(NLP)任務的重大突破。谷歌的BERT和Open AI的GPT體系結構已經成爲語言翻譯、文本生成、文本摘要和問題回答等任務的最先進解決方案。
Transformer在視覺領域的應用已經產生了令人印象深刻的結果。一個被稱爲ViT的模型能夠在視覺分類中勝過經典的基於卷積的模型。出現在被稱爲Swin Transformer的ViT變體已經在各種計算機視覺任務中實現了最先進的性能,包括分類、檢測和分割。
除此以外一個名爲MLP-Mixer的架構受到了廣泛關注。這類模型的簡單性非常吸引人。與VIT一樣,MLP-Mixer的變體也被應用於不同的計算機視覺任務,包括檢測和分割。在某些情況下,這些模型的性能與基於Transformer的模型相當。
ViT和MLP-Mixer的架構如下所示。這些體系結構非常相似,通常包括三個主要部分,a)補丁嵌入,b)通過堆疊的Transformer編碼器提取特徵,c)分類頭。
上圖爲VIT
MLP-Mixer
本文的主要目標是說明MLP-Mixer和ViT實際上是一個模型類,儘管它們在表面上看起來不同。
完整文章
https://avoid.overfit.cn/post/2416fcc61e2a48f4a0c288dfb30c81bf