Vision Transformer和MLP-Mixer联系和对比

原創

2022-10-03 13:05

Vision Transformer和MLP-Mixer是深度学习领域最新的两个体系结构。他们在各种视觉任务中都非常成功。视觉Vision Transformer的性能略好于MLP-Mixers，但更复杂。但是这两个模型非常相似，只有微小的区别。本文中将对两个模型中的组件进行联系和对比，说明了它们的主要区别，并比较了它们的性能。

简介

Transformer自2016年引入以来，一直是自然语言处理(NLP)任务的重大突破。谷歌的BERT和Open AI的GPT体系结构已经成为语言翻译、文本生成、文本摘要和问题回答等任务的最先进解决方案。

Transformer在视觉领域的应用已经产生了令人印象深刻的结果。一个被称为ViT的模型能够在视觉分类中胜过经典的基于卷积的模型。出现在被称为Swin Transformer的ViT变体已经在各种计算机视觉任务中实现了最先进的性能，包括分类、检测和分割。

除此以外一个名为MLP-Mixer的架构受到了广泛关注。这类模型的简单性非常吸引人。与VIT一样，MLP-Mixer的变体也被应用于不同的计算机视觉任务，包括检测和分割。在某些情况下，这些模型的性能与基于Transformer的模型相当。

ViT和MLP-Mixer的架构如下所示。这些体系结构非常相似，通常包括三个主要部分，a)补丁嵌入，b)通过堆叠的Transformer编码器提取特征，c)分类头。

上图为VIT

MLP-Mixer

本文的主要目标是说明MLP-Mixer和ViT实际上是一个模型类，尽管它们在表面上看起来不同。

完整文章

https://avoid.overfit.cn/post/2416fcc61e2a48f4a0c288dfb30c81bf

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Vision Transformer和MLP-Mixer联系和对比

简介

DAPPER 事务 TRANSACTION

Java中线程的创建方式

LLM2Vec介紹和將Llama 3轉換爲嵌入模型代碼示例

BiTCN：基於卷積網絡的多元時間序列預測

整合文本和知識圖譜嵌入提升RAG的性能

Gradformer: 通過圖結構歸納偏差提升自注意力機制的圖Transformer

貝葉斯推理導論：如何在‘任何試驗之前絕對一無所知’的情況下計算概率

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結