Transformer 再添一员，比 Swin 更强的 DiNAT

原創

2023-01-19 21:22

出品人：Towhee 技术团队张晨、顾梦佳

在视觉领域，除了常规 Transformer 的持续发展，分层的 Transformer 结构也因为其性能和易集成性获得了极大的关注。DiNA 注意力机制是 Neighborhood Attention （NA）的拓展，更加自然、灵活、高效。它可以捕获更多的全局上下文并以指数方式扩展感受域，而无需额外成本。DiNA Transformer 是基于两种注意力的新型分层视觉模型。相比 NAT、Swin 和 ConvNeXt 等强基线模型，DiNAT 变体带来了显著的改进。使用了 DiNA 的大型模型速度更快，在公开数据集 COCO 的目标检测中领先 Swin 模型 1.5% box AP，在实例分割中超过 1.3% mask AP。

An illustration of DiNAT’s architecture.

分层结构的 Transformer 模型通常采用局部注意机制，例如滑动窗口 NA 或 Swin Transformer 的 Shifted Window Self Attention。虽然该策略有效地降低了自注意力的二次复杂度，但局部注意力削弱了自注意力的两个最理想的特性：远程相互依赖建模和全局感受野。因此 DiNAT 首先将输入下采样到原始空间分辨率的四分之一，并通过 4 级 DiNA Transformer 编码器发送它们。特征图被下采样到其空间大小的一半，并在级别之间的通道中加倍。DiNAT 层与大多数 Transformer 相似，模型会每隔一层在局部 NA 和稀疏全局 DiNA 之间切换。

相关资料：

代码地址：https://github.com/SHI-Labs/Neighborhood-Attention-Transformer
论文链接：Dilated Neighborhood Attention Transformer
更多资料：Dilated Neighborhood Attention Transformer

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Transformer 再添一员，比 Swin 更强的 DiNAT

.NET有哪些好用的定时任务调度框架

Python 将PDF转为PDF/A、PDF/X，以及PDF/A转回PDF

elk3

Kafka存储机制

aws语音呼叫调用，告警电话

深度学习框架火焰图pprof和CUDA Nsys配置指南

爬虫两种绕过5s盾的方法

【转】[C#] WebAPI 防止并发调用二（冥等性）

【转】[SQL Server]关掉 SSMS 的 IntelliSense

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

win11 安裝sv獨立客戶或其他vpn軟件導致藍屏問題

以全要素數據資產連接爲核心的數據治理與運營

LoRA微調語言大模型的實用技巧與實踐

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

HBase Meta 元信息表修復實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結