LSTM 又回来了！新论文使用LSTM挑战长序列建模的 ViT

原創

2022-05-12 13:04

不到两年的时间ViT 已经彻底改变了计算机视觉领域，利用transformers 强大的自注意机制来替代卷积，最近诸如 MLP-Mixer 和通过精心设计的卷积神经网络 (CNN) 等方法也已经实现了与 ViT 相当的性能。

在新论文 Sequencer: Deep LSTM for Image Classification 中，来自Rikkyo University 和 AnyTech Co., Ltd. 的研究团队检查了不同归纳偏差对计算机视觉的适用性，并提出了 Sequencer，它是 ViT 的一种架构替代方案，它使用传统的LSTM而不是自注意力层。Sequencer 通过将空间信息与节省内存和节省参数的 LSTM 混合来降低内存成本，并在长序列建模上实现与 ViT 竞争的性能。

Sequencer 架构采用双向 LSTM (BiLSTM) 作为构建块，并受 Hou 等人的 2021 Vision Permutator (ViP) 启发，并行处理垂直轴和水平轴。研究人员引入了两个 BiLSTM，以实现上/下和左/右方向的并行处理，由于序列长度缩短，从而提高了 Sequencer 的准确性和效率，并产生了具有空间意义的感受野。

Sequencer 将不重叠的补丁作为输入，并将它们与特征图匹配。Sequencer 模块有两个子组件：1）BiLSTM 层可以全局地混合空间信息记忆2）用于通道混合的多层感知机（MLP）。与现有架构一样，最后一个块的输出通过全局平均池化层发送到线性分类器。

完整文章

https://avoid.overfit.cn/post/fda6031f019a46199c5730f27a4c0e8e

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

LSTM 又回来了！新论文使用LSTM挑战长序列建模的 ViT

如何在低代码平台中引用 JavaScript ？

探究职业发展的关键：能力模型解读

高效率使用windows

如何使用 JavaScript 获取当前页面帧率 FPS

工程款拖欠，农民工怎么了？就得一直忍着委屈求全吗？

HarmonyOS 实现下拉刷新，上拉加载更多

语音信号处理中的“窗函数”

智能决策新时代：可视化大屏是否能够超越传统白板？

解密Prompt系列28. LLM Agent之金融领域摸索：FinMem & FinAgent

分享几个.NET开源的AI和LLM相关项目框架

循環編碼:時間序列中週期性特徵的一種常用編碼方式

LSTM時間序列預測中的一個常見錯誤以及如何修正

LLM2Vec介紹和將Llama 3轉換爲嵌入模型代碼示例

BiTCN：基於卷積網絡的多元時間序列預測

整合文本和知識圖譜嵌入提升RAG的性能

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

LSTM 又回来了！ 新论文使用LSTM挑战长序列建模的 ViT

LSTM 又回来了！新论文使用LSTM挑战长序列建模的 ViT