LSTM 又回來了! 新論文使用LSTM挑戰長序列建模的 ViT

不到兩年的時間ViT 已經徹底改變了計算機視覺領域,利用transformers 強大的自注意機制來替代卷積,最近諸如 MLP-Mixer 和通過精心設計的卷積神經網絡 (CNN) 等方法也已經實現了與 ViT 相當的性能。

在新論文 Sequencer: Deep LSTM for Image Classification 中,來自Rikkyo University 和 AnyTech Co., Ltd. 的研究團隊檢查了不同歸納偏差對計算機視覺的適用性,並提出了 Sequencer,它是 ViT 的一種架構替代方案,它使用傳統的LSTM而不是自注意力層。Sequencer 通過將空間信息與節省內存和節省參數的 LSTM 混合來降低內存成本,並在長序列建模上實現與 ViT 競爭的性能。

Sequencer 架構採用雙向 LSTM (BiLSTM) 作爲構建塊,並受 Hou 等人的 2021 Vision Permutator (ViP) 啓發,並行處理垂直軸和水平軸。研究人員引入了兩個 BiLSTM,以實現上/下和左/右方向的並行處理,由於序列長度縮短,從而提高了 Sequencer 的準確性和效率,併產生了具有空間意義的感受野。

Sequencer 將不重疊的補丁作爲輸入,並將它們與特徵圖匹配。Sequencer 模塊有兩個子組件:1)BiLSTM 層可以全局地混合空間信息記憶2)用於通道混合的多層感知機(MLP)。與現有架構一樣,最後一個塊的輸出通過全局平均池化層發送到線性分類器。

 完整文章
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章