爲什麼大型語言模型都在使用 SwiGLU 作爲激活函數?

如果你一直在關注大型語言模型的架構,你可能會在最新的模型和研究論文中看到“SwiGLU”這個詞。SwiGLU可以說是在大語言模型中最常用到的激活函數,我們本篇文章就來對他進行詳細的介紹。SwiGLU其實是2020年穀歌提出的激活函數,它結合了SWISH和GLU兩者的特點。

我們一個一個來介紹:

https://avoid.overfit.cn/post/984f034bb67e4353ad2cf358d1e38f2e

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章