如果你一直在關注大型語言模型的架構,你可能會在最新的模型和研究論文中看到“SwiGLU”這個詞。SwiGLU可以說是在大語言模型中最常用到的激活函數,我們本篇文章就來對他進行詳細的介紹。SwiGLU其實是2020年穀歌提出的激活函數,它結合了SWISH和GLU兩者的特點。
我們一個一個來介紹:
https://avoid.overfit.cn/post/984f034bb67e4353ad2cf358d1e38f2e
如果你一直在關注大型語言模型的架構,你可能會在最新的模型和研究論文中看到“SwiGLU”這個詞。SwiGLU可以說是在大語言模型中最常用到的激活函數,我們本篇文章就來對他進行詳細的介紹。SwiGLU其實是2020年穀歌提出的激活函數,它結合了SWISH和GLU兩者的特點。
我們一個一個來介紹:
https://avoid.overfit.cn/post/984f034bb67e4353ad2cf358d1e38f2e
https://blog.csdn.net/u013129300/article/details/129329786