使用MergeKit創建自己的專家混合模型:將多個模型組合成單個MoE

由於Mixtral的發佈,專家混合(MoE)架構在最近幾個月變得流行起來。雖然Mixtral和其他MoE架構是從頭開始預訓練的,但最近出現了另一種創建MoE的方法:Arcee的MergeKit庫可以通過集成幾個預訓練模型來創建moe。這些人通常被稱爲frankenMoEs或MoErges,以區別於預先訓練的MoEs。

在本文中,我們將詳細介紹MoE架構是如何工作的,以及如何創建frankenmoe。最後將用MergeKit製作自己的frankenMoE,並在幾個基準上對其進行評估。

 

https://avoid.overfit.cn/post/b3588f09e1794b3f8edde5a07b2c270a

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章