PiSSA :將模型原始權重進行奇異值分解的一種新的微調方法

我們開始看4月的新論文了,這是來自北京大學人工智能研究所、北京大學智能科學與技術學院的研究人員發佈的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。

PiSSA和LoRA一樣,都是基於這樣的前提:對模型參數的改變會形成一個低秩矩陣。

這種方法通過將模型中的矩陣表示爲兩個可訓練矩陣的乘積,輔以一個用於錯誤校正的殘差矩陣,優化了緊湊的參數空間。利用奇異值分解(SVD),PiSSA初始化主奇異值和奇異向量以訓練這兩個矩陣,同時在微調過程中保持殘差矩陣靜態。

PiSSA與LoRA的架構相一致,繼承了諸如可訓練參數減少、輕鬆部署等好處。但是與LoRA不同,使用PiSSA進行微調的過程與完整模型過程相似,會避免無效的梯度步驟和次優結果。

在LLaMA 2-7B、Mistral-7B-v0.1和Gemma-7B模型的多個任務的比較實驗中,PiSSA憑藉卓越的表現脫穎而出。以主奇異值和向量初始化的微調適配器產生了更好的結果。

 

https://avoid.overfit.cn/post/33c2c6c983364b629c1e01479836bacc

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章