使用GaLore在本地GPU進行高效的LLM調優

訓練大型語言模型(llm),即使是那些“只有”70億個參數的模型,也是一項計算密集型的任務。這種水平的訓練需要的資源超出了大多數個人愛好者的能力範圍。爲了彌補這一差距,出現了低秩適應(LoRA)等參數高效方法,可以在消費級gpu上對大量模型進行微調。

GaLore是一種新的方法,它不是通過直接減少參數的數量,而是通過優化這些參數的訓練方式來降低VRAM需求,也就是說GaLore是一種新的模型訓練策略,可讓模型使用全部參數進行學習,並且比LoRA更省內存。

GaLore將這些梯度投影到低秩空間上,顯著減少了計算負荷,同時保留了訓練所需的基本信息。與傳統的優化器在反向傳播後同時更新所有層的方法不同,GaLore在反向傳播期間實現逐層更新。這種方法進一步減少了整個訓練過程中的內存佔用。

就像LoRA一樣,GaLore可以讓我們在具有24 GB VRAM的消費級GPU上微調7B模型。結果模型的性能與全參數微調相當,並且似乎優於LoRA。

優於目前Hugging Face還沒有官方代碼,我們就來手動使用論文的代碼進行訓練,並與LoRA進行對比

https://avoid.overfit.cn/post/0b15de8db27040f0abcaa7e554b0b993

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章