使用ORPO微調Llama 3

ORPO是一種新的微調技術,它將傳統的監督微調和偏好對齊階段結合到一個過程中。減少了訓練所需的計算資源和時間。論文的實證結果表明,ORPO在各種模型大小和基準上都優於其他對齊方法,所以這次我們就來使用最新的Llama 3來測試下ORPO的效果。

我們將使用ORPO和TRL庫對新的Llama 3 8b模型進行微調。

 

https://avoid.overfit.cn/post/8391f00435a4486298edac0a8532fed9

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章