ORPO偏好優化:性能和DPO一樣好並且更簡單的對齊方法

現在有許多方法可以使大型語言模型(LLM)與人類偏好保持一致。以人類反饋爲基礎的強化學習(RLHF)是最早的方法之一,並促成了ChatGPT的誕生,但RLHF的成本非常高。與RLHF相比,DPO、IPO和KTO的成本明顯更低,因爲它們不需要獎勵模型。

雖然DPO和IPO的成本較低,但它們仍需訓練兩個不同的模型。首先是監督微調(SFT)步驟,即訓練模型按指令回答問題,然後使用SFT模型作爲初始化和參考,以使模型與人類偏好一致。

ORPO是另一種新的LLM對齊方法,這種方法甚至不需要SFT模型。通過ORPO,LLM可以同時學習回答指令和滿足人類偏好。

在本文中,我將解釋ORPO並介紹其相關的內容,最後將展示如何使用消費級硬件將Mistral 7B轉換爲聊天模型。

 

https://avoid.overfit.cn/post/100de526ac3c4ba2b01f591ba6d0e435

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章