ORPO偏好优化：性能和DPO一样好并且更简单的对齐方法

原創

2024-04-16 13:04

现在有许多方法可以使大型语言模型（LLM）与人类偏好保持一致。以人类反馈为基础的强化学习（RLHF）是最早的方法之一，并促成了ChatGPT的诞生，但RLHF的成本非常高。与RLHF相比，DPO、IPO和KTO的成本明显更低，因为它们不需要奖励模型。

虽然DPO和IPO的成本较低，但它们仍需训练两个不同的模型。首先是监督微调（SFT）步骤，即训练模型按指令回答问题，然后使用SFT模型作为初始化和参考，以使模型与人类偏好一致。

ORPO是另一种新的LLM对齐方法，这种方法甚至不需要SFT模型。通过ORPO，LLM可以同时学习回答指令和满足人类偏好。

在本文中，我将解释ORPO并介绍其相关的内容，最后将展示如何使用消费级硬件将Mistral 7B转换为聊天模型。

https://avoid.overfit.cn/post/100de526ac3c4ba2b01f591ba6d0e435

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Dokcer部署Kafka集群

docker網絡規劃 docker network create kafka-net --subnet 172.20.0.0/16 docker network ls zookeeper1（172.20.0.11 2184:2181

zer0black

2024-05-16 14:31:24

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

「Pygors系列」一句話導讀： MinGW-w64只有編譯器，MSYS2帶着更新環境，WSL2實用性比較高歷史與淵源 Windows平臺 Linux平臺二進制兼容 WSL2：運行Linux程序 Wine：運行Wi

windfic

2024-05-16 14:29:14

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

「Pygors系列」一句話導讀： Python、Go、Rust、C程序跨平臺GUI框架研究。一、問題 Pygors是什麼？ Pygors是我自己創造的一個詞，就是Python、Go、Rust、C四種語言的合體。目的是爲了跨平臺GUI應

windfic

2024-05-16 14:29:14

【Linux命令学习】lsof查看打开的文件

lsof： list open files 作用1：可查端口號被哪個進程佔用比如我們跑自動化，經常會遇到端口號被佔用，無法啓動driver lsof -i :8081 lsof 輸出的結果含義： fd：文件描述符的數字，通常是一個

金大鑫要堅持

2024-05-16 14:27:04

MacOS添加，查看，删除用户

1. 添加用戶在macOS中，可以通過命令行使用dscl（Directory Service command line utility）工具來添加用戶。以下是使用dscl添加用戶的步驟：打開終端：可以通過在Spotlight搜索中輸

金大鑫要堅持

2024-05-16 14:27:04

Flink执行图

Flink的代碼編寫流程爲env->source->transform->sink，基本所有的代碼都是大致按照圖1的流程進行代碼編寫，當然中間也會有一些封裝之類的。 Flink代碼寫好後，它的任務調度執行圖按照生成順序分爲:邏輯流圖(

人不瘋狂枉一生

2024-05-16 14:23:03

Garnet：微软官方基于.NET开源的高性能分布式缓存存储数据库

前言前不久Redis宣佈從 Redis 7.4 開始，將原先比較寬鬆的 BSD 源碼使用協議修改爲 RSALv2 和 SSPLv1 協議，該協議變化意味着Redis不再開源。今天給大家分享一款完全開源（MIT協議）、免費的Redis替代性

追逐時光

2024-05-16 14:22:03

nodejs学习07——API

接口一、簡介 1.1 接口是什麼接口是前後端通信的橋樑簡單理解：一個接口就是服務中的一個路由規則，根據請求響應結果接口的英文單詞是 API (Application Program Interface)，所以有時也稱之爲 AP

htj10

2024-05-16 14:21:53

nodejs学习06——小案例

記賬本

htj10

2024-05-16 14:21:53

🔥 Java Solon v2.7.6 发布

Java Solon 是什麼框架？ Java “新的”應用開發框架。開放原子開源基金會，孵化項目。從零開始構建（非 java-ee 架構），有靈活的接口規範與開放生態。追求：更快、更小、更簡單提倡：剋制、簡潔、高效、開放、生態

劉之西東

2024-05-16 14:21:13

Puppeteer！

什麼是Puppeteer Puppeteer 是一個由 Google 開發的 Node.js 庫，它提供了一組用於控制 Headless Chrome 的 API。 Headless Chrome 是 Chrome 瀏覽器的無界面版本，可以

CharyGao

2024-05-16 14:17:02

openstack虚拟机用keep alive添加的VIP，其它机器无法访问

neutron port-list |grep ipneutron port-update a7fbxxf6cc2 --allowed_address_pairs type=dict list=true ip_address=vipne

馬昌偉

2024-05-16 14:13:52

apisix~authz-keycloak插件介绍

參考：https://apisix.apache.org/docs/apisix/plugins/authz-keycloak/ kc插件源碼梳理及原理說明如果只是進行keycloak頒發的token進行校驗（簽名校驗和有效期校驗），

張佔嶺

2024-05-16 14:12:42

Dynamic-Datasource动态数据源

1、添加請求對應的數據源標籤 DynamicDataSourceContextHolder.push(ds); 2、添加數據源 3、動態添加數據源 private DynamicRoutingDataSource dataSo

擾擾

2024-05-16 14:12:02

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

至於任務調度這個基礎功能,重要性不言而喻,大多數業務系統都會用到,世面上有很多成熟的三方庫比如Quartz,Hangfire,Coravel 這裏我們不討論三方的庫如何使用而是從0開始自己製作一個簡易的任務調度,如果只是到分鐘級別的粒度基

萬雅虎

2024-05-16 14:04:41

24小時熱門文章

ORPO偏好优化：性能和DPO一样好并且更简单的对齐方法

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

ATFNet：長時間序列預測的自適應時頻集成網絡

時間序列預測:探索性數據分析和特徵工程的實用指南

Transformers 加速的一些常用技巧

You Only Cache Once:YOCO 基於Decoder-Decoder 的一個新的大語言模型架構

圖機器學習入門：基本概念介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結