RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

原創

2024-05-14 13:32

發表時間：2024(ICLR 2024)
文章要點：文章提出Retroformer,用策略梯度的方式調優prompt，更好的利用環境的reward。大體思路是學習一個retrospective LLM，將之前的軌跡和得分作爲輸入，得到一個新的prompt，這個prompt綜合分析了之前的經驗，從而提供一個更好的prompt。然後不斷和環境交互，用PPO訓練retrospective LLM。
具體的，整個架構包括Actor Model，Retrospective Model和Memory Module。
Actor Model是一個固定參數的LLM，用來輸入prompt生成動作。
Retrospective Model用來根據之前的經驗生成新的prompt（Its primary function is to produce self-reflections, offering valuable feedback for diagnosing a possible reason for prior failure and devising a new, concise, high-level plan that aims to mitigate same failure.）。
Memory Module存儲長短時記憶。其中Short-term memory指當前episode，Long-term memory指Retrospective Model輸出的總結了之前的失敗經驗的prompt。
Retrospective Model的訓練如下圖所示，每次生成多條軌跡並打分，再用PPO訓練更新參數。

總結：還是有道理的，雖然還是在做prompt，不過總算看到一篇真正用了RL的了。
疑問：無。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京東二面：爲什麼Netty要造FastThreadLocal？

FastThreadLocal 從字面意義上來看，它是“Fast”+“ThreadLocal”的結合體，寓意爲快速的 ThreadLocal。那麼，問題來了，Netty 爲什麼要再造一個 FastThreadLocal？FastThread

Java中文社羣

2024-05-28 14:33:04

微信小程序預約視頻號直播

一、概述微信小程序提供了可以喚起預約視頻號直播彈窗的接口 reserveChannelsLive，該接口接收一個參數 noticeId，通過 getChannelsLiveNoticeInfo 接口獲取。因此，過程如下：查看視頻號 i

2024-05-28 14:22:23

公衆號5月C#/.NET熱文一覽

C#/.NET/.NET Core全面的學習、工作、面試指南知識庫轉眼之間維護DotNetGuide（C#/.NET/.NET Core學習、工作、面試指南知識庫）已經持續超過了三年多的時間，Commit提交數也超過900+，在前幾天Gi

2024-05-28 14:22:13

Spring Boot 3.3 正式發佈，王炸級更新，應用啓動速度直接起飛！

大家好，我是R哥。最新消息，Spring Boot 一次性發布了 3 個版本： 3.3.0 3.2.6 3.1.13 Spring Boot 3.3 正式發佈了，3.1.x 在前幾天也停止維護了。最新的支持版本如下：從路線圖可以

2024-05-28 14:21:32

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

作者：l拉不拉米鏈接：https://juejin.cn/post/7031445206152577061 一、前言公司剛入職了一名中級Java開發，經過一個星期的適應學習，各方面表現還不錯，於是分配了一個小的迭代給新人做。需求很簡

2024-05-28 14:21:32

徹底搞清楚vue3的defineExpose宏函數是如何暴露方法給父組件使用

前言衆所周知，當子組件使用setup後，父組件就不能像vue2那樣直接就可以訪問子組件內的屬性和方法。這個時候就需要在子組件內使用defineExpose宏函數來指定想要暴露出去的屬性和方法。這篇文章來講講defineExpose宏函數是

你假裝沒察覺

2024-05-28 14:21:21

🔥 FolkMQ v1.5.1 發佈（“新式” 國產消息中間件）

FolkMQ 是個“新式”的消息中間件。強調：“小而巧”、“簡而強”。功能簡表角色功能生產者（客戶端）發佈普通消息、Qos0消息、定時消息、順序消息、可過期消息、事務消息、廣播消息消費者（客戶端）訂閱

2024-05-28 14:21:21

cv2讀取圖片中文路徑問題

https://blog.csdn.net/liuqinshouss/article/details/78696032

張博的博客

2024-05-28 14:20:01

盟軍敢死隊2官網

http://www.mj141319.imotor.com/index.php 裏面有盟軍敢死隊2 五百多關的下載. 需要一個一個安裝.

張博的博客

2024-05-28 14:20:01

git 下載大陸鏡像地址

https://github.com/waylau/git-for-win?tab=readme-ov-file

張博的博客

2024-05-28 14:20:01

win11休眠功能

https://www.sysgeek.cn/windows-11-hibernate/

張博的博客

2024-05-28 14:20:01

記一次 .NET某工控WPF程序被人惡搞的卡死分析

一：背景 1. 講故事這一期程序故障除了做原理分析，還順帶吐槽一下，熟悉我的朋友都知道我分析dump是免費的，但免費不代表可以濫用我的寶貴時間，我不知道有些人故意惡搞卡死是想幹嘛，不得而知，希望後面類似的事情越來越少吧！廢話不多說，我們來

2024-05-28 14:15:51

《最新出爐》系列入門篇-Python+Playwright自動化測試-48-Route類攔截修改請求-上篇

1.簡介在日常工作和學習中，自動化測試的時候：在加載頁面時，可能頁面出現很多不是很重要或者不是我們所關注的，這個時候我們就可以選擇不加載這些內容，以提高頁面加載速度，節省資源。例如：可能頁面上圖片比較多，而我們又不關心圖片內容。那麼，在

2024-05-28 14:14:40

使用阿里雲oss,同一個域名前端實現通過路徑區分來訪問多個不同的項目

前端存放在阿里雲oss上，域名cname解析到阿里雲cdn,cdn指向阿里雲oss存儲 oss中存放的相對目錄是這樣的： a項目代碼目錄/a項目靜態文文件 a項目代碼目錄/a項目首頁文件index.html a項目代碼目錄/b項

2024-05-28 14:14:00

C++文件/流

C++文件讀寫（文本文件/二進制文件）一、前言常見的文件類型可分爲兩種：文本文件和二進制文件。文本文件的閱讀相對容易，可以使用記事本/Notepad++/VS Code等應用程序直接打開閱覽；然而二進制文件由0/1序列組成，直接打卡二

2024-05-28 14:13:40

24小時熱門文章

最新文章

最新評論文章