Large Language Models Are Semi-Parametric Reinforcement Learning Agents

原創

2024-04-25 13:39

发表时间： 2023 (NeurIPS 2023)
文章要点： 文章提出一个evolvable LLM-based agent框架REMEMBERER，主要思路是给大模型加一个experience memory存储过去的经验，然后用Q-learning的方式计算Q值，再根据任务相似度采样轨迹和对应的Q值作为prompt指导LLM进一步选取动作和环境交互。这里的Semi-Parametric Reinforcement Learning就指的experience memory可以用RL来计算Q值，evolvable就指的prompt可以通过这种交互的方式不断演化。作者把这种更新方式叫做Reinforcement Learning with Experience Memory (RLEM)。并声称这种外部memory存储的方式可以利用不同任务的经验，而且可以达到长期记忆的效果。下面这个示意图有点太冗余了，主要区别就是memory合成一个了。

然后具体方法很简单，LLM和环境交互得到观测和奖励，存到memory里面，

其实还应该有reward，图3里面没有强调。然后用贝尔曼最优公式更新Q值

如果来了一个新的（任务-状态-动作）对，那就直接赋值为Q，

否则就加权更新

实际中Q的计算用的是Monte Carlo return。
然后使用轨迹的时候，结合任务相似度和观测相似度设计一个度量指标

针对每个不同的任务设计了不同的相似度计算方式，然后采样m条最相思的轨迹作为prompt。整个方法就结束了。
总结：很简单的方法，也make sense。
不过有种LLM套RL壳子的感觉。比如实验的两个环境WebShop和WikiHow最大步长都是5，其实太短了。而且WebShop没有中间reward，所有这个Q其实并不能stitch。而且memory的存储方式看起来RL并没有用网络拟合，只是一个Q table，很难利用RL的policy improvement和泛化能力。总得来说，主要就是记住了之前的轨迹的奖励，RL其实大概率没影响。
然后相似度的设计要具体任务具体设计，就不太通用了。
疑问：无。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

如何使用 JS 判断用户是否处于活跃状态

Mono 支持LoongArch架构

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結