Large Language Models Are Semi-Parametric Reinforcement Learning Agents


发表时间: 2023 (NeurIPS 2023)
文章要点: 文章提出一个evolvable LLM-based agent框架REMEMBERER,主要思路是给大模型加一个experience memory存储过去的经验,然后用Q-learning的方式计算Q值,再根据任务相似度采样轨迹和对应的Q值作为prompt指导LLM进一步选取动作和环境交互。这里的Semi-Parametric Reinforcement Learning就指的experience memory可以用RL来计算Q值,evolvable就指的prompt可以通过这种交互的方式不断演化。作者把这种更新方式叫做Reinforcement Learning with Experience Memory (RLEM)。并声称这种外部memory存储的方式可以利用不同任务的经验,而且可以达到长期记忆的效果。下面这个示意图有点太冗余了,主要区别就是memory合成一个了。

然后具体方法很简单,LLM和环境交互得到观测和奖励,存到memory里面,

其实还应该有reward,图3里面没有强调。然后用贝尔曼最优公式更新Q值

如果来了一个新的(任务-状态-动作)对,那就直接赋值为Q,

否则就加权更新

实际中Q的计算用的是Monte Carlo return。
然后使用轨迹的时候,结合任务相似度和观测相似度设计一个度量指标

针对每个不同的任务设计了不同的相似度计算方式,然后采样m条最相思的轨迹作为prompt。整个方法就结束了。
总结:很简单的方法,也make sense。
不过有种LLM套RL壳子的感觉。比如实验的两个环境WebShop和WikiHow最大步长都是5,其实太短了。而且WebShop没有中间reward,所有这个Q其实并不能stitch。而且memory的存储方式看起来RL并没有用网络拟合,只是一个Q table,很难利用RL的policy improvement和泛化能力。总得来说,主要就是记住了之前的轨迹的奖励,RL其实大概率没影响。
然后相似度的设计要具体任务具体设计,就不太通用了。
疑问:无。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章