Large Language Models Are Semi-Parametric Reinforcement Learning Agents

原創

2024-04-25 13:39

發表時間： 2023 (NeurIPS 2023)
文章要點： 文章提出一個evolvable LLM-based agent框架REMEMBERER，主要思路是給大模型加一個experience memory存儲過去的經驗，然後用Q-learning的方式計算Q值，再根據任務相似度採樣軌跡和對應的Q值作爲prompt指導LLM進一步選取動作和環境交互。這裏的Semi-Parametric Reinforcement Learning就指的experience memory可以用RL來計算Q值，evolvable就指的prompt可以通過這種交互的方式不斷演化。作者把這種更新方式叫做Reinforcement Learning with Experience Memory (RLEM)。並聲稱這種外部memory存儲的方式可以利用不同任務的經驗，而且可以達到長期記憶的效果。下面這個示意圖有點太冗餘了，主要區別就是memory合成一個了。

然後具體方法很簡單，LLM和環境交互得到觀測和獎勵，存到memory裏面，

其實還應該有reward，圖3裏面沒有強調。然後用貝爾曼最優公式更新Q值

如果來了一個新的（任務-狀態-動作）對，那就直接賦值爲Q，

否則就加權更新

實際中Q的計算用的是Monte Carlo return。
然後使用軌跡的時候，結合任務相似度和觀測相似度設計一個度量指標

針對每個不同的任務設計了不同的相似度計算方式，然後採樣m條最相思的軌跡作爲prompt。整個方法就結束了。
總結：很簡單的方法，也make sense。
不過有種LLM套RL殼子的感覺。比如實驗的兩個環境WebShop和WikiHow最大步長都是5，其實太短了。而且WebShop沒有中間reward，所有這個Q其實並不能stitch。而且memory的存儲方式看起來RL並沒有用網絡擬合，只是一個Q table，很難利用RL的policy improvement和泛化能力。總得來說，主要就是記住了之前的軌跡的獎勵，RL其實大概率沒影響。
然後相似度的設計要具體任務具體設計，就不太通用了。
疑問：無。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結