Large Language Models Are Semi-Parametric Reinforcement Learning Agents


發表時間: 2023 (NeurIPS 2023)
文章要點: 文章提出一個evolvable LLM-based agent框架REMEMBERER,主要思路是給大模型加一個experience memory存儲過去的經驗,然後用Q-learning的方式計算Q值,再根據任務相似度採樣軌跡和對應的Q值作爲prompt指導LLM進一步選取動作和環境交互。這裏的Semi-Parametric Reinforcement Learning就指的experience memory可以用RL來計算Q值,evolvable就指的prompt可以通過這種交互的方式不斷演化。作者把這種更新方式叫做Reinforcement Learning with Experience Memory (RLEM)。並聲稱這種外部memory存儲的方式可以利用不同任務的經驗,而且可以達到長期記憶的效果。下面這個示意圖有點太冗餘了,主要區別就是memory合成一個了。

然後具體方法很簡單,LLM和環境交互得到觀測和獎勵,存到memory裏面,

其實還應該有reward,圖3裏面沒有強調。然後用貝爾曼最優公式更新Q值

如果來了一個新的(任務-狀態-動作)對,那就直接賦值爲Q,

否則就加權更新

實際中Q的計算用的是Monte Carlo return。
然後使用軌跡的時候,結合任務相似度和觀測相似度設計一個度量指標

針對每個不同的任務設計了不同的相似度計算方式,然後採樣m條最相思的軌跡作爲prompt。整個方法就結束了。
總結:很簡單的方法,也make sense。
不過有種LLM套RL殼子的感覺。比如實驗的兩個環境WebShop和WikiHow最大步長都是5,其實太短了。而且WebShop沒有中間reward,所有這個Q其實並不能stitch。而且memory的存儲方式看起來RL並沒有用網絡擬合,只是一個Q table,很難利用RL的policy improvement和泛化能力。總得來說,主要就是記住了之前的軌跡的獎勵,RL其實大概率沒影響。
然後相似度的設計要具體任務具體設計,就不太通用了。
疑問:無。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章