台部落initial

發表時間：2024 文章要點：文章對LLM增強強化學習（LLM-enhanced RL）的現有文獻進行了總結。在agent-environment交互的範式下，討論LLM對RL算法的幫助。文章先給出LLM-enhanced RL的概念：

2024-05-24 13:33:15

發表時間：2024(ICLR 2024) 文章要點：文章提出Retroformer,用策略梯度的方式調優prompt，更好的利用環境的reward。大體思路是學習一個retrospective LLM，將之前的軌跡和得分作爲輸入，得到一個

2024-05-14 13:32:28

發表時間：2023(ICLR 2023) 文章要點：文章提出一個簡單有效的ReAct框架，將reasoning和action結合，在交互式的環境上進行測試，取得了很好的效果。其中reasoning作爲推理模塊，幫助模型歸納，跟蹤和更新動作規

2024-05-05 13:32:27

發表時間：2023(NeurIPS 2023) 文章要點：文章提出Reflexion框架，通過交互的方式獲得反饋，並變成細緻的語言feedback的形式作爲下一輪的prompt，以此強化language agents的能力，同時避免了更新

2024-04-30 13:32:30

發表時間： 2023 (NeurIPS 2023) 文章要點：文章提出一個evolvable LLM-based agent框架REMEMBERER，主要思路是給大模型加一個experience memory存儲過去的經驗，然後用Q-l

2024-04-25 13:39:12

發表時間：2020 文章要點：這篇文章主要介紹當前offline RL的研究進展，可能的問題以及一些解決方法。作者先介紹了強化學習的準備知識，比如policy gradients，Approximate dynamic programm

2024-03-04 13:33:11

發表時間：2021(IEEE Transactions on Neural Networks and Learning Systems) 文章要點：這篇文章提出一個新的experience replay的方法，improved SAC (

2024-03-01 13:35:45

發表時間：2018(Neural Processing Letters 2019) 文章要點：這篇文章認爲之前的experience replay的方法比如PER沒有將transition的分佈情況考慮在內，於是提出一個新的experie

2024-02-24 13:32:44

發表時間：2021(ICML 2022) 文章要點：這篇文章把experience replay看做一個通過importance sampling來估計梯度的問題，從理論上推導經驗回放的最優採樣分佈，然後提出LaBER (Large Ba

2024-02-17 13:32:24

發表時間：2019 (NeurIPS 2019) 文章要點：這篇文章提出Episodic Backward Update (EBU)算法，採樣一整條軌跡，然後從後往前依次更新做experience replay，這種方法對稀疏和延遲迴報的

2024-02-11 13:32:19

發表時間：2020 文章要點：這篇文章提出LFIW算法用likelihood作爲experience的採樣權重（likelihood-free density ratio estimator），reweight experiences b

2023-08-14 13:32:28

發表時間：2019 (IJCAI 2019) 文章要點：這篇文章提出experience replay optimization (ERO)算法，通過learning a replay policy來採樣，相對於rule-based re

2023-07-31 13:32:40

發表時間：2016（IROS 2016）文章要點：這篇文章提出了experience replay方法的改進，讓experience的分佈介於當前policy和均勻分佈之間，作者做實驗發現這個時候的效果是最好的（the ideal di

2023-07-29 13:32:25

發表時間：2015（Deep Reinforcement Learning Workshop, NIPS 2015）文章要點：這篇文章基於DDPG探索了buffer裏面experience的組成對性能的影響。一個重要的觀點是，次優的經驗

2023-07-27 13:32:29

發表時間：2018（AAAI 2018）文章要點：這篇文章想解決強化學習在學多個任務時候的遺忘問題。作者提出了一種對通常的experience replay增廣的方式，就是在保持之前的buffer的同時，再維持一個buffer用來存少部

2023-07-26 13:32:31