原创 Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

發表時間:2024 文章要點:文章對LLM增強強化學習(LLM-enhanced RL)的現有文獻進行了總結。在agent-environment交互的範式下,討論LLM對RL算法的幫助。 文章先給出LLM-enhanced RL的概念:

原创 RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

發表時間:2024(ICLR 2024) 文章要點:文章提出Retroformer,用策略梯度的方式調優prompt,更好的利用環境的reward。大體思路是學習一個retrospective LLM,將之前的軌跡和得分作爲輸入,得到一個

原创 REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

發表時間:2023(ICLR 2023) 文章要點:文章提出一個簡單有效的ReAct框架,將reasoning和action結合,在交互式的環境上進行測試,取得了很好的效果。其中reasoning作爲推理模塊,幫助模型歸納,跟蹤和更新動作規

原创 Reflexion: Language Agents with Verbal Reinforcement Learning

發表時間:2023(NeurIPS 2023) 文章要點:文章提出Reflexion框架,通過交互的方式獲得反饋,並變成細緻的語言feedback的形式作爲下一輪的prompt,以此強化language agents的能力,同時避免了更新

原创 Large Language Models Are Semi-Parametric Reinforcement Learning Agents

發表時間: 2023 (NeurIPS 2023) 文章要點: 文章提出一個evolvable LLM-based agent框架REMEMBERER,主要思路是給大模型加一個experience memory存儲過去的經驗,然後用Q-l

原创 Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

發表時間:2020 文章要點:這篇文章主要介紹當前offline RL的研究進展,可能的問題以及一些解決方法。 作者先介紹了強化學習的準備知識,比如policy gradients,Approximate dynamic programm

原创 Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

發表時間:2021(IEEE Transactions on Neural Networks and Learning Systems) 文章要點:這篇文章提出一個新的experience replay的方法,improved SAC (

原创 State Distribution-aware Sampling for Deep Q-learning

發表時間:2018(Neural Processing Letters 2019) 文章要點:這篇文章認爲之前的experience replay的方法比如PER沒有將transition的分佈情況考慮在內,於是提出一個新的experie

原创 Large Batch Experience Replay

發表時間:2021(ICML 2022) 文章要點:這篇文章把experience replay看做一個通過importance sampling來估計梯度的問題,從理論上推導經驗回放的最優採樣分佈,然後提出LaBER (Large Ba

原创 Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update

發表時間:2019 (NeurIPS 2019) 文章要點:這篇文章提出Episodic Backward Update (EBU)算法,採樣一整條軌跡,然後從後往前依次更新做experience replay,這種方法對稀疏和延遲迴報的

原创 Experience Replay with Likelihood-free Importance Weights

發表時間:2020 文章要點:這篇文章提出LFIW算法用likelihood作爲experience的採樣權重(likelihood-free density ratio estimator),reweight experiences b

原创 Experience Replay Optimization

發表時間:2019 (IJCAI 2019) 文章要點:這篇文章提出experience replay optimization (ERO)算法,通過learning a replay policy來採樣,相對於rule-based re

原创 Improved deep reinforcement learning for robotics through distribution-based experience retention

發表時間:2016(IROS 2016) 文章要點:這篇文章提出了experience replay方法的改進,讓experience的分佈介於當前policy和均勻分佈之間,作者做實驗發現這個時候的效果是最好的(the ideal di

原创 The importance of experience replay database composition in deep reinforcement learning

發表時間:2015(Deep Reinforcement Learning Workshop, NIPS 2015) 文章要點:這篇文章基於DDPG探索了buffer裏面experience的組成對性能的影響。一個重要的觀點是,次優的經驗

原创 Selective Experience Replay for Lifelong Learning

發表時間:2018(AAAI 2018) 文章要點:這篇文章想解決強化學習在學多個任務時候的遺忘問題。作者提出了一種對通常的experience replay增廣的方式,就是在保持之前的buffer的同時,再維持一個buffer用來存少部