【学习笔记】PPO(Proximal Policy Optimization) - 李宏毅

原創

左手Python右手R

2020-06-23 02:10

所谓PPO（ProximalPolicyOptimization），就是在策略梯度的基础上，使其可以具有Off-Policy的学习能力，同时保证动作执行者和学习者之间差距不要太大，稳扎稳打。

目录

1.Policy Gradient

增加一个衰减discount

2.PPO(ProximalPolicyOptimization)

参考：

李宏毅深度强化学习(国语)课程(2018)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度强化学习系列(5): Double Q-Learning原理详解

論文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文由DeepMind發表於2015年NIPS的一篇論文，作者Hasselt。前言： Q-Lear

2020-07-03 21:00:41

深度强化学习系列: 最全深度强化学习资料

關於這項工作: 本工作是一項由深度強化學習實驗室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)發起的項目。文章同步於Github倉庫： https://github.c

2020-07-03 21:00:41

深度强化学习系列之(13): 深度强化学习实验中应该使用多少个随机种子？

How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments 前言不斷檢

2020-07-03 21:00:41

深度强化学习系列(15): TRPO算法原理及Tensorflow实现

深入淺出理解TRPO算法1、論文思想與原理1.1 Surrogate function(替代函數)1.2 目標函數1.3 一階近似： L函數1.3.1 技巧一：一階近似1.3.2 重要性採樣1.3.3 步長的選擇1.4 單調遞增

2020-07-03 21:00:41

深度强化学习系列(4): Q-Learning原理与实现

論文地址： http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based，且model-free的特別經典的off-p

2020-07-03 21:00:41

深度强化学习系列(7): Double DQN(DDQN)原理及实现

論文地址： https://arxiv.org/pdf/1509.06461.pdf 本文是Google DeepMind於2015年12月提出的一篇解決Q值"過估計(overestimate)"的文章，發表在頂級會議AAAI

2020-07-03 21:00:36

深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现

論文地址： https://arxiv.org/abs/1511.05952 本論文是由DeepMind操刀，Schaul主導完成的文章，發表於頂會ICLR2016上，主要解決經驗回放中的”採樣問題“（在DQN算法中使用了經典

2020-07-03 21:00:36

深度强化学习系列(10): NoisyNet-DQN原理及实现

論文地址： https://arxiv.org/pdf/1706.10295v1.pdf 本篇論文是DeepMind發表於頂會ICLR2018上的論文，第一作者Meire，裏面也有熟悉的Mnih等大佬，還是往常的閱讀順序：本

2020-07-03 21:00:36

深度强化学习－－第一讲

deep reinforcement learning deep: 能夠處理複雜的場景輸入以及計算真實複雜函數 reinforcement learning：能夠選擇複雜的actions 強化學習遇到的問題 * 人類可以快速學習

水的只能学

2020-07-02 23:02:41

强化学习(三）：马尔可夫决策过程MDP【下篇】

目錄馬爾可夫決策過程MDP： a Markov reward process with decisions 策略值函數 Bellman 期望公式 Bellman期望公式的矩陣形式最優值函數 Optimal Value Funct

2020-07-01 18:56:35

强化学习【三】：动态规划问题

·目錄 Policy Evaluation（策略評估） Iterative Policy Evaluation （迭代策略估計）例子：方格遊戲策略迭代 policy iteration 策略改進 Policy Improvement

2020-07-01 18:56:24

论文《Human-level control through deep reinforcement learning》PPT

前言由於實驗室要求每週PPT分享彙報，在這一過程中，體會到新手需要花費時間去整理論文思路，耗時較長，因此將相關PPT上傳，供有需要的遊客查閱。下載網址：Human-level.ppt …

2020-06-30 06:50:31

【深度学习】交叉熵方法

文章目錄前言第四章交叉熵方法強化學習方法的分類實用的交叉熵交叉熵法實踐：玩CartPole小遊戲交叉熵的理論背景總結前言重讀《Deep Reinforcemnet Learning Hands-on》，常讀常新，極其深入

B417科研笔记

2020-06-29 21:54:33

1. 2020年DeepMind＆UCL_深度学习讲座_机器学习和AI入门

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門在此講座中，DeepMind研究科學家和UCL教授Thore Graepel解釋了DeepMind基於機器學習的AI方法。他舉例說明了如何結合使用

守望者白狼

2020-06-26 18:07:48

深度强化学习（资源篇）（更新于2020.06.9）

理論 ICLR2020 || 106篇深度強化學習頂會論文彙總前沿技術 || UC Berkeley開源RAD來改進強化學習算法加速RL探索效率，CMU、谷歌、斯坦福提出以弱監督學習解糾纏表徵強化學習如何使用內在動機？邊做

守望者白狼

2020-06-26 18:07:37

24小時熱門文章

前端使用 Konva 实现可视化设计器（13）- 折线 - 最优路径应用【思路篇】

最新文章

最新評論文章