RL的分类

原創

2020-07-07 08:10

文章目录

2.1 基于model-free的分类标准二

On-policy 和 Off-policy

RL算法的分类

1. 分类标准一

从“是否能对环境建模”出发，RL可以被划分为 Model-Free 和Model-Based.
二者之间的区别就是 agent能不能为环境建模，也就是去学习一个函数可以预测状态转移和收益。
如果我们为环境建模，那么agent就可以提前预测各种选择下的情况，并从这些预测过程中学到更多经验，再应用到实际行为中。最著名的就是AlphaZero的例子，在 sample efficiency 上优势显著。在这个例子中虽然我们可以知道对手所有可能的环境，但并不知道对手真正会走到哪个位置。因此，可以把对手的策略想象成环境的状态转移概率。

样本使用率
每一次策略发生变化，是否要丢弃前面产生的样本。如果是agent和环境交互，耗时很长，所以每次丢弃大量样本是不划算。

Model-Based很明显的缺点就是建模很困难。就是variance和bias之间的关系，而且学习成本也非常大。

Model-Free就不用关注那么多了，实现起来更容易，被应用的更广泛。

2. 分类标准二

从“学习目标”出发，RL可以被划分为学习policy,学习状态值函数，学习值函数，学习环境。

2.1 基于model-free的分类标准二

Policy Optimization

即RL的目标是学到一种最优策略，记为 $\pi_{\theta}(a|s)$ . 学习方式有两种，一种是直接通过梯度求得最优参数（对 $J(\pi_{\theta})$ 求导），另一种是求得 $J(\pi_{\theta})$ 的局部最大值。？？
这两种优化方法都要使用On-Policy的方法进行，就是只利用最新policy下的行为作为样本。

具体的优化算法包括A2C / A3C,, PPO

Q-Learning

即RL的目标是学到一种最优值函数，记为 $Q_{\theta}(s, a)$ .之前说过，值函数可以通过递归的形式表示。假设值函数已经稳定，任意一个状态的价值可以由其他状态的价值得到，即可以用贝尔曼公式表示。这类函数的优化方式是基于off-policy的，即每次更新时使用的样本不受时间约束。Q-Learning在下一时刻选择了使价值算法最大的行动。

$a(s)=\arg \max _{a} Q_{\theta}(s, a)$

具体的Q-learning算法包括：DQN、C51

On-policy 和 Off-policy

所谓的同策略（on-policy）和异策略（off-policy）是指：

同策略：是指产生数据的策略与评估和改善的策略是同一个策略。比如使用贪婪策略采样，
异策略：是指产生数据的策略与评估和改善的策略不是同一个策略。

注释

产生数据的策略评估是指采样的方法；
评估策略是指如何计算动作值函数；
改善策略是指得到一个更好的策略 $\pi(a|s)$

这两种策略评估方式有各自对应的策略算法。前者对值函数的更新是完全依据交互序列进行的，我们在计算时认为价值可以直接使用采样的序列估计得到。后者在更新值函数时并不完全遵循交互序列，而是选择来自其他策略的交互序列的子部分替换了原本的交互序列。Q-learning的思想更复杂，它结合了子部分的最优价值，更像是结合了价值迭代的更新算法，希望每一次都使用前面迭代积累的最优结果进行更新。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

RL的分类

文章目录

RL算法的分类

1. 分类标准一

2. 分类标准二

2.1 基于model-free的分类标准二

Policy Optimization

Q-Learning

On-policy 和 Off-policy

SQL优化-20231016

RL的分類

RL中的關鍵概念

源碼閱讀-CVAE模型

CH2-NLG應用之【機器翻譯non-auto-regressive版】

閱讀筆記-ShowandTell

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結