文章目录
RL算法的分类
1. 分类标准一
从“是否能对环境建模”出发,RL可以被划分为 Model-Free
和Model-Based
.
二者之间的区别就是 agent能不能为环境建模,也就是去学习一个函数可以预测状态转移和收益。
如果我们为环境建模,那么agent就可以提前预测各种选择下的情况,并从这些预测过程中学到更多经验,再应用到实际行为中。最著名的就是AlphaZero
的例子,在 sample efficiency
上优势显著。在这个例子中虽然我们可以知道对手所有可能的环境,但并不知道对手真正会走到哪个位置。因此,可以把对手的策略想象成环境的状态转移概率。
样本使用率
每一次策略发生变化,是否要丢弃前面产生的样本。如果是agent和环境交互,耗时很长,所以每次丢弃大量样本是不划算。
Model-Based
很明显的缺点就是建模很困难。就是variance和bias之间的关系,而且学习成本也非常大。
Model-Free
就不用关注那么多了,实现起来更容易,被应用的更广泛。
2. 分类标准二
从“学习目标”出发,RL可以被划分为学习policy
,学习状态值函数,学习值函数,学习环境。
2.1 基于model-free的分类标准二
Policy Optimization
即RL的目标是学到一种最优策略,记为 . 学习方式有两种,一种是直接通过梯度求得最优参数(对 求导),另一种是求得 的局部最大值。??
这两种优化方法都要使用On-Policy
的方法进行,就是只利用最新policy下的行为作为样本。
具体的优化算法包括A2C / A3C,
, PPO
Q-Learning
即RL的目标是学到一种最优值函数,记为 .之前说过,值函数可以通过递归的形式表示。假设值函数已经稳定,任意一个状态的价值可以由其他状态的价值得到,即可以用贝尔曼公式表示。这类函数的优化方式是基于off-policy
的,即每次更新时使用的样本不受时间约束。Q-Learning在下一时刻选择了使价值算法最大的行动。
具体的Q-learning算法包括:DQN、C51
On-policy 和 Off-policy
所谓的同策略(on-policy)和异策略(off-policy)是指:
- 同策略:是指产生数据的策略与评估和改善的策略是同一个策略。比如使用贪婪策略采样,
- 异策略:是指产生数据的策略与评估和改善的策略不是同一个策略。
注释
- 产生数据的策略评估是指采样的方法;
- 评估策略是指如何计算动作值函数;
- 改善策略是指得到一个更好的策略
这两种策略评估方式有各自对应的策略算法。前者对值函数的更新是完全依据交互序列进行的,我们在计算时认为价值可以直接使用采样的序列估计得到。后者在更新值函数时并不完全遵循交互序列,而是选择来自其他策略的交互序列的子部分替换了原本的交互序列。Q-learning的思想更复杂,它结合了子部分的最优价值,更像是结合了价值迭代的更新算法,希望每一次都使用前面迭代积累的最优结果进行更新。