RL的分类

RL算法的分类

RL算法分类

1. 分类标准一

从“是否能对环境建模”出发,RL可以被划分为 Model-FreeModel-Based.
二者之间的区别就是 agent能不能为环境建模,也就是去学习一个函数可以预测状态转移和收益。
如果我们为环境建模,那么agent就可以提前预测各种选择下的情况,并从这些预测过程中学到更多经验,再应用到实际行为中。最著名的就是AlphaZero的例子,在 sample efficiency 上优势显著。在这个例子中虽然我们可以知道对手所有可能的环境,但并不知道对手真正会走到哪个位置。因此,可以把对手的策略想象成环境的状态转移概率。

样本使用率
每一次策略发生变化,是否要丢弃前面产生的样本。如果是agent和环境交互,耗时很长,所以每次丢弃大量样本是不划算。

Model-Based很明显的缺点就是建模很困难。就是variance和bias之间的关系,而且学习成本也非常大。

Model-Free就不用关注那么多了,实现起来更容易,被应用的更广泛。

2. 分类标准二

从“学习目标”出发,RL可以被划分为学习policy,学习状态值函数,学习值函数,学习环境。

2.1 基于model-free的分类标准二

Policy Optimization

即RL的目标是学到一种最优策略,记为 πθ(as)\pi_{\theta}(a|s). 学习方式有两种,一种是直接通过梯度求得最优参数(对 J(πθ)J(\pi_{\theta}) 求导),另一种是求得 J(πθ)J(\pi_{\theta}) 的局部最大值。??
这两种优化方法都要使用On-Policy的方法进行,就是只利用最新policy下的行为作为样本。

具体的优化算法包括A2C / A3C,, PPO

Q-Learning

即RL的目标是学到一种最优值函数,记为 Qθ(s,a)Q_{\theta}(s, a).之前说过,值函数可以通过递归的形式表示。假设值函数已经稳定,任意一个状态的价值可以由其他状态的价值得到,即可以用贝尔曼公式表示。这类函数的优化方式是基于off-policy的,即每次更新时使用的样本不受时间约束。Q-Learning在下一时刻选择了使价值算法最大的行动。

a(s)=argmaxaQθ(s,a) a(s)=\arg \max _{a} Q_{\theta}(s, a)

具体的Q-learning算法包括:DQN、C51

On-policy 和 Off-policy

所谓的同策略(on-policy)和异策略(off-policy)是指:

  • 同策略:是指产生数据的策略与评估和改善的策略是同一个策略。​比如使用贪婪策略采样,
  • 异策略:是指产生数据的策略与评估和改善的策略不是同一个策略。

注释

  1. 产生数据的策略评估是指采样的方法;
  2. 评估策略是指如何计算动作值函数;
  3. 改善策略是指得到一个更好的策略 π(as)\pi(a|s)

这两种策略评估方式有各自对应的策略算法。前者对值函数的更新是完全依据交互序列进行的,我们在计算时认为价值可以直接使用采样的序列估计得到。后者在更新值函数时并不完全遵循交互序列,而是选择来自其他策略的交互序列的子部分替换了原本的交互序列。Q-learning的思想更复杂,它结合了子部分的最优价值,更像是结合了价值迭代的更新算法,希望每一次都使用前面迭代积累的最优结果进行更新。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章