强化学习 9: 当 Action 的空间连续时

原創

2018-12-17 16:15

如果 Action 的空间不是离散的而是连续的时候要怎么做呢？

之前骑自行车的例子中，action 可以是向左或者向右，现在的话可能是一个实数值的区间。

例如在机器人控制中就经常是这样的情况，我们通过电机控制着 agent 的所有关节还有四肢，而电机又由电压控制，电压就可以选择一定范围的值。

这个时候就不能再用一个神经元代表1个action，再用 softmax 进行分类了。

那么如何用神经网络来处理这种连续空间的问题呢？一种方案是直接做回归，也是最明显的一种方式，即可以用 scikit learn 里面的回归模型，目标是最小化损失函数 MSE。

或者可以预测 action 空间的正态分布。即我们要预测采取某个 action 的概率，这个概率是服从一个正态分布的，方差为 1。这时可以用回归模型或者神经网络训练。

后面文章中会通过代码来具体看如何做。

Practical Reinforcement Learning

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.