强化学习 9: 当 Action 的空间连续时

如果 Action 的空间不是离散的而是连续的时候要怎么做呢?

之前骑自行车的例子中,action 可以是向左或者向右,现在的话可能是一个实数值的区间。

例如在机器人控制中就经常是这样的情况,我们通过电机控制着 agent 的所有关节还有四肢,而电机又由电压控制,电压就可以选择一定范围的值。

这个时候就不能再用一个神经元代表1个action,再用 softmax 进行分类了。

那么如何用神经网络来处理这种连续空间的问题呢?一种方案是直接做回归,也是最明显的一种方式,即可以用 scikit learn 里面的回归模型,目标是最小化损失函数 MSE。

或者可以预测 action 空间的正态分布。即我们要预测采取某个 action 的概率,这个概率是服从一个正态分布的,方差为 1。 这时可以用回归模型或者神经网络训练。

后面文章中会通过代码来具体看如何做。

Practical Reinforcement Learning

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章