強化學習 9: 當 Action 的空間連續時

原創

2018-12-17 16:15

如果 Action 的空間不是離散的而是連續的時候要怎麼做呢？

之前騎自行車的例子中，action 可以是向左或者向右，現在的話可能是一個實數值的區間。

例如在機器人控制中就經常是這樣的情況，我們通過電機控制着 agent 的所有關節還有四肢，而電機又由電壓控制，電壓就可以選擇一定範圍的值。

這個時候就不能再用一個神經元代表1個action，再用 softmax 進行分類了。

那麼如何用神經網絡來處理這種連續空間的問題呢？一種方案是直接做迴歸，也是最明顯的一種方式，即可以用 scikit learn 裏面的迴歸模型，目標是最小化損失函數 MSE。

或者可以預測 action 空間的正態分佈。即我們要預測採取某個 action 的概率，這個概率是服從一個正態分佈的，方差爲 1。這時可以用迴歸模型或者神經網絡訓練。

後面文章中會通過代碼來具體看如何做。

Practical Reinforcement Learning

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.