如果 Action 的空間不是離散的而是連續的時候要怎麼做呢?
之前騎自行車的例子中,action 可以是向左或者向右,現在的話可能是一個實數值的區間。
例如在機器人控制中就經常是這樣的情況,我們通過電機控制着 agent 的所有關節還有四肢,而電機又由電壓控制,電壓就可以選擇一定範圍的值。
這個時候就不能再用一個神經元代表1個action,再用 softmax 進行分類了。
那麼如何用神經網絡來處理這種連續空間的問題呢?一種方案是直接做迴歸,也是最明顯的一種方式,即可以用 scikit learn 裏面的迴歸模型,目標是最小化損失函數 MSE。
或者可以預測 action 空間的正態分佈。即我們要預測採取某個 action 的概率,這個概率是服從一個正態分佈的,方差爲 1。 這時可以用迴歸模型或者神經網絡訓練。
後面文章中會通過代碼來具體看如何做。
Practical Reinforcement Learning