強化學習 9: 當 Action 的空間連續時

如果 Action 的空間不是離散的而是連續的時候要怎麼做呢?

之前騎自行車的例子中,action 可以是向左或者向右,現在的話可能是一個實數值的區間。

例如在機器人控制中就經常是這樣的情況,我們通過電機控制着 agent 的所有關節還有四肢,而電機又由電壓控制,電壓就可以選擇一定範圍的值。

這個時候就不能再用一個神經元代表1個action,再用 softmax 進行分類了。

那麼如何用神經網絡來處理這種連續空間的問題呢?一種方案是直接做迴歸,也是最明顯的一種方式,即可以用 scikit learn 裏面的迴歸模型,目標是最小化損失函數 MSE。

或者可以預測 action 空間的正態分佈。即我們要預測採取某個 action 的概率,這個概率是服從一個正態分佈的,方差爲 1。 這時可以用迴歸模型或者神經網絡訓練。

後面文章中會通過代碼來具體看如何做。

Practical Reinforcement Learning

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章