Hierarchy_RL

0 爲了應對Sparse Reward,

高層agent老師設置目標, 低層agent學生去完成它

如果低一層的agent沒法達到目標,那麼高一層的agent會受到懲罰(高層agent將自己的願景傳達給底層agent)
如果一個agent到了一個錯誤的目標,那就假設最初的目標本來就是這個錯誤的目標(保證已經實現的成果不被浪費)
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章