0 爲了應對Sparse Reward,
高層agent老師設置目標, 低層agent學生去完成它
如果低一層的agent沒法達到目標,那麼高一層的agent會受到懲罰(高層agent將自己的願景傳達給底層agent)
如果一個agent到了一個錯誤的目標,那就假設最初的目標本來就是這個錯誤的目標(保證已經實現的成果不被浪費)
如果低一層的agent沒法達到目標,那麼高一層的agent會受到懲罰(高層agent將自己的願景傳達給底層agent)
如果一個agent到了一個錯誤的目標,那就假設最初的目標本來就是這個錯誤的目標(保證已經實現的成果不被浪費)