論文筆記: Large-Scale Study of Curiosity-Driven Learning

一、總結

1、這裏的large-scale是指從不同方面來分析curiosity method的效果:

  • 利用什麼作爲intrinsic reward: dynamic error (prediction error), prediction uncertainty, improvement of a forward dynamics model.
  • 利用什麼作爲 feature encoder: Raw pixel, Random Feature (CNN), VAE, Inverse Dynamics Model
  • 試用的environment的廣泛性:roboschool, Atari, Mario

2、效果

raw pixel 表現效果最爲差,VAE表現效果不好,IDM和RF表現不分伯仲,取決於環境的特點。但本文沒分析出具有哪種特徵的環境可用哪種feature encoder.

二、預處理部分

1、對Advantage, Reward 作規則化,對feature embedding network 作batch normalization

2、用128個parallel actors來與環境互動,從而變相提高了batch size,進而穩定了策略的更新(the batch size scales linear with parallel runs, since each run compute the gradient of batch size and then average those gradients together, making the effective batch-size = #run * batch_size)

三、本文亮點

本文最大的亮點是,較比於之前的curiosity論文,本文直接剔除了死亡(terminaton of a game, death)所提供的信息,即當agent死亡,直接讓agent恢復到出生點(變成了infinite horizon episode),而不終結episode或者給予任何extrinsic懲罰。由於dynamic-based curiosity的agent很熟悉出生點的情況,失去興趣(獲得很少intrinsic reward)因此變相驅使agent不要死亡。

四、Dynamic-based Curiosity的缺點

"If the transitions in the environment are random, then even with a perfect dynamics model, the expected reward will be the entropy of the transition, and the agent will seek out transitions with the highest entropy. Even if the environment is not truly random, unpredictability caused by a poor learning algorithm, an impoverished model class or partial observability can lead to exactly the same problem."

如果環境中的transition是完全隨機的,那麼即使有一個完美的 dynamics model,期望的回報也會是transition的熵,agent會尋找熵最大的transition(因爲不確定性越大,熵越大,agent越感興趣)。即使環境不是真正隨機的,由糟糕的學習算法造成的不可預測性,一個糟糕的模型類或部分可觀察性可能會導致完全相同的問題。

 

論文鏈接:

https://arxiv.org/abs/1808.04355

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章