论文笔记: Large-Scale Study of Curiosity-Driven Learning

一、总结

1、这里的large-scale是指从不同方面来分析curiosity method的效果:

  • 利用什么作为intrinsic reward: dynamic error (prediction error), prediction uncertainty, improvement of a forward dynamics model.
  • 利用什么作为 feature encoder: Raw pixel, Random Feature (CNN), VAE, Inverse Dynamics Model
  • 试用的environment的广泛性:roboschool, Atari, Mario

2、效果

raw pixel 表现效果最为差,VAE表现效果不好,IDM和RF表现不分伯仲,取决于环境的特点。但本文没分析出具有哪种特征的环境可用哪种feature encoder.

二、预处理部分

1、对Advantage, Reward 作规则化,对feature embedding network 作batch normalization

2、用128个parallel actors来与环境互动,从而变相提高了batch size,进而稳定了策略的更新(the batch size scales linear with parallel runs, since each run compute the gradient of batch size and then average those gradients together, making the effective batch-size = #run * batch_size)

三、本文亮点

本文最大的亮点是,较比于之前的curiosity论文,本文直接剔除了死亡(terminaton of a game, death)所提供的信息,即当agent死亡,直接让agent恢复到出生点(变成了infinite horizon episode),而不终结episode或者给予任何extrinsic惩罚。由于dynamic-based curiosity的agent很熟悉出生点的情况,失去兴趣(获得很少intrinsic reward)因此变相驱使agent不要死亡。

四、Dynamic-based Curiosity的缺点

"If the transitions in the environment are random, then even with a perfect dynamics model, the expected reward will be the entropy of the transition, and the agent will seek out transitions with the highest entropy. Even if the environment is not truly random, unpredictability caused by a poor learning algorithm, an impoverished model class or partial observability can lead to exactly the same problem."

如果环境中的transition是完全随机的,那么即使有一个完美的 dynamics model,期望的回报也会是transition的熵,agent会寻找熵最大的transition(因为不确定性越大,熵越大,agent越感兴趣)。即使环境不是真正随机的,由糟糕的学习算法造成的不可预测性,一个糟糕的模型类或部分可观察性可能会导致完全相同的问题。

 

论文链接:

https://arxiv.org/abs/1808.04355

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章