Deep Exploration via Bootstrapped DQN


發表時間:2016(NIPS 2016)
文章要點:這篇文章提出了Bootstrapped DQN算法來做深度探索。作者認爲,當前的探索策略比如ϵ-greedy,並沒有進行深度探索(temporally-extended (or deep) exploration)。Deep exploration指的是一個探索策略進行多步的探索,而不是像ϵ-greedy那種每步都是一個隨機探索,沒有連續性(Deep exploration means exploration which is directed over multiple time steps; it can also be called planning to learn or far-sighted exploration)。作者提出,同時訓練多個Q網絡,可以做到deep exploration。
具體做法就是訓練網絡的時候,不止一套Q value,而是有K套Q value,然後每個episode都用其中一個Q head來選擇動作,相當於用同一個策略來探索這一整局,這樣就做到了deep exploration。然後訓練的時候,就有放回抽樣各個Q head的樣本分別訓練。
總結:較老的一篇文章了,相當於是ensemble的方式,可能當時比較新穎吧。
疑問:dithering指的啥?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章