- 論文題目:Addressing Function Approximation Error in Actor-Critic Methods
所解決的問題?
value-base
的強化學習值函數的近似估計會過估計值函數(DQN
),作者將Double Q-Learning
處理過擬合的思想引入actor critic
算法中。(過估計的問題就在於累計誤差會使得某些不好的state
的value
變地很高(exploration
不充分所導致的))。還花了很大的心血在處理過估計問題修正後帶來的方差過高的問題。
作者將過估計的問題引入到continuous action space
中,在continuous action space
中處理過估計問題的難點在於policy
的change
非常緩慢,導致current
和target
的value
差距不大, too similar to avoid maximization bias。
背景
以往的算法解決過估計問題的就是Double Q Learning
那一套,但是這種方法雖然說會降低bias
但是會引入高的variance
(在選擇下一個時刻s‘
的action
的時候,不確定性變得更大才將以往DQN
中max
這一步變得不是那麼max
,與之帶來的問題就是方差會變大),仍然會對policy
的優化起負面作用。作者是用clipped double q learning
來解決這個問題。
所採用的方法?
作者所採用的很多components
用於減少方差:
DQN
中的target network
用於variance reduction by reducing the accumulation of errors(不使用target network
的使用是振盪更新的)。- 爲了解決
value
和policy
耦合的關係,提出了延遲更新(delaying policy updates
)的方式。(to address the coupling of value and policy, we propose delaying policy updates until the value estimate has converged) - 提出了
novel regularization
的更新方式SARSA-style
( the variance reduction by averaging over valueestimates)。這種方法參考的是18
年Nachum
的將值函數smooth
能夠減少方差的算法。
- Nachum, O., Norouzi, M., Tucker, G., and Schuurmans, D. Smoothed action value functions for learning gaussian policies. arXiv preprint arXiv:1803.02348, 2018.
當然multi-step return
也能夠去權衡方差與偏差之間的關係,還有一些放在文末擴展閱讀裏面了。
作者將上述修正方法用於Deep Deterministic Policy Gradient
算法中並將其命名爲Twin Delayed Deep Deterministic policy gradient (TD3
)算法中。一種考慮了在policy
和value
函數近似過程中所帶來的一些誤差對AC
框架所帶來的影響。
前人算法回顧
首先回顧一下DPG
算法的更新公式:
其中 ,可以用參數 近似,在DQN
中還使用了frozen target network
,更新的目標爲:
如果受誤差 干擾,則有:
在AC
框架下,用表示actor
能獲得近似值函數的近似策略參數(所對應的那個策略參數),表示actor能獲得真實準確的參數(which is not known during learning)。
其中 , 是梯度歸一化參數,有 。這裏做歸一化的原因就是更容易保證收斂(Without normalized gradients, overestimation bias is still guaranteed to occur with slightly stricter conditions. )。
由於梯度方向是局部最大化的方向,存在一個足夠小的 ,使得時approximate value
of 會有一個下界 approximate value of
(approximate
會存在過估計問題,就是下面這個式子所描述的)。
相反的,存在一個足夠小的 使得 時,the true value of
會有一個上界 the true value of
(approximate policy
所得出來的動作在真實的action value function
中無法達到最優):
the value estimate
會大於等於true value
,三式聯立有:
Clipped Double Q-Learning
Double DQN
中的target
:
Double Q-learning
:
Clipped Double Q-learning
:
這裏的指的是target actor
(可參見僞代碼,只用了一個actor
)。這種方法會underestimation bias
,由於underestimation bias
這種方法就需要加大探索度,不然算法的效率就會很低。
如果 ,那麼就相當於輔助的沒用到,那麼就no additional bias
;如果 那麼就會取到,作者原文附錄裏面有證明收斂性。
Addressing Variance
設置target network
用於減小policy
更新所帶的的方差,不然state value approx
會很容易發散,不收斂。
作者使用policy
相比於value
做延遲更新(Delayed Policy Updates),這樣保證策略更新的時候,先將TD
誤差最小化,這樣不會使得policy
更新的時候受誤差影響,導致其方差高。
Target Policy Smoothing Regularization
作者認爲similar actions should have similar value
,所以對某個action
周圍加上少許噪聲能夠使得模型泛化能力更強。
相似的想法在Nachum et al.(2018)上也有設計,不過是smoothing ,不是。
- Nachum, O., Norouzi, M., Tucker, G., and Schuurmans, D. Smoothed action value functions for learning gaussian policies. arXiv preprint arXiv:1803.02348, 2018.
算法僞代碼:
取得的效果?
作者與當前的sota
算法對比,結果如下:
作者還驗證了target neteork
對收斂性的影響:
最終的實驗:
所出版信息?作者信息?
ICML2018
上的一篇文章,Scott Fujimoto
is a PhD student at McGill University and Mila. He is the author of TD3 as well as some of the recent developments in batch deep reinforcement learning.
他還有倆篇論文比較有意思:Off-Policy Deep Reinforcement Learning without Exploration
;Benchmarking Batch Deep Reinforcement Learning Algorithms
。
擴展閱讀
- 論文代碼:https://github.com/sfujim/TD3
作者爲了驗證論文的復現性,參考了2017
年Henderson, P
的文章實驗了很多隨機種子。
- 參考文獻:Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., and Meger, D. Deep Reinforcement Learning that Matters. arXiv preprint arXiv:1709.06560, 2017
還有一些平衡bias
和variance
的方法,比如:
- importance sampling
- Precup, D., Sutton, R. S., and Dasgupta, S. Off-policy temporal-difference learning with function approximation. In International Conference on Machine Learning, pp. 417–424, 2001.
- Munos, R., Stepleton, T., Harutyunyan, A., and Bellemare, M. Safe and efficient off-policy reinforcement learning. In Advances in Neural Information Processing Systems, pp. 1054–1062, 2016.
- distributed methods
- Mnih, V., Badia, A. P., Mirza, M., Graves, A., Lillicrap, T., Harley, T., Silver, D., and Kavukcuoglu, K. Asynchronous methods for deep reinforcement learning. In Internationa lConference on Machine Learning, pp.1928– 1937, 2016.
- Espeholt, L., Soyer, H., Munos, R., Simonyan, K., Mnih, V., Ward, T., Doron, Y., Firoiu, V., Harley, T., Dunning, I., et al. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. arXiv preprint arXiv:1802.01561, 2018.
- approximate bounds
- He, F. S., Liu, Y., Schwing, A. G., and Peng, J. Learning to play in a day: Faster deep reinforcement learning by optimality tightening. arXiv preprint arXiv:1611.01606, 2016.
- reduce discount factor to reduce the contribution of each error
- Petrik, M. and Scherrer, B. Biasing approximate dynamic programming with a lower discount factor. In Advancesin Neural Information Processing Systems, pp. 1265–1272, 2009.