Efficient Deep Reinforcement Learning via Adaptive Policy Transfer


發表時間:2020(IJCAI 2020)
文章要點:這篇文章提出Policy Transfer Framework (PTF)算法來做policy transfer。主要思路就是自動去學什麼時候用哪一個source policy用來作爲target policy的學習目標,以及什麼時候terminate這個source policy並換另一個source policy來學習(learns when and which source policy is the best to reuse for the target policy and when to terminate it by modeling multi-policy transfer as the option learning problem. adaptively select a suitable source policy during target task learning and use it as a complementary optimization objective of the target policy)。
具體的,在和環境交互的時候,除了RL的網絡之外,還有option-value network以及termination network。先用option-value network選一個option,這個option就是一個source policy \(\pi_o\),然後用RL裏面的policy \(\pi\)去和環境交互,比如作者舉的例子就是A3C和PPO,然後termination network會決定什麼結束當前的source policy然後換下一個source來學習。學習的方式就是在更新RL的policy的時候,會加一個cross-entropy loss來使得policy和source policy接近

RL部分的更新除了新加的loss,就和普通的RL一樣了

這裏第一項是PG更新的loss,第二項是entropy,第三項就是policy transfer的loss。此外,這個\(L_H\)權重也是自適應調整的,具體設置方式爲

這裏的\(f(t)\)相當於是一個衰減係數,會隨着時間不斷變小,也就是最開始多學學source policy,後期就主要看環境的reward。然後這裏的\(\beta\)就是termination network,因爲termination network的標準就是option的value越大,terminate的概率就越小。所以後面這項的意思就是說如果當前這個option對應的value越大,那麼這個權重就大,反之就越小。
剩下的問題是如何更新option-value network和termination network。option-value network就是通常的Q function,只不過這裏是關於option的value,不是action的value,用的時候就用\(\epsilon\)-greedy的方式來選option,更新的時候就和DQN的更新類似,通過reward和bellman方程更新

termination network的更新公式爲


這裏的A是advantage function,\(\xi\)是一個正則項。這裏這個更新的目的就是使得option value裏不是最大的所有option的termination probability增加。然後整個算法的更新就完了。整個算法如下

總結:transfer的主要思路就是一邊學source policy來加快訓練,一邊用環境的reward來提高performance,是make sense的。從效果上看是有一定效果的,不過提升就提升一點,沒有數量級的提升

疑問:裏面和環境交互用的是target policy,而不是source policy,但是最後要算兩個policy的cross-entropy loss也必須要得到對應的概率纔行吧,也就是說source policy也會輸出動作對應的概率?
這個option value network的更新裏面的reward是一個option的reward還是一個動作step對應的reward呢,文章看來像是一個step對應的reward,不知道這樣更新能不能得到option對應的value。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章