【講義】正交策略梯度法和自動駕駛應用
本文是論文Orthogonal Policy Gradient and Autonomous Driving Application的講解講義,本文中我們從一個關於獎勵函數的回報梯度定理出發,證明了"當策略梯度向量和Q-Value向量正交時,獎勵函數值爲極大值",由此得出了一種實時逼近最優值的方法,並實現了這種方法且應用在了智能自動駕駛上.
關於獎勵函數的回報梯度的定理
在此先證這個定理:在MDP(Markov Decision Process)中: 平均回報函數ρ和策略π及Q函數Qπ滿足:
∂θ∂ρ=a∑dπ(s)a∑∂θ∂π(s,a)Qπ(s,a)
證明:
累計獎勵可寫作:Vπ(s)=a∑π(s,a)Qπ(s,a)
可得:
∂θ∂Vπ(s)=∂θ∂a∑π(s,a)Qπ(s,a)
=a∑(∂θ∂π(s,a)Qπ(s,a)+π(s,a)∂θ∂Qπ(s,a))
=a∑(∂θ∂π(s,a)Qπ(s,a)+π(s,a)∂θ∂(Ras−ρ(π)+s′∑Pss′aVπ(s′)))
=a∑(∂θ∂π(s,a)Qπ(s,a)+π(s,a)(−∂θ∂ρ+s′∑Pss′a∂θ∂Vπ(s′)))
由dπ項累加可得:
s∑dπ(s)∂θ∂ρ=s∑dπ(s)a∑∂θ∂π(s,a)Qπ(s,a)+s∑dπ(s)a∑π(s,a)s′∑Pss′a∂θ∂Vπ(s′))−s∑dπ(s)∂θ∂Vπ(s)
再由dπ的恆定性我們可得:
s∑dπ(s)∂θ∂ρ=s∑dπ(s)a∑∂θ∂π(s,a)Qπ(s,a)+s′∈S∑dπ(s′)∂θ∂Vπ(s′)−s∈S∑dπ(s)∂θ∂Vπ(s)
⇒∂θ∂ρ=a∑dπ(s)a∑∂θ∂π(s,a)Qπ(s,a)
得證.
有了這個定理我們不難發現,
a∑∂θ∂π(s,a)Qπ(s,a)=∂θ∂π⊙Q
這意味着只需要使∣∣∂θ∂π⊙Q∣∣=0即正交即可滿足達到極值點。
用於自動駕駛
我們的實驗環境是Torcs.《The Open Racing Car Simulator》(TORCS)是一款開源3D賽車模擬遊戲.是在Linux操作系統上廣受歡迎的賽車遊戲.有50種車輛和20條賽道,簡單的視覺效果.用C和C++寫成,釋放在GPL協議下.
整體架構是,由策略網絡負責給出具體的駕駛操作,由Q值網絡負責給出對駕駛操作達到的效果做預期評估.(這和人類的智能行爲類似,是標準的Deep Reinforcement learning套路:行動能力和思考能力兼備).