Paper-7 精讀AIRL Learn Robust Reward (2018 ICLR)

概述

這篇是以2016 NIPS的GAIL以及2016 ICML的GCL(在之前的Paper中精讀過)爲基礎進行對比,提出一種針對dynamics change魯棒的reward function recovery方法AIRL。

承上啓下的文章在這裏https://blog.csdn.net/weixin_40056577/article/details/104738587

這個IRL算法是基於對adversarial reward leaning的一種formulation進行優化的。

AIRL的特點是,recover到的reward是portable以及generalizable的,一個特殊的名詞爲disentangled rewards,即AIRL從demonstrations中提取出來的reward是對環境dynamics的變化不敏感的。(所以還可以提取rewards對什麼不敏感呢?對expert behaviors的擾動不敏感?)

其實Adversarial也是很傳統的問題:從一個信息聚合體中如何提取出多種多樣獨立的信息體,專業一點,即如何解耦decouple?

一、問題背景熟悉

1.1 GAN-IRL

之前的Paper精讀,都主要介紹與IRL、Imitation Learning相關的算法,是怎麼進行的,流程如何,回顧一下:

  1. GAIL可以看成是Imitation Learning用GAN做數據增廣,探討問題的角度是從專家數據中的統計量角度出發的,即occupancy measure,然後根據該統計量對Policy Update提供一個Guidance,最終找到一個Policy的occupancy measure match專家數據。
  2. GCL可以看成是在IRL的理論背景開始分析,針對專家數據構建了一個PGM圖來表示expert trajectory distribution,針對Partition Function採用了利用Policy的軌跡構建方式用Importance sampling進行近似估計。
  3. GAN-IRL這一篇Paper裏則說明了GAN與IRL數學上等價的聯繫。
    至此,AIRL則是將解耦思想引入應用到這個IRL與GAN問題的Setting上,使得其更爲robust

然後IRL問題有兩個關鍵問題:如何從demonstrations中recover到一個比較合理、科學能正確表示human prior的Reward Function呢?

  1. 對於一堆專家數據expert demonstrations,有很多optimal policies可以進行解釋
  2. 對於一個optimal policy,有很多rewad function都可以進行解釋

對於第一個問題Ziebart的MaxEnt IRL framework就是之前說的Soft Optimal Policy,即p(as,O1:T)p(a|s,O_{1:T}),從一堆專家數據中推斷出一個Sub-Optimal ,Stochastic的概率型Policy來表示很多optiaml polices可解釋的問題了。

對於第二個問題,很自然思考,如何將真正表達optimal policy的reward function給取出來。Reward Function很容易受環境Dynamics的影響,所以這篇paper嘗試從可能的reward functions中提取中對環境Dynamics魯棒的reward function,認爲它能代表一些東西。

1.2 Reward Shaping

1999年ICML Andrew Ng提出一種Reward Transformation:
r^(s,a,s)=r(s,a,s)+γΦ(s)Φ(s)\hat r(s,a,s')=r(s,a,s')+\gamma\Phi(s')-\Phi(s)

這個函數Φ(s):SR\Phi(s):S\rightarrow R可以是任意的。然後對Reward做了這種變換後,Paper證明了它不會改變其對應的optimal policy。

然後2018 ICLR這篇AIRL就經驗式地驗證了:變換後的reward functions對環境dynamics 的改變不魯棒

二、主要邏輯

2.1 問題定義

  1. 如何表示Optimal Policy?說到Policy一般就兩種,一個是策略函數π(as)\pi(a|s),一個是Q值函數Q(s,a)Q(s,a)(差不多等價的表述)
  2. 在一個MDP即(S,A,T,γ,R)(S,A,T,\gamma,R)中,對Policy的學習有影響的就是狀態轉移矩陣T=p(st+1st,at)T=p(s_{t+1}|s_t,a_t)與監督信息的來源Reward,因此對optimal policy表示爲Qr,T(s,a)Q^*_{r,T}(s,a)或者πr,T(as)\pi^*_{r,T}(a|s)
  3. Disentangled Rewards的定義:在某個dynamics set中,我們得到的reward與真實reward是相等的。即πr,T(as)\pi^*_{r,T}(a|s)=πr,T(as)\pi^*_{r',T}(a|s),其中rr'是model reward,rr是ground-truth rewardQr,T(s,a)=Qr,T(s,a)f(s)Q^*_{r',T}(s,a)=Q^*_{r,T}(s,a)-f(s)

2.2 論文理論

  • 理論1

如果環境的dynamics model滿足一個decomposability condition,且IRL要recover的獎勵函數只與狀態有關即r(s)r'(s),然後就能產生一個optimal policy:
Qr,T(s,a)=Qr,T(s,a)f(s)Q^*_{r',T}(s,a)=Q^*_{r,T}(s,a)-f(s)

(簡單說:給環境動態特性T加一個約束條件,假設獎勵函數形式僅與狀態有關,就能保證RL得到的reward具有Disentangled的特性,即optimal policy有Qr,T(s,a)=Qr,T(s,a)f(s)Q^*_{r',T}(s,a)=Q^*_{r,T}(s,a)-f(s)

  • 理論2

如果一個reward function即r(s,a,s)r'(s,a,s')對所有dynamics function是disentangled的,就能推斷出這是一個state only的reward function形式。(沒什麼用)

(簡單說,若一個reward在所有dynamics下是disentangled的,則其形式爲state-only)

Paper的分析,最主要的貢獻點就是:如果僅僅在一個MDP中學習的話,那麼儘可能使reward的形式僅與state有關

2.3 AIRL怎麼做

GAN-IRL-Energy Model在這一篇文章裏揭示了GAN與IRL的聯繫。這裏簡單回顧一下:

2.3.1 IRL問題的定義

對專家軌跡數據建模pθ(τ)p_\theta(\tau),參數化對象是rθr_\theta

pθ(τ)=1Zexp(cθ(τ))=1Zexp(rθ(τ))p_\theta(\tau)=\frac{1}{Z}exp(-c_\theta(\tau))=\frac{1}{Z}exp(r_\theta(\tau))

對專家數據的最大似然目標:

minθLcost(θ)=minθEτp[logpθ(τ)]=maxθEτp[logpθ(τ)]=maxθEτp[rθ(τ)]logZZ=exp(rθ(τ))dτ \begin{aligned} \min_\theta L_{cost}(\theta)&=\min_\theta E_{\tau\sim p}[-logp_\theta(\tau)]\\ &=\max_\theta E_{\tau\sim p}[logp_\theta(\tau)]\\ &=\max_\theta E_{\tau\sim p}[r_\theta(\tau)]-logZ\\ Z&=\int exp(r_\theta(\tau))d\tau \end{aligned}

如果寫成state-action的形式:
pθ(τ)p(s0)t=1Texp(rθ(st,at))p(st+1st,at)p_\theta(\tau)\propto p(s_0)\prod_{t=1}^{T}\exp(r_\theta(s_t,a_t))p(s_{t+1}|s_t,a_t)

2.3.2 GCL對IRL問題的處理

GCL中引入了一個sampling distribution即q(τ)q(\tau)來解決這個Partition Function Z的計算問題:

maxθEτp[rθ(τ)]logZ=maxθEτp[rθ(τ)]log(Eτq(τ)[exp(rθ(τ))q(τ)]) \begin{aligned} &\max_\theta E_{\tau\sim p}[r_\theta(\tau)]-logZ\\ &=\max_\theta E_{\tau\sim p}[r_\theta(\tau)]-log\Big(E_{\tau\sim q(\tau)}[\frac{exp(r_\theta(\tau))}{q(\tau)}]\Big) \end{aligned}

然後這個問題就很自然變成了一個GAN的優化問題,在引入的Sampling Distribution與Reward Function之間進行迭代。判別器爲Reward,生成器爲Sampling Distribution。判別器形式爲:

Dθ(τ)=exp(rθ(τ))exp(rθ(τ))+q(τ)D_\theta(\tau)=\frac{exp(r_\theta(\tau))}{exp(r_\theta(\tau))+q(\tau)}

這是一種trajectory-centric formulation,Paper提出把它變成下面這種形式:
Dθ(s,a)=exp(fθ(s,a))exp(fθ(s,a))+π(as)D_\theta(s,a)=\frac{exp(f_\theta(s,a))}{exp(f_\theta(s,a))+\pi(a|s)}

2.3.3 AIRL

理論上說了reward是state-only的時候,更可能對dynamics robust,而且shaping reward之後會對dynamics不robust,因此需要多參數化一個shaping term函數hh,參數爲ϕ\phi
Dθ,ϕ(s,a,s)=exp(fθ,ϕ(s,a,s))exp(fθ,ϕ(s,a,s))+π(as)D_{\theta,\phi}(s,a,s')=\frac{exp(f_{\theta,\phi}(s,a,s'))}{exp(f_{\theta,\phi}(s,a,s'))+\pi(a|s)}

其中π(as)\pi(a|s)是sampling的policy,fθ,ϕ(s,a,s)f_{\theta,\phi}(s,a,s')是reward,其爲:
fθ,ϕ(s,a,s)=gθ(s,a)+γhϕ(s)hϕ(s)f_{\theta,\phi}(s,a,s')=g_\theta(s,a)+\gamma h_\phi(s')-h_\phi(s)

gθ(s,a)g_\theta(s,a)是reward approximator,hϕ(s)h_\phi(s)是一個shaping term。

1

三、實驗設計

整個實驗圍繞兩個問題進行:

  1. AIRL是否這能學到對環境dynamics robust的disentangled reward?(通過改變dynamics對學到的reward進行測試)
  2. AIRL能否解決high-dimensions的連續控制任務?efficient and scalable?

2

第一個是用來驗證disentangled reward在transfer的時候是否robust,且是state-only有效還是state-action的reward函數形式有效。

4
這個任務沒有在transfer setting的情況下做,而是test in training set,主要用來對比AIRL是否合適high-dimensions的連續控制任務。

四、總結

  1. 這一篇是在2016 NIPS的GAIL與2018 ICML的GCL基礎上繼續探究問題的工作,首先將問題的背景擴展到transfer setting,然後是純粹在IRL的領域深入,去recover一個比較robust的reward
  2. 主要貢獻是探討了在IRL的目的下,什麼樣的dynamics能弄出一個可以transfer與portable的reward function而不是GAIL那樣更偏向Imitation Learning的做法
  3. 比較有意義的探討:reward shaping對dynamics不太robust、reward的形式與dynamics約束條件之間的關係

一句話總結:利用IRL去recover一個對dynamics robust、符合transfer setting的disentangled reward function,是一個在state-action層面recover到較完整reward function的算法。

具體值得借鑑的地方:

  1. 怎麼在IRL這個問題中引入對dynamics robust的disentangled reward?
  2. 定義了disentangled reward又是如何探究與證明dynamics相關的理論?
  3. 如何在理論指導下,參數化reward shaping term?爲啥reward shaping會影響到optimal policy對dynamics的魯棒性?

代碼:https://sites.google.com/view/adversarial-irl

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章