Discovering symbolic policies with deep reinforcement learning


發表時間:2021(ICML 2021)
文章要點:這篇文章想說神經網絡的解釋性太差,用簡單的符號式子來表示策略具有更好的解釋性,而且性能也不錯。這裏符號式子就是一個簡單的函數。作者就提出了一個叫deep symbolic policy的算法來搜索symbolic policies。算法先有一個Policy Generator模塊,來構建一個具體的策略表達式,然後有一個Policy Evaluator模塊,就是在環境裏測試這個policy,得到reward。這個reward再用來更新符號policy。
具體的,Policy Generator就是一個樹結構,通過選擇token構建出一個具體的函數形式。這裏token設置爲

運算符,某個維度的狀態,以及常數。樹的葉子結點就是狀態和常數,中間節點就是運算符,這樣就構建了一個二叉樹,然後這個二叉樹通過depth-first, then left-to-right的方式就可以得到一個具體的式子了。具體去優化這個符號表示的時候,是用自迴歸RNN去做的(optimize distributions over sequences using an autoregressive recurrent neural network (RNN))。具體如總的流程圖所示,把符號一個一個輸入到RNN網絡中,得到下一個符號,最終得到一個policy。這裏我感覺不說這個樹結構也是沒問題的,畢竟在優化過程中根本用不到這個結構。然後就用很常見的policy gradient去優化這個RNN。作者還非要說一句用的是risk-seeking policy gradients

其實就是把前百分之多少的好的樣本拿來做policy gradient。然後就結束了。
注意這裏只能做到優化一個維度的動作,如果要做到高維的動作空間,這個計算量會指數增加。作者爲了解決這個問題,搞了一個叫anchor model的model distillation方式。具體來說就是先在這個問題上訓練一個神經網絡的policy。然後訓練符號策略的時候,一個維度一個維度的訓練,其他維度的動作先用這個神經網絡的policy直接輸出,這樣一個維度一個維度的進行搜索,最終把所有維度都搜索完。

最後搜出來了下面這些式子

總結:感覺就是把網絡表示的policy搞到一個簡單的函數形式上,然後就說這個簡單的函數效果足夠好了,而且解釋性更好。感覺沒啥用啊。而且針對函數形式,需要具體設計,控制搜索範圍,還要定組合規則,比如exp外面不能套log之類的。最後爲了提高效率,還搞了個hierarchical entropy regularize和soft length prior的trick,感覺並不好用。
疑問:就算是弄成了符號表達,知道了具體的形式,也只是變成了一個比神經網絡更簡單的函數,感覺可解釋性還是不強啊?
做到高維的時候還藉助的神經網絡的效果,這個就算效果超過了神經網絡,也說明不了什麼問題啊?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章