Discovering symbolic policies with deep reinforcement learning

原創

2022-05-19 13:33

发表时间：2021（ICML 2021）
文章要点：这篇文章想说神经网络的解释性太差，用简单的符号式子来表示策略具有更好的解释性，而且性能也不错。这里符号式子就是一个简单的函数。作者就提出了一个叫deep symbolic policy的算法来搜索symbolic policies。算法先有一个Policy Generator模块，来构建一个具体的策略表达式，然后有一个Policy Evaluator模块，就是在环境里测试这个policy，得到reward。这个reward再用来更新符号policy。
具体的，Policy Generator就是一个树结构，通过选择token构建出一个具体的函数形式。这里token设置为

运算符，某个维度的状态，以及常数。树的叶子结点就是状态和常数，中间节点就是运算符，这样就构建了一个二叉树，然后这个二叉树通过depth-first, then left-to-right的方式就可以得到一个具体的式子了。具体去优化这个符号表示的时候，是用自回归RNN去做的（optimize distributions over sequences using an autoregressive recurrent neural network (RNN)）。具体如总的流程图所示，把符号一个一个输入到RNN网络中，得到下一个符号，最终得到一个policy。这里我感觉不说这个树结构也是没问题的，毕竟在优化过程中根本用不到这个结构。然后就用很常见的policy gradient去优化这个RNN。作者还非要说一句用的是risk-seeking policy gradients

其实就是把前百分之多少的好的样本拿来做policy gradient。然后就结束了。
注意这里只能做到优化一个维度的动作，如果要做到高维的动作空间，这个计算量会指数增加。作者为了解决这个问题，搞了一个叫anchor model的model distillation方式。具体来说就是先在这个问题上训练一个神经网络的policy。然后训练符号策略的时候，一个维度一个维度的训练，其他维度的动作先用这个神经网络的policy直接输出，这样一个维度一个维度的进行搜索，最终把所有维度都搜索完。

最后搜出来了下面这些式子

总结：感觉就是把网络表示的policy搞到一个简单的函数形式上，然后就说这个简单的函数效果足够好了，而且解释性更好。感觉没啥用啊。而且针对函数形式，需要具体设计，控制搜索范围，还要定组合规则，比如exp外面不能套log之类的。最后为了提高效率，还搞了个hierarchical entropy regularize和soft length prior的trick，感觉并不好用。
疑问：就算是弄成了符号表达，知道了具体的形式，也只是变成了一个比神经网络更简单的函数，感觉可解释性还是不强啊？
做到高维的时候还借助的神经网络的效果，这个就算效果超过了神经网络，也说明不了什么问题啊？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Discovering symbolic policies with deep reinforcement learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

State Distribution-aware Sampling for Deep Q-learning

Large Batch Experience Replay

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結