COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES

原創

2023-03-06 13:32

发表时间：2020（ICLR 2020）
文章要点：这篇文章提出Search with Amortized Value Estimates(SAVE)算法，将Q-learning和MCTS结合起来。用Q value来指导MCTS，然后用得到的Q-estimates来更新Q value。在search budgets很小的情况下也能取得很好的效果。
首先planning可以一定程度上避免选择次优动作，从而取得更好的效果。但是另一方面，这也导致buffer里面关于次优动作的信息就很少，导致这些次优动作在更新Q function的时候就不会被downweighed，那么Q value的估计也会不准。作者的思路就是用Q function来指导MCTS，然后更新的时候除了原始Q learning的更新，还把search里面得到的Q value也拿来更新。
Q在MCTS里面的用法就是放到UCT里面作为初始估计

这里相当于

然后simulation之后会更新

然后就有一个在树里面的Q的估计

把这个东西也放到buffer里用来更新Q。所以作者搞了一个amortization loss来使得Q的估计和MCTS估计的Q一样

再和Q learning的loss合到一起

总结：感觉是挺合理的做法，效果肯定比model free强，但是一个问题是在测试的时候也必须MCTS，如果直接用Q来选动作的话，效果并不好，这中间有个GAP。要是能消除或者减小这个GAP，就是说Q已经真的学到了MCTS的Q了，不需要在测试的时候再用MCTS了，说服力应该更强。感觉这个点值得做一做，毕竟训的时候我不管你咋做，测试的时候必须要快速决策，加上MCTS还是慢了。另外，这里面如果对着MCTS做监督训练，那Q learning就弱了，这个贝尔曼更新的原理就弱了，这其实在理论上有点不合逻辑。
疑问：其实我也开始有点怀疑DQN到底是不是在最小化贝尔曼误差了。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

Reflexion: Language Agents with Verbal Reinforcement Learning

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems

Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結