强化学习--Pytorch篇

Q_learning算法

首先祭出强化学习中的基础方法Q-Learning，算法流程如下图所示：

Q-learning是一个不断摸索，最终找到最优的方法。个人理解是这样的：
首先Q表是一个初值都为0 的表，被学习体只能随意摸索。当得到reward之后，乘以学习率 alpha ，更新Q表。这样，在下一次走到这一步的时候，就能够根据maxQ(s’,:)来决定选择，其 gammar可以理解为眼界，gammar取值为0~1，极端的，当gammar为1时，表示可以看到后续多步的结果；当gammar为0的时候，则表示只能看到眼前的利益。epsilon 表示贪心，假设epsilon为0.9，则表示90%的概率最选择获得最大reward的action，10%的概率选择其他action。这里选取贪心是为了避免陷入局部最优的尴尬。而maxQ(s’,:)则表示算法会朝着最快获得最大reward的方向前进。off-policy

Sarsa算法

与之相对应的是Sarsa算法，其算法流程为：

Q_learning 和 Sarsa算法很多地方都是相同的构架，不同之处在于Q-learning选取 $maxQ(s',:)$ ，而Sarsa则是根据贪婪策略来进行选择。

Sarsa( $\lambda$ )

Sarsa( $\lambda$ )相比于Sarsa又多加入了一张表格，用以记录走过的路径。同时该路径上的值会随着每次迭代的进行衰减。所以在算法上，主程序循环不用进行修改，只在更新表的时候，额外在更新一个路径表格，同时让路径表格中的值进行衰减即可，算法流程图如下图所示：

DQN算法

前面的算法都是基于Q表的，但是在很多实际例子中，一个学习需要的状态很多，或者达到最后Reward所需的步骤很多，这都会造成Q表逐渐增大。因此，总是基于Q表的方法就有些捉襟见肘了，而神经网络确可以很好的完成这个工作，我们需要干的是给神经网络一个state，然后让他自己产生所有的action，然后在结合Q-learning算法即可。
DQN的精华还有一个Fixed-Q target, 也就是说使用两个神经网络，其中一个动态更新Q值，另一个则隔一定步骤之后在进行copyQ值，平常是冻结状态。Q估计采用的是最新的神经网络，Q现实采用的是Fix_Q的神经网络

两个输入，两层神经网络

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

强化学习--Pytorch篇

Q_learning算法

Sarsa算法

Sarsa( $\lambda$ )

DQN算法

強化學習--Pytorch--DQN擴展以及Policy Gradient網絡結構

強化學習--Pytorch--DDPG

Rospy初次使用記錄-定點飛行

強化學習--Pytorch--DQN

路徑規劃算法--PRM，從原理到Matlab實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

强化学习--Pytorch篇

Q_learning算法

Sarsa算法

Sarsa(λ\lambdaλ)

DQN算法

Sarsa( $\lambda$ )