基于策略搜索的强化学习方法

梯度与偏导数:

\bigtriangledown:梯度符号,求函数所有偏导数,n个偏导数一起构成n维向量,上升最快的方向。

几何意义:以二元函数f(x,y)为例,首先f(x,y)在某点(x0,y0)处的梯度是一个向量,它的方向就是函数f(x,y)在该点函数值变化最快的方向,即方向导数最大的方向,它的模就等于该点方向导数的最大值.

偏导数:研究函数 f(x,y) 沿着平行于 x 轴和平行于 y 轴两个特殊方位变动时, f(x,y) 的变化率。函数 z=f(x,y) 在(x0,y0)处对 x 的偏导数,实际上就是把 y 固定在 y0看成常数后,一元函数z=f(x,y0)在 x0处的导数。

梯度下降法:沿着梯度反方向,找到全局最小值(损失函数)。

神经网络的有效性:两层神经网络可以无限逼近任意二维连续函数。其实从输入层到隐藏层的矩阵计算,就是对输入数据进行了空间变换,使其可以被线性可分,然后输出层画出了一个分界线。而训练的过程,就是确定那个空间变换矩阵的过程。因此,多层神经网络的本质就是对复杂函数的拟合。

DQN与其他强化学习算法:策略优化的方法如策略梯度、actor-critic、DDPG等模型对大动作空间更合适

PG更新:在Policy Gradient 中,可以通过reward 来进行反向传播。当Policy Gradient 输出挑选的动作的时候,根据reward的大小来调整判断该网络是否。即当Policy Gradient网络输出动作为reward 最高的时候,会使Policy Gradient输出该动作概率增大。而当Policy Gradient 网络输出的动作的reward不是那么高的时候,则相应使Policy Gradient输出该动作的概率减小。 

参考传送门:https://blog.csdn.net/kwame211/article/details/80364079 学习笔记13:随机梯度下降法(Stochastic gradient descent, SGD)

参考传送门:https://www.cnblogs.com/Renyi-Fan/p/9930760.html 神经网络的基本工作原理

反向传播与梯度下降:

参考传送门:https://blog.csdn.net/CoSineZxc/article/details/89424340

反向传播(BackPropagation)与梯度下降(Gradient Descent)

参考传送门:https://blog.csdn.net/weixin_38347387/article/details/82936585

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章