基于策略搜索的强化学习方法

原創

2020-06-22 02:12

梯度与偏导数：

$\bigtriangledown$ ：梯度符号，求函数所有偏导数，n个偏导数一起构成n维向量，上升最快的方向。

几何意义：以二元函数f(x,y)为例,首先f(x,y)在某点(x0,y0)处的梯度是一个向量,它的方向就是函数f(x,y)在该点函数值变化最快的方向,即方向导数最大的方向,它的模就等于该点方向导数的最大值.

偏导数：研究函数 f(x,y) 沿着平行于 x 轴和平行于 y 轴两个特殊方位变动时， f(x,y) 的变化率。函数 z=f(x,y) 在(x0,y0)处对 x 的偏导数，实际上就是把 y 固定在 y0看成常数后，一元函数z=f(x,y0)在 x0处的导数。

梯度下降法：沿着梯度反方向，找到全局最小值（损失函数）。

神经网络的有效性：两层神经网络可以无限逼近任意二维连续函数。其实从输入层到隐藏层的矩阵计算，就是对输入数据进行了空间变换，使其可以被线性可分，然后输出层画出了一个分界线。而训练的过程，就是确定那个空间变换矩阵的过程。因此，多层神经网络的本质就是对复杂函数的拟合。

DQN与其他强化学习算法：策略优化的方法如策略梯度、actor-critic、DDPG等模型对大动作空间更合适

PG更新：在Policy Gradient 中，可以通过reward 来进行反向传播。当Policy Gradient 输出挑选的动作的时候，根据reward的大小来调整判断该网络是否。即当Policy Gradient网络输出动作为reward 最高的时候，会使Policy Gradient输出该动作概率增大。而当Policy Gradient 网络输出的动作的reward不是那么高的时候，则相应使Policy Gradient输出该动作的概率减小。

参考传送门：https://blog.csdn.net/kwame211/article/details/80364079 学习笔记13：随机梯度下降法（Stochastic gradient descent, SGD）

参考传送门：https://www.cnblogs.com/Renyi-Fan/p/9930760.html 神经网络的基本工作原理

反向传播与梯度下降：

参考传送门：https://blog.csdn.net/CoSineZxc/article/details/89424340

反向传播(BackPropagation)与梯度下降(Gradient Descent)

参考传送门：https://blog.csdn.net/weixin_38347387/article/details/82936585

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基于策略搜索的强化学习方法

MySQL 核心模块揭秘 | 18 期 | 锁在内存里长什么样*

使用perf工具生成火焰图

HttpSecurity 是如何组装过滤器链的

数说海南——近6年海南各市县人口简单看

长序列中Transformers的高级注意力机制总结

大龄程序员思考

响应式界面控件DevExtreme * 更强的数据分析和可视化功能

什麼是綜合（硬件）

SystemVerilog（六）：Testbench（綠皮書）

SystemVerilog（五）：斷言（SVA, SystemVerilog Assertion）

學科分類與學科門類

強化學習基礎第一個程序（建議在DQN跑CartPole之前）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結