基於策略搜索的強化學習方法

原創

2020-06-22 02:12

梯度與偏導數：

$\bigtriangledown$ ：梯度符號，求函數所有偏導數，n個偏導數一起構成n維向量，上升最快的方向。

幾何意義：以二元函數f(x,y)爲例,首先f(x,y)在某點(x0,y0)處的梯度是一個向量,它的方向就是函數f(x,y)在該點函數值變化最快的方向,即方向導數最大的方向,它的模就等於該點方向導數的最大值.

偏導數：研究函數 f(x,y) 沿着平行於 x 軸和平行於 y 軸兩個特殊方位變動時， f(x,y) 的變化率。函數 z=f(x,y) 在(x0,y0)處對 x 的偏導數，實際上就是把 y 固定在 y0看成常數後，一元函數z=f(x,y0)在 x0處的導數。

梯度下降法：沿着梯度反方向，找到全局最小值（損失函數）。

神經網絡的有效性：兩層神經網絡可以無限逼近任意二維連續函數。其實從輸入層到隱藏層的矩陣計算，就是對輸入數據進行了空間變換，使其可以被線性可分，然後輸出層畫出了一個分界線。而訓練的過程，就是確定那個空間變換矩陣的過程。因此，多層神經網絡的本質就是對複雜函數的擬合。

DQN與其他強化學習算法：策略優化的方法如策略梯度、actor-critic、DDPG等模型對大動作空間更合適

PG更新：在Policy Gradient 中，可以通過reward 來進行反向傳播。當Policy Gradient 輸出挑選的動作的時候，根據reward的大小來調整判斷該網絡是否。即當Policy Gradient網絡輸出動作爲reward 最高的時候，會使Policy Gradient輸出該動作概率增大。而當Policy Gradient 網絡輸出的動作的reward不是那麼高的時候，則相應使Policy Gradient輸出該動作的概率減小。

參考傳送門：https://blog.csdn.net/kwame211/article/details/80364079 學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

參考傳送門：https://www.cnblogs.com/Renyi-Fan/p/9930760.html 神經網絡的基本工作原理

反向傳播與梯度下降：

參考傳送門：https://blog.csdn.net/CoSineZxc/article/details/89424340

反向傳播(BackPropagation)與梯度下降(Gradient Descent)

參考傳送門：https://blog.csdn.net/weixin_38347387/article/details/82936585

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於策略搜索的強化學習方法

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

什麼是綜合（硬件）

SystemVerilog（六）：Testbench（綠皮書）

SystemVerilog（五）：斷言（SVA, SystemVerilog Assertion）

學科分類與學科門類

強化學習基礎第一個程序（建議在DQN跑CartPole之前）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結