基於策略搜索的強化學習方法

梯度與偏導數:

\bigtriangledown:梯度符號,求函數所有偏導數,n個偏導數一起構成n維向量,上升最快的方向。

幾何意義:以二元函數f(x,y)爲例,首先f(x,y)在某點(x0,y0)處的梯度是一個向量,它的方向就是函數f(x,y)在該點函數值變化最快的方向,即方向導數最大的方向,它的模就等於該點方向導數的最大值.

偏導數:研究函數 f(x,y) 沿着平行於 x 軸和平行於 y 軸兩個特殊方位變動時, f(x,y) 的變化率。函數 z=f(x,y) 在(x0,y0)處對 x 的偏導數,實際上就是把 y 固定在 y0看成常數後,一元函數z=f(x,y0)在 x0處的導數。

梯度下降法:沿着梯度反方向,找到全局最小值(損失函數)。

神經網絡的有效性:兩層神經網絡可以無限逼近任意二維連續函數。其實從輸入層到隱藏層的矩陣計算,就是對輸入數據進行了空間變換,使其可以被線性可分,然後輸出層畫出了一個分界線。而訓練的過程,就是確定那個空間變換矩陣的過程。因此,多層神經網絡的本質就是對複雜函數的擬合。

DQN與其他強化學習算法:策略優化的方法如策略梯度、actor-critic、DDPG等模型對大動作空間更合適

PG更新:在Policy Gradient 中,可以通過reward 來進行反向傳播。當Policy Gradient 輸出挑選的動作的時候,根據reward的大小來調整判斷該網絡是否。即當Policy Gradient網絡輸出動作爲reward 最高的時候,會使Policy Gradient輸出該動作概率增大。而當Policy Gradient 網絡輸出的動作的reward不是那麼高的時候,則相應使Policy Gradient輸出該動作的概率減小。 

參考傳送門:https://blog.csdn.net/kwame211/article/details/80364079 學習筆記13:隨機梯度下降法(Stochastic gradient descent, SGD)

參考傳送門:https://www.cnblogs.com/Renyi-Fan/p/9930760.html 神經網絡的基本工作原理

反向傳播與梯度下降:

參考傳送門:https://blog.csdn.net/CoSineZxc/article/details/89424340

反向傳播(BackPropagation)與梯度下降(Gradient Descent)

參考傳送門:https://blog.csdn.net/weixin_38347387/article/details/82936585

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章