DL學習筆記【22】增強學習（Reinforcement Learning）

原創

2020-06-29 07:37

據說瞭解增強學習首先要了解馬爾可夫性

馬爾可夫性

在已知目前狀態（現在）的條件下，它未來的演變（將來）不依賴於它以往的演變 (過去 )

馬爾可夫過程按照其狀態和時間參數是否連續或者離散分爲三種：

N步轉移概率矩陣：

P(n)=P(n-1)P(1)=P(n-2)P(1)P(1)=......=P(1)^n

從一個狀態經過n步到達其他狀態的概率可以表示爲矩陣形式，例如：

隱馬爾可夫模型

三個骰子，分別爲4面6面8面，根據1～8序列（可見狀態），可以推測出使用的骰子序列（隱含序列）。

直接相乘 —求產生序列的最大概率
破解骰子序列，從第一個開始算，找最大概率的，然後算第二個，依次向後（這是向前算法），根據最後一個狀態，依次推出前邊的（這是向後算法）—用於計算產生這個序列的所有可能情況的概率和
維特比算法 —用於計算產生可見狀態的最有可能的隱含狀態序列
Baum-Welch 算法 —太複雜，沒看

增強學習

下邊兩個教程很棒，先記錄一下，自己的理解之後會補上。

epsilon greed

http://blog.csdn.net/zjq2008wd/article/details/52860654

Q算法

http://blog.csdn.net/zjq2008wd/article/details/52767692

神經網絡和增強學習

http://www.cnblogs.com/Leo_wl/p/5852010.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.