ML--時間差分（TD）

原創

2020-06-16 13:54

時間差分

背景

時間差分學習簡稱TD學習，和蒙特卡洛一樣，他也從Episode學習，不需要了解模型本身，但是它可以學習不完整的Episode。
模型狀態轉移及獎勵的情況下，學習不完整的軌跡，通過貝爾曼遞推公式（自舉的方法）求取值函數，獲得最優解。。
優點：可在線實時學習，可學習不完整的軌跡。比較適用於控制工程。
同策略VS異策略
同策略：產生採樣的策略和評估控制的策略是同一個策略。
異策略：產生採樣的策略和評控制的策略是不同的策略。比較容易的從人類經驗或其他個體的經驗中學習，有人可以從一些舊的策略中學習，可以比較兩份策略的優劣，其中可能也是最主要的原因就是遵循一個探索式策略的基礎上優化現有得策略。

sarsa
同策略時間差分:

sarsa 其中Q(s, a)是一張大表存儲，不適合解決較大數據問題。異策略時間差分：

算法步驟;
Step1:算法輸入Initialize S,迭代次數 T,狀態集合 S，動作集合 A，即初始化。
Step2.Choose A from S從當前狀態下所選擇的動作；
Step3.Take action A,observe R,S’,狀態執行當前動作，得到新的狀態 S’ 和新的獎勵 R;
Step4: $\begin{array}{l}{Q(S, A) \leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right]} ; \end{array}$ 更新價值函數；
Step5: $S \leftarrow S^{\prime}$ 把下一個狀態重新賦值一個新的狀態。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python, C++和Java代碼互翻，Facebook開發首個自監督神經編譯器

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！將早期的編程語言（例如COBOL）的代碼庫遷移到現在的編程語言（例如Java或C++）是一項艱鉅的任務，它需要源語言和目標語言方面的專業知識

雲棲號資訊小編

2020-07-29 12:49:48

史上首個3D多語言AI記者來了，不僅寫作、翻譯無壓力，還能一線報道國際體育賽事

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！世界上首個3D多語言AI新聞記者誕生！近日，字節跳動AI Lab聯合上海交大研究團隊發佈了全新升級版AI新聞記者Xiaomingbot。X

雲棲號資訊小編

2020-07-23 13:04:56

PHP算法：斐波那契數列的N種算法

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！前言前段時間，遇到優化計算斐波那契數列的常規遞歸方法，但是一時間並沒有及時想到很好的方法，所以後面查找了相關資料，總結了多種計算解法

雲棲號資訊小哥

2020-07-08 18:46:59

Learning Python 之 Python中的對象分類

Python中的對象之間有聯繫也有區分，如字符串和列表都可以執行切片、索引等操作，說明字符串和列表之間是有關係的，那麼理清這些關係有助於我們更好的理解python。我們知道，字符串是不可變類型(immutable)的序列(seq

2020-07-06 13:57:58

oracle.約束、視圖、序列、索引、

一、約束 1、not NULL:非空約束，不允許爲null值建表時創建： CREATE TABLE 表名（列名數據類型 DEFAULT 默認值 NOT NULL, ... ）; 修改表時創建非空約束： ALTER TABLE

2020-07-05 22:40:59

Python基礎：序列

列表、元組字符串的共同點：（1）都可以通過索引得到每一個元素（2）默認索引值總是從0開始（3）可以通過分片的方法得到一個範圍內的元素的集合（4）有很多共同的操作符（重複操作符*、拼接操作符、成員關係操作符）

蚊子爱牛牛

2020-06-25 22:34:02

SpringBoot + Mybatis Plus + Oracle 主鍵自增的配置

由於 Oracle 不像 SQL Server 和 MySQL 有主鍵自增的設計，需要用創建序列或者觸發器的方式實現主鍵增長，使用 Mybatis 時可以直接在 SQL 語句中使用序列，如果我們使用 Mybatis Plus 的通用

2020-06-23 09:18:17

oracle_序列、索引、同義詞

①序列 1.序列: 可供多個用戶用來產生唯一數值的數據庫對象自動提供唯一的數值共享對象主要用於提供主鍵值將序列值裝入內存可以提高訪問效率 2.CREATE SEQUENCE 語句 CREAT

2020-06-16 17:02:47

當序列增加到一定值時利用pl/sql代碼塊回到某一值

例題如：現有一序列SEQ_Order，其起始值爲100，其值增長步長被設定爲1，經一段時間使用後，當前的CURRVAL值爲235，現希望在不刪除序列的情況下將其CURRVAL值設置爲100，並使值增長步長仍爲1，以供後期使用。請

2020-06-16 12:26:56

Python 3.7.1 內置類型

內置類型1.真值測試2.布爾運算3.比較運算符4.數值類型4.1 操作運算符4.2 整數的一些方法int.bit_length()int.to_bytes(length, byteorder, *, signed=False)cl

2020-06-16 05:29:58

用觸發器實現主鍵值自增

序列（Sequence）是一種可以被多個用戶使用的用於產生一系列唯一數字的數據庫對象。序列定義存儲在數據字典中，通過提供唯一數值的順序表來簡化程序設計工作，可以使用序列自動產生主鍵的鍵值。當一個序列第一次被查詢調用時，它將返回一個預定值

2020-06-13 21:47:26

【總結】數據庫自增字段的 3 種實現方式

在設計數據庫的表結構時，經常會使用一個自動增長的數字序列作爲主鍵字段（代理主鍵）。除了作爲主鍵使用之外，自增字段也可以用於記錄各個操作發生的先後順序，因爲它具有遞增特性。當我們插入一行數據時，數據庫會爲自增字段生成一個新的數值。

不剪发的Tony老师

2020-06-13 04:01:47

Python 3.9 beta2 版本發佈了，看看這 7 個新的 PEP 都是什麼？

Python 3.9 beta2 版本發佈了，看看這 7 個新的 PEP 都是什麼？隨着 Python 3.9.0b1 的發佈，即開發週期中計劃的四個 beta 版本的首個，Python 3.9 的功能已經是完善了。在 10 月發佈最終版

2020-06-10 09:23:06

【機器學習】關於注意力模型（Attention-model）的理解和應用

注意力模型是近年來在序列處理領域新提出的機器學習方法，在語言翻譯等領域取得了不錯的效果。要想了解注意力模型，那麼必須對現在的機器學習各領域有一定的瞭解，而且要了解encoder-decoder基本思想。首先可以大致的概括下目前的

开始奋斗的胖子

2020-06-06 17:13:22

WR--常用專業詞語

一.緒論此篇文章爲小編考研結束的首篇即借鑑又存在轉載和原創的一篇article，本文主要闡述了水處理行業必備專業術語。二.化學水處理、循環水處理、污水處理 2.1 化學水處理 1.地表水：是指存在於地殼表面，暴露於大氣的水，是

2020-06-16 13:54:51

24小時熱門文章

最新文章

最新評論文章