強化學習：時間差分法總結（懸崖）

原創

2020-07-04 20:02

相關代碼鏈接：https://pan.baidu.com/s/1otkNz0QeqzYbKD9ON2Xy5A

提取碼：brus

TD預測：TD(0)：

雖然蒙特卡洛 (MC) 預測方法必須等到階段結束時才能更新值函數估值，但是時間差分 (TD) 方法在每個時間步之後都會更新值函數。
對於任何固定策略，一步 TD（或 TD(0)）保證會收斂於真狀態值函數，只要步長參數 $\alphaα$ 足夠小。
在實踐中，TD 預測的收斂速度比 MC 預測得要快。

TD預測：動作值

和 TD(0) 算法相似，該算法保證會收斂於真動作值函數，只要步長參數 $\alpha$ 足夠小。

TD控制：Sarsa(0)

Sarsa(0)（或 Sarsa）是既定策略 TD 控制方法。它保證會收斂於最優動作值函數 q_*q∗，只要步長參數 \alphaα足夠小，並且所選的 \epsilonϵ 滿足有限狀態下的無限探索貪婪算法 (GLIE) 條件。Sarsa得名原因是每個動作值更新都使用狀態動作獎勵，後續狀態，後續動作，互動元組。

TD控制：Sarsamax

Sarsamax（或 Q 學習）是一種新策略 TD 控制方法。它會在保證 Sarsa 算法會收斂的相同條件下保證收斂於最優動作值函數。

TD控制：預期Sarsa

預期 Sarsa 是一種新策略 TD 控制方法。它會在保證 Sarsa 和 Sarsamax 算法會收斂的相同條件下保證收斂於最優動作值函數。

分析性能

既定策略 TD 控制方法（例如 Sarsa 和 Sarsa）比新策略 TD 控制方法（例如 Q 學習）的在線性能好。
預期 Sarsa 通常性能比 Sarsa 好。

該圖顯示了 Sarsa 和 Q 學習在懸崖行走環境中的效果，常量 \epsilon = 0.1ϵ=0.1。正如在教科書中所描述的，在這種情況下，

Q 學習的在線效果更差（智能體在每個階段平均收集的獎勵更少），但是能夠學習最優策略，以及
Sarsa 可以獲得更好的在線效果，但是學到的是次最優“安全”策略。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

模型壓縮概述

前言自從AlexNet一舉奪得ILSVRC 2012 ImageNet圖像分類競賽的冠軍後，卷積神經網絡（CNN）的熱潮便席捲了整個計算機視覺領域。CNN模型火速替代了傳統人工設計（hand-crafted）特徵和分類器，不僅提供了一種端

2020-06-13 11:23:34

機器學習和深度學習相關問題總結

1. 如何解決正負類不平衡問題類別不均衡時，不能使用accuracy作爲分類器的評價指標。例如：當在對一個類別不均衡的數據集進行分類時得到了90%的準確度（Accuracy）。當你進一步分析發現，數據集的90%的樣本是屬於同一個

2020-07-07 19:33:12

神經網絡中各種優化器簡介

1. SGD 1.1 batch-GD 每次更新使用全部的樣本，注意會對所有的樣本取均值，這樣每次更新的速度慢。計算量大。 1.2 SGD 每次隨機取一個樣本。這樣更新速度更快。SGD算法在於每次只去擬合一個訓練樣本，這使得在梯度

2020-07-07 18:17:00

圖片質量判斷總結

質量判斷質量判斷指標，可通過人臉檢測接口，基於以下字段和對應閾值，進行質量檢測的判斷，以保證人臉質量符合後續業務操作要求。指標字段與解釋推薦數值界限主要包含如下特徵：遮擋範圍 occlusion（0~1），0爲無遮擋，1

老三是只猫

2020-07-02 01:27:12

圖像處理-人臉識別

人臉識別標準流程人臉檢測人臉檢測算法綜述如何快糙好猛的使用Shiqi.Yu老師的公開人臉檢測庫（附源碼） python dlib學習（八）：訓練人臉特徵點檢測器,自己訓練XML文件 TensorFlow 人

老三是只猫

2020-07-02 01:27:11

TensorRT的自定義算子Plugin的實現

這篇文章主要介紹瞭如何使用TensorRT實現自定義算子。 Note: 我使用的是TensorRT7.0，自定義算子使用的IPluginV2IOExt實現的。模型框架是caffe，所以以下實現都只適用於caffe模型的解析，

学海无涯子

2020-06-16 11:38:30

【論文閱讀】HRNetV2論文筆記

Titile: High-Resolution Representations for Labeling Pixels and Regions 論文地址：https://arxiv.org/pdf/1904.04514.pdf

学海无涯子

2020-06-16 11:38:29

LSTM GRU CNN Seq2seq知識點概要

文章目錄1. RNN 循環神經網絡rnn的優點和缺點rnn cell示意圖及 rnn2. LSTM 長短時記憶網絡畫圖和公式RNN與LSTM3. GRU網絡3.1 公式3.2 GRU網絡和LSTM網絡的比較4. CNN網絡知識權

2020-06-14 06:39:38

目標檢測算法Q&A

文章目錄1 Yolo和SSD的區別是什麼？2 R-CNN、Fast-rcnn、Faster-rcnn、Mask-rcnn的區別是什麼？3 RoI Pooling 和 RoI Align的區別是什麼？4 目標檢測後處理算法（NMS、

2020-06-11 09:46:02

深度學習算法效果提升-網絡結構

文章目錄1. 前言2. 現有的優秀網絡結構2.1 “雲”上模型2.1.1 Inception v1（GoogLeNet）2.1.2 Inception v22.1.3 Inception v32.1.4 Inception v42

2020-06-11 09:46:01

論文解讀-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

文章目錄1 “top-down” vs “bottom-up”2 動機2.1 已有"bottom-up"方法缺點2.2 改進點3 方案3.1 Detection 和 Association3.2 detection confide

2020-06-11 09:46:01

Ubuntu下detectron2 的安裝使用筆記

安裝使用了一波detectron2 ，感覺沒有mmdetection好用…但是還是記一下安裝和使用的過程安裝確保你的python版本是3.6以上查看你的機器的cuda版本（如果沒安裝的話安裝），通過 nvcc --versi

2020-06-11 05:38:39

11.K-means算法的改進K-means++算法

2020-06-03 18:51:01

目標檢測數據可視化，分析anchor_ratio的設置問題

2020-05-18 10:39:38

深度學習算法數據預處理之數據增強基礎

2020-05-04 17:19:46

24小時熱門文章

最新文章

最新評論文章