Q-learing

原創

2018-08-22 19:37

-1表示状态间不直连。例如0不能直接到达1。

现在可以增加一个相似的矩阵Q，它可以看作是agent的“大脑”，表示了agent通过学习环境留下的“记忆”，矩阵Q的行表示agent当前的状态，列表示到达下一状态可能的行为。

Q学习算法步骤如下：

设置gamma参数以及矩阵R；

初始化矩阵Q；

对于每次episode：

随机选择一个初始状态；

目标状态没有到达：

从当前状态的所有行为中选择一个

转移到下一状态；

计算；

将下一状态设为当前状态；

Agent通过以上算法进行学习，每次episode相当于一次训练。在每一次训练中，agent探索环境(矩阵R表示)，接受奖励直到到达目标状态。训练的目的是增强agent的大脑，即矩阵Q。训练越多，Q结果越好。通过这种方式，如果Q被加强了，而不是反复探索，不断回到同一房间，就能快速找到目标状态。

参数gamma的取值范围是0-1，如果gamma趋近于0，则agent趋向于考虑瞬时奖励，如果接近1，则趋向于未来的奖励，延迟奖励。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度学习_目标检测_“YOLOv5”详解（持续更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet实现fashion_mnist分类

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

视频目标分割之Video Object Segmentation using Space-Time Memory Networks

Video Object Segmentation using Space-Time Memory Networks 文章目錄Video Object Segmentation using Space-Time Memory Ne

2020-07-08 11:18:09

《神经网络与深度学习》-循环神经网络

循環神經網絡1. 給網絡增加記憶能力1.1 延時神經網絡1.2 有外部輸入的非線性自迴歸模型1.3 循環神經網絡2. 簡單循環網絡2.1 循環神經網絡的計算能力2.1.1 循環神經網絡的通用近似定理2.1.2 圖靈完備3. 應用到

你电吴彦祖

2020-07-08 07:48:15

《神经网络与深度学习》-网络优化和正则化

網絡優化與正則化1. 網絡優化1.1 網絡優化的難點1.1.1 網絡結構的多樣性1.1.2 高維變量的非凸優化2. 優化算法2.1 小批量梯度下降2.2 批量大小選擇2.3 學習率調整2.3.1 學習率衰減2.3.2 學習率預熱2

你电吴彦祖

2020-07-08 07:48:15

《神经网络与深度学习》-前馈神经网络

你电吴彦祖

2020-07-08 07:48:14

深度学习中的Momentum算法原理

一、介紹在深度學習中，Momentum（動量）算法是對梯度下降法的一種優化，它將物理學中物體的運動理論和梯度下降相結合，其特點是直觀易懂，已成爲目前非常流行的深度學習優化算法之一。在介紹動量優化算法前，需要對指數加

2020-07-08 06:58:33

Learning both Weights and Connections for Efficient Neural Networks

Learning both Weights and Connections for Efficient Neural Networks 摘要神經網絡是計算密集型和內存密集型的，這使得它們很難部署在嵌入式系統上。此外，傳統的網絡

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 论文进一步的实验与思考

Learning both Weights and Connections for Efficient Neural Networks 論文進一步的實驗與思考上一篇文章我實驗了net-300-100網絡去識別手寫數字體，通過剪枝

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 论文pytorch复现

Learning both Weights and Connections for Efficient Neural Networks 論文pytorch復現這是論文中主要的步驟，因此我們復現的時候也主要是利用這個思想。代碼

2020-07-08 06:53:07

《deep learning》读书笔记6——深度前馈网络

目錄深度前饋網絡實例：學習xor 基於梯度的學習代價函數用最大似然學習條件分佈學習條件統計量輸出單元用於高斯輸出分佈的線性單元用於Bernoulli 輸出分佈的sigmoid 單元用於Multinoulli 輸出分

2020-07-08 05:31:06

泛统计理论初探——模型泛化能力增强技巧

數據挖掘-機器學習模型泛化增強技巧機器學習模型泛化能力增強技巧簡介在之前的文章中，我們已經介紹了三種提高模型泛化能力的方法，即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中，我們將會從數據角度、模型

喷火龙与水箭龟

2020-07-08 04:17:12

泛统计理论初探——过拟合与欠拟合探讨

數據挖掘-過擬合與欠擬合的簡介過擬合與欠擬合簡介在我們數據挖掘的學習中，經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候，可能會造成數據的過擬合；使用簡單的一元線性迴歸的進行預測的時候，可能會造成數據的欠擬合

喷火龙与水箭龟

2020-07-08 04:17:12

神经网络（NN）复杂度

前言本文中主要介紹神經網絡（NN）中的複雜度，分別介紹時間複雜度、空間複雜度。過程會有概念介紹、分析、和如何計算等。神經網絡的複雜度，包括時間複雜度和空間複雜度。空間複雜度簡介空間複雜度，包括兩部分：總參數量 +

2020-07-08 01:47:44

微软三维人脸重建论文前期知识铺垫——《Accurate 3D Face Reconstruction with Weakly-Supervised Learning》

一個3D模型的數據結構是怎麼樣的？首先是一個points_shape,這個shape的形狀是shape=（35709，3）。其中35709代表這個模型包括35709個點，3代表的是這些點的三維座標。有了這個矩陣，我們能夠在腦海裏想象在空

2020-07-08 01:13:07

24小時熱門文章

最新文章

最新評論文章