Q-learing

原創

2018-08-22 19:37

-1表示狀態間不直連。例如0不能直接到達1。

現在可以增加一個相似的矩陣Q，它可以看作是agent的“大腦”，表示了agent通過學習環境留下的“記憶”，矩陣Q的行表示agent當前的狀態，列表示到達下一狀態可能的行爲。

Q學習算法步驟如下：

設置gamma參數以及矩陣R；

初始化矩陣Q；

對於每次episode：

隨機選擇一個初始狀態；

目標狀態沒有到達：

從當前狀態的所有行爲中選擇一個

轉移到下一狀態；

計算；

將下一狀態設爲當前狀態；

Agent通過以上算法進行學習，每次episode相當於一次訓練。在每一次訓練中，agent探索環境(矩陣R表示)，接受獎勵直到到達目標狀態。訓練的目的是增強agent的大腦，即矩陣Q。訓練越多，Q結果越好。通過這種方式，如果Q被加強了，而不是反覆探索，不斷回到同一房間，就能快速找到目標狀態。

參數gamma的取值範圍是0-1，如果gamma趨近於0，則agent趨向於考慮瞬時獎勵，如果接近1，則趨向於未來的獎勵，延遲獎勵。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet實現fashion_mnist分類

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

視頻目標分割之Video Object Segmentation using Space-Time Memory Networks

Video Object Segmentation using Space-Time Memory Networks 文章目錄Video Object Segmentation using Space-Time Memory Ne

2020-07-08 11:18:09

《神經網絡與深度學習》-循環神經網絡

循環神經網絡1. 給網絡增加記憶能力1.1 延時神經網絡1.2 有外部輸入的非線性自迴歸模型1.3 循環神經網絡2. 簡單循環網絡2.1 循環神經網絡的計算能力2.1.1 循環神經網絡的通用近似定理2.1.2 圖靈完備3. 應用到

你电吴彦祖

2020-07-08 07:48:15

《神經網絡與深度學習》-網絡優化和正則化

網絡優化與正則化1. 網絡優化1.1 網絡優化的難點1.1.1 網絡結構的多樣性1.1.2 高維變量的非凸優化2. 優化算法2.1 小批量梯度下降2.2 批量大小選擇2.3 學習率調整2.3.1 學習率衰減2.3.2 學習率預熱2

你电吴彦祖

2020-07-08 07:48:15

《神經網絡與深度學習》-前饋神經網絡

你电吴彦祖

2020-07-08 07:48:14

深度學習中的Momentum算法原理

一、介紹在深度學習中，Momentum（動量）算法是對梯度下降法的一種優化，它將物理學中物體的運動理論和梯度下降相結合，其特點是直觀易懂，已成爲目前非常流行的深度學習優化算法之一。在介紹動量優化算法前，需要對指數加

2020-07-08 06:58:33

Learning both Weights and Connections for Efficient Neural Networks

Learning both Weights and Connections for Efficient Neural Networks 摘要神經網絡是計算密集型和內存密集型的，這使得它們很難部署在嵌入式系統上。此外，傳統的網絡

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 論文進一步的實驗與思考

Learning both Weights and Connections for Efficient Neural Networks 論文進一步的實驗與思考上一篇文章我實驗了net-300-100網絡去識別手寫數字體，通過剪枝

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 論文pytorch復現

Learning both Weights and Connections for Efficient Neural Networks 論文pytorch復現這是論文中主要的步驟，因此我們復現的時候也主要是利用這個思想。代碼

2020-07-08 06:53:07

《deep learning》讀書筆記6——深度前饋網絡

目錄深度前饋網絡實例：學習xor 基於梯度的學習代價函數用最大似然學習條件分佈學習條件統計量輸出單元用於高斯輸出分佈的線性單元用於Bernoulli 輸出分佈的sigmoid 單元用於Multinoulli 輸出分

2020-07-08 05:31:06

泛統計理論初探——模型泛化能力增強技巧

數據挖掘-機器學習模型泛化增強技巧機器學習模型泛化能力增強技巧簡介在之前的文章中，我們已經介紹了三種提高模型泛化能力的方法，即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中，我們將會從數據角度、模型

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——過擬合與欠擬合探討

數據挖掘-過擬合與欠擬合的簡介過擬合與欠擬合簡介在我們數據挖掘的學習中，經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候，可能會造成數據的過擬合；使用簡單的一元線性迴歸的進行預測的時候，可能會造成數據的欠擬合

喷火龙与水箭龟

2020-07-08 04:17:12

神經網絡（NN）複雜度

前言本文中主要介紹神經網絡（NN）中的複雜度，分別介紹時間複雜度、空間複雜度。過程會有概念介紹、分析、和如何計算等。神經網絡的複雜度，包括時間複雜度和空間複雜度。空間複雜度簡介空間複雜度，包括兩部分：總參數量 +

2020-07-08 01:47:44

微軟三維人臉重建論文前期知識鋪墊——《Accurate 3D Face Reconstruction with Weakly-Supervised Learning》

一個3D模型的數據結構是怎麼樣的？首先是一個points_shape,這個shape的形狀是shape=（35709，3）。其中35709代表這個模型包括35709個點，3代表的是這些點的三維座標。有了這個矩陣，我們能夠在腦海裏想象在空

2020-07-08 01:13:07

24小時熱門文章

最新文章

最新評論文章