台部落xyt_369587353

打算開個章節分享一些在工作上收穫的知識和總結，前面文章介紹了一些關於強化學習的經典模型，更多適合個人學習入門，如果關注實際應用的話這些強化學習模型還需要做相關的優化。作爲一個在推薦領域的煉丹師後續會分享一些關於強化學習在推薦領域的應用，首

2020-06-22 06:59:09

前面我們講到了蒙特卡洛方法在未知環境下求解馬爾科夫決策過程(MDP)，然而蒙特卡洛方法也有自身的限制，蒙特卡洛方法就是反覆多次試驗，求取每一個實驗中每一個狀態s的值函數，也就是說，只要這個MDP是有終點的，我們就可以計算出每一個狀態下的R

2020-06-22 06:59:09

前面我們介紹了用動態規劃求解馬爾科夫決策過程（MDP）,然而需要已知環境信息，然而現實環境很多都是未知的，我們會用什麼方法求解呢？蒙特卡羅方法(MC)，時序差分學習(TD)都可以求解未知環境下的強化學習問題，本章主要介紹蒙特卡羅方法。蒙

2020-06-22 06:24:21

之前大量敘述了強化學習的基本原理，至此纔開始真正的深度強化學習的部分。2013和2015年DeepMind的Deep Q Network（DQN）它用一個深度網絡代表價值函數，依據強化學習中的Q-Learning，爲深度網絡提供目標值，對

2020-02-22 21:15:47

在上一篇文章我們提到了DQN還存在的問題： 1）目標Q值的計算是否準確？全部通過max Q來計算有沒有問題？ 2）隨機採樣的方法好嗎？按道理不同樣本的重要性是不一樣的。 3） Q值代表狀態，動作的價值，那麼單獨動作價值的評估會不會更準

2020-02-22 21:15:47

前面講到的DQN系列強化學習，主要對價值函數進行了近似表示，基於價值來學習。這種Value Based強化學習方法在很多領域都得到比較好的應用，但是Value Based強化學習方法也有很多侷限性，主要面臨以下問題：對連續動作的處理能力

2020-02-22 21:15:47

從名字上看DDPG是由D(Deep)+D(Deterministic)+PG(Policy Gradient)組成，我們在深度強化學習7——策略梯度（Policy Gradient）已經講過PG，下面我們將要了解確定性策略梯度(Deter

2020-02-22 21:15:47

上篇文章我們講到Policy Gradient可能給出的action分佈是比較極端的，導致很多狀態無法進行探索，陷入局部最優，本篇我們將討論策略(Policy Based)和價值(Value Based)相結合的方法：Actor-Crit

2020-02-22 21:15:47

本文講解思路從馬科夫過程（MP) 到馬爾科夫獎勵過程（MRP）最後到馬爾科夫決策過程（MDP）。首先我們要了解馬爾科夫性，在上一章1.3我們也提到，當前狀態包含了對未來預測所需要的有用信息，過去信息對未來預測不重要，該就滿足了馬爾科夫性

2018-10-10 05:11:54

從事深度強化學習有一段時間了，整理了網上的一些資料，寫幾篇博客作爲知識的梳理和總結。開講前，先給大家看個深度強化學習的例子，下面是深度學習cnn和強化學習結合玩吃豆人的遊戲看圖像我們會發現吃豆人會，吃掉一閃一閃的豆子來消滅怪物，仔細

2018-10-10 05:11:54

一、前言線性迴歸是機器學習的基礎，目前很多機器學習算法都是從這些基礎算法演變而來，本着打算鞏固基礎知識的目的，一起回顧一下線性迴歸。1.數據迴歸的目的在介紹線性迴歸前，我們先了解迴歸分析的作用，迴歸分析就是將

2018-09-05 21:22:27

一、前言1.介紹在安裝前我們要了解一下相關組件。 Elasticsearch是一個分佈式的搜索和分析引擎，可以用於全文檢索、結構化檢索和分析，基於apache Lucene開發，Lucene可以被認爲是迄今爲止

2018-09-05 21:22:27