強化學習

原創

2018-08-22 19:37

機器學習可以分爲三類，分別是 supervised learning，unsupervised learning 和reinforcement learning。而強化學習與其他機器學習不同之處爲：

沒有教師信號，也沒有label。只有reward，其實reward就相當於label。
反饋有延時，不是能立即返回。
相當於輸入數據是序列數據。
agent執行的動作會影響之後的數據。

強化學習的關鍵要素有：environment，reward，action 和 state。有了這些要素我們就能建立一個強化學習模型。強化學習解決的問題是，針對一個具體問題得到一個最優的policy，使得在該策略下獲得的reward最大。所謂的policy其實就是一系列action。也就是sequential data。
強化學習可用下圖來刻畫，都是要先從要完成的任務提取一個環境，從中抽象出狀態(state) 、動作(action)、以及執行該動作所接受的瞬時獎賞(reward)。

reward

reward通常都被記作RtRt，表示第t個time step的返回獎賞值。所有強化學習都是基於reward假設的。reward是一個scalar。

action

action是來自於動作空間，agent對每次所處的state用以及上一狀態的reward確定當前要執行什麼action。執行action要達到最大化期望reward，直到最終算法收斂，所得的policy就是一系列action的sequential data。

state

就是指當前agent所處的狀態。

policy

policy就是隻agent的行爲，是從state到action的映射，分爲確定策略和與隨機策略，確定策略就是某一狀態下的確定動作a=π(s), 隨機策略以概率來描述，即某一狀態下執行這一動作的概率：π(a|s)=P[At=a|St=s]。

value function

因爲強化學習今本上可以總結爲通過最大化reward來得到一個最優策略。但是如果只是瞬時reward最大會導致每次都只會從動作空間選擇reward最大的那個動作，這樣就變成了最簡單的貪心策略(Greedy policy)，所以爲了很好地刻畫是包括未來的當前reward值最大（即使從當前時刻開始一直到狀態達到目標的總reward最大）。因此就夠早了值函數（value function）來描述這一變量。表達式如下：

γ是折扣係數(取值在[0,1]），就是爲了減少未來的reward對當前動作的影響。然後就通過選取合適的policy使value function最大，稍後會爲大家推導著名的bellman方程，bellman方程纔是強化學習各大算法（e.g. 值迭代，策略迭代，Q-learning）的源頭。

model

model就是用來預測環境接下來會幹什麼，即在這一狀態的情況下執行某一動作會達到什麼樣的狀態，這一個動作會得到什麼reward。所以描述一個模型就是用動作轉移概率與動作狀態reward。具體公式如下：

馬爾可夫決策過程(MDP)

大家應該都很熟悉馬爾科夫過程，其實就是狀態以及某狀態的轉移，最重要的就是一步轉移概率矩陣，只要有了這個一步轉移概率矩陣就能刻畫整個馬爾科夫過程。

下面就來介紹一下馬爾可夫決策過程（MDP）它主要由以下幾個變量來刻畫，狀態空間S（是一個有限集合），動作空間A（一個有限動作集合），狀態轉移概率矩陣P，獎賞函數RR以及折扣因子γ（γ∈[0,1]。
下面介紹一個MDP常用的用來刻畫獎賞的函數。

1.return Gt
t時刻之後未來執行一組action後能夠獲得的reward，即t+1，t+2…所有時刻的reward之和。（未來時刻的reward在當前時刻體現），後面的reward要乘以discountγγ 係數。表達式如下:

2.狀態值函數v(s)v
定義爲t時刻狀態S能獲得的return的期望，表達式如下:

3.動作值函數qπ(s,a)
t時刻狀態S下選擇特定action後能獲得的return的期望，表達式如下:

下面來講解一下最著名的bellman方程的推導，首先推導如何迭代值函數，即更新值函數：
1.value function

v(s)=E[Gt|St=s]=E[Rt+1+γ(Rt+2+γRt+3+...)|St=s]

=E[Rt+1|St=s]+γE[Gt+1|St=s]

=ERs+γ∑Gt+1P[Gt+1|St=s]

=ERs+γ∑Gt+1∑s′P[Gt+1|St+1=s′,St=s]∗P[St+1=s′|St=s]

=ERs+γ∑s′∈Sv(s′)Pss′

2.Q-value function

∵v(s)=E[Gt|St=s]=∑a∈AP[At=a|St=s]∗E[Gt|St=s,At=a]

=π(a|s)qπ(s,a)

qπ(s,a)=Ras+γE[Gt+1|St=s,At=a]

=Ras+γ∑s′∈SE[Gt+1|St+1=s′,St=s,At=a]P[St+1=s′|St=s,At=a]

=Ras+γ∑s′∈SPass′E[Gt+1|St+1=s′]

=Ras+γ∑s′∈SPass′vπ(s′)

有1與2的推導就可以得到著名的bellman方程，強化學習的算法迭代都是基於此方程的。如下：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet實現fashion_mnist分類

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

視頻目標分割之Video Object Segmentation using Space-Time Memory Networks

Video Object Segmentation using Space-Time Memory Networks 文章目錄Video Object Segmentation using Space-Time Memory Ne

2020-07-08 11:18:09

《神經網絡與深度學習》-循環神經網絡

循環神經網絡1. 給網絡增加記憶能力1.1 延時神經網絡1.2 有外部輸入的非線性自迴歸模型1.3 循環神經網絡2. 簡單循環網絡2.1 循環神經網絡的計算能力2.1.1 循環神經網絡的通用近似定理2.1.2 圖靈完備3. 應用到

你电吴彦祖

2020-07-08 07:48:15

《神經網絡與深度學習》-網絡優化和正則化

網絡優化與正則化1. 網絡優化1.1 網絡優化的難點1.1.1 網絡結構的多樣性1.1.2 高維變量的非凸優化2. 優化算法2.1 小批量梯度下降2.2 批量大小選擇2.3 學習率調整2.3.1 學習率衰減2.3.2 學習率預熱2

你电吴彦祖

2020-07-08 07:48:15

《神經網絡與深度學習》-前饋神經網絡

你电吴彦祖

2020-07-08 07:48:14

深度學習中的Momentum算法原理

一、介紹在深度學習中，Momentum（動量）算法是對梯度下降法的一種優化，它將物理學中物體的運動理論和梯度下降相結合，其特點是直觀易懂，已成爲目前非常流行的深度學習優化算法之一。在介紹動量優化算法前，需要對指數加

2020-07-08 06:58:33

Learning both Weights and Connections for Efficient Neural Networks

Learning both Weights and Connections for Efficient Neural Networks 摘要神經網絡是計算密集型和內存密集型的，這使得它們很難部署在嵌入式系統上。此外，傳統的網絡

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 論文進一步的實驗與思考

Learning both Weights and Connections for Efficient Neural Networks 論文進一步的實驗與思考上一篇文章我實驗了net-300-100網絡去識別手寫數字體，通過剪枝

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 論文pytorch復現

Learning both Weights and Connections for Efficient Neural Networks 論文pytorch復現這是論文中主要的步驟，因此我們復現的時候也主要是利用這個思想。代碼

2020-07-08 06:53:07

《deep learning》讀書筆記6——深度前饋網絡

目錄深度前饋網絡實例：學習xor 基於梯度的學習代價函數用最大似然學習條件分佈學習條件統計量輸出單元用於高斯輸出分佈的線性單元用於Bernoulli 輸出分佈的sigmoid 單元用於Multinoulli 輸出分

2020-07-08 05:31:06

泛統計理論初探——模型泛化能力增強技巧

數據挖掘-機器學習模型泛化增強技巧機器學習模型泛化能力增強技巧簡介在之前的文章中，我們已經介紹了三種提高模型泛化能力的方法，即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中，我們將會從數據角度、模型

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——過擬合與欠擬合探討

數據挖掘-過擬合與欠擬合的簡介過擬合與欠擬合簡介在我們數據挖掘的學習中，經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候，可能會造成數據的過擬合；使用簡單的一元線性迴歸的進行預測的時候，可能會造成數據的欠擬合

喷火龙与水箭龟

2020-07-08 04:17:12

神經網絡（NN）複雜度

前言本文中主要介紹神經網絡（NN）中的複雜度，分別介紹時間複雜度、空間複雜度。過程會有概念介紹、分析、和如何計算等。神經網絡的複雜度，包括時間複雜度和空間複雜度。空間複雜度簡介空間複雜度，包括兩部分：總參數量 +

2020-07-08 01:47:44

微軟三維人臉重建論文前期知識鋪墊——《Accurate 3D Face Reconstruction with Weakly-Supervised Learning》

一個3D模型的數據結構是怎麼樣的？首先是一個points_shape,這個shape的形狀是shape=（35709，3）。其中35709代表這個模型包括35709個點，3代表的是這些點的三維座標。有了這個矩陣，我們能夠在腦海裏想象在空

2020-07-08 01:13:07

24小時熱門文章

最新文章

最新評論文章