強化學習-->Deep Reinforcement Learning

原創

村头陶员外

2020-06-07 16:55

因爲逐漸有人將強化學習應用到NLP 的任務上，有必要了解一些強化學習基礎知識，本篇博文總結自臺大教授李宏毅關於深度學習的公開課內容。

我們可以以上圖來理解強化學習過程，我們機器人agent 通過observation 瞭解到環境的 State ，採取一些Action ，並且改變當前的環境，然後環境會反饋正向或負向的reward 給agent 。

舉例來說，讓機器人玩電玩遊戲：

上圖中agent 每次動作以後都可能隨機的改變了環境，並且接受到一個reward ，由此觀察改變後的環境，做出相應的動作。

我們希望agent 多玩幾個回合，並且希望在每個回合中最大化的total reward 。　

強化學習難點：

Reward delay
例如上面所舉得例子裏，只有在開火時，才能獲得Reward ，agent 學習的最後結果是會瘋狂的開火，往左移或往右移，他覺得無所必要，但實際上移動對最後的total Reward 至關重要。還比如在下圍棋時，短期的犧牲可能或換來最後的勝利。
agent 的行爲，也即是action 會影響後續他看到的環境。

Asynchronous Advantage Actor-Critic (A3C)

Policy-based Approach(Learning an Actor)

如果我們把neural network 當做上面所講的actor ，那麼：

模型的輸入：即其觀察到的環境(向量、矩陣等)
模型的輸出：每一類動作在最後一層以一個神經元表示，對應其輸出的概率。

需要注意的是：在做 policy gredient 時，是 stochastic 式的，也就是說其output 是一個機率，我們是一定的概率選取該動作，而不是一定選取。

那麼如何決定這個action 的好壞呢？

我們假定actor 的模型爲πθ(s) ，這個s 就是agent 所看到的環境，θ 表示神經網絡的參數。

我們拿這個actor 實際上去玩這個遊戲：

如上圖所示：agent 玩完一個回合 後，可以得到一個total Reward ，而由上面的描述可知，這個total reward 纔是我們需要maximize 對象。

因爲遊戲的隨機性，即使每個回合都採用一樣的actor ，在這裏就是agent 模型一樣，不同回合得到的Rθ 很有可能不一樣，我們記：R¯θ 爲該actor 的期望值，即使不同的回合，該actor 的期望值是相同的，這個期望值就衡量了actor 的好壞，好的期望值這個actor 就比較好。

那麼這個期望值Rθ 如何得到呢？

假設一輪遊戲所有經過表示爲τ ，則：

τ={s1,α1,r1,s2,α2,r2,s3,α3,r3,...,sT,αT,rT}
R(τ)=∑Tn=1rn
某一種τ 出現的概率與actor (模型)有關，即該τ 過程出現的概率爲 P(τ|θ)

由上面的分析可知，某一個actor 一輪迴合下來得到的reward 的期望值：

R ¯ θ = \sum τ R (τ) p (τ | θ)

但是我們無法遍歷所有的τ ，故只能採取抽樣的方式，我們讓這個actor 玩N 場遊戲，獲得N 個不同的遊戲過程，即{τ1,τ2,....,τN} ，可以理解爲從p(τ|θ) 中sample 了N 次。即：

R ¯ θ = \sum τ R (τ) p (τ | θ) \approx 1 N \sum n = 1 N R (τ n)

那麼現在已經找到了R¯θ ，我們希望找到了一個θ∗ ，能maxθR¯θ ，也就是θ∗=argmaxθR¯θ ，我們可以利用Gradient ascent 來不斷逼近：

start with θ0
θ1←θ0+η▿R¯θ0
θ2←θ1+η▿R¯θ1
………

那麼▿R¯θ 怎麼求呢？

可以實際的推導一下▿R¯θ ：

其中：

則：

可以直觀的理解上面▿R¯θ 結果：

當R(τn) )(注意這裏是一個回合的reward) 爲正的時候，我們希望調整θ ，增大p(αnt|snt) ，使其在時間t 更大可能選擇αnt
當R(τn) 爲正的時候，我們希望調整θ ，減小p(αnt|snt) ，使其在時間t 更小可能選擇αnt

上面的求▿R¯θ 過程就是policy Gradient 。

Critic

給定一個actor π ，用Critic 來衡量actor 好或者不好，記做Vπ(s) ，這裏s 就是當前的環境狀態。Vπ(s) 就是當觀察到s 後，到一輪遊戲結束，我們所能得到的reward 的期望值有多大。以此來更新actor (即其中的參數)

那麼如何得到Vπ(s) 呢？

Monte-Carlo

讓critic 觀察 π 玩遊戲，舉例來說：

當看到環境sa 後，直到一輪迴合結束，所積累的reward 爲Ga ，那麼Vpi(sa)=Ga
當看到環境sb 後，直到一輪迴合結束，所積累的reward 爲Gb ，那麼Vpi(sb)=Gb

Temporal-Difference

MC VS TD

不同的方法，其Vπ(s) 值不一樣，選哪個方法視具體情況而言。

Actor-Critic

我們在上面講到了actor 與環境互動時，會得到一個reward 的反饋，如上面在求▿R¯θ 時：

如上圖所示，可以直接把R(/taun) 看做critic

Advantage Actor-Critic

對於actor π(s) 和critic Vπ(s) 可以共享一些參數，如下圖所示：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

文心千帆：從PPT製作到數字人主播，ERNIE-Bot|BLOOMZ大模型調優與RLHF訓練全攻略

隨着人工智能技術的不斷髮展，文心千帆作爲一款領先的人工智能模型，已經在多個領域展現出其強大的實力。無論是PPT製作，還是數字人主播，文心千帆都能夠爲用戶提供驚豔的應用體驗。而背後支撐這一切的，正是ERNIE-Bot|BLOOMZ大模型的強大

2024-03-29 00:01:17

人工智能大模型原理與應用實戰：自動駕駛技術的飛躍

一、人工智能大模型的基本原理人工智能大模型，尤其是深度學習模型，通常由多層神經網絡組成。這些神經網絡通過海量的參數來建立輸入數據和輸出數據之間的複雜映射關係。在訓練過程中，模型通過反向傳播算法不斷調整參數，使得模型的預測結果與真實結果儘可

2024-03-15 00:33:20

阿里雲PAI-靈駿大模型訓練工具 Pai-Megatron-Patch 正式開源！

Pai-Megatron-Patch是什麼 Pai-Megatron-Patch工具是阿里雲機器學習平臺PAI算法團隊研發，基於阿里雲智算服務PAI-靈駿平臺的大模型最佳實踐解決方案配套工具，旨在幫助大模型開發者快速上手靈駿產品，完成大語

2023-10-07 12:29:41

快速成長的祕訣｜學會自我培養和培養他人

快速成長總共三篇，分別是《完成自我認知升級》、《自我成長好方法》和《自我培養和培養他人》。本篇是第三篇，篇幅較長。針對長文的閱讀方式，依舊建議在《完成自我認知升級》中提到的閱讀方式：“在一個不被打擾的時間做好隻字不差閱讀，用批判性思維思考和

2023-09-13 01:22:12

BeautifulPrompt：PAI 推出自研 Prompt 美化器，賦能 AIGC一鍵出美圖

背景 Stable Diffusion（SD）是一種流行的AI生成內容（AI Generated Content，AIGC）模型，能在文字輸入的基礎上生成各種風格多樣的圖像。在目前的AIGC方向，SD是開源社區最熱門的模型。然而，SD能夠

2023-06-21 12:25:47

我在京東做研發 | 從好玩到好用，爆火ChatGPT前沿分享

| 嘉賓：吳友政，京東集團高級總監、京東科技語音語言算法部負責人。 2006年中科院自博士畢業後，先後在日本國立信息通信研究機構、英國愛丁堡大學、索尼中國研究院從事自然語言處理相關研究工作，主要聚焦自然語言處理、人機對話、語音識別、機器翻

2023-02-24 23:41:13

強化學習入坑總結

總結一下自己入坑強化學習的經驗。在入坑之前，自己對強化學習基本一無所知，所以對於強化學習的學習基本上是從零開始。下面總結一下自己學習強化學習所看的網課，教材，論文，代碼網課莫煩的強化學習教程。這個教程真的是通俗易懂，完全針對初

2021-12-25 21:10:24

谷歌發佈生態系統RLDS，可在強化學習中生成、共享和使用數據集

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-20 10:53:54

程序員如何建立第二大腦

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-20 10:43:54

實用機器學習筆記一：概述

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"前言：","attr

2021-12-17 17:58:58

24小時熱門文章

最新文章

最新評論文章