強化學習 —— （4）A3C

原創

2020-04-21 00:25

1. Policy Gradient的不足

在Policy Gradient中提到，Policy Gradient 算法在計算Reward時需要對數據進行採樣：

在採樣的過程中，有很大的隨機性，不太穩定。那麼，能不能直接通過估計 $G_t^n$ 的期望值，使用期望值來代替sample的值，這樣可以保證穩定性。

2. 改進方法

Actor-Critic 的 Actor 的前生是 Policy Gradients , 這能讓它毫不費力地在連續動作中選取合適的動作, 而 Q-learning 做這件事會很吃力。那爲什麼不直接用 Policy Gradients 呢? 因爲 Actor Critic 中的 Critic 的前生是 Q-learning 或者其他的以值爲基礎的學習法 , 能進行單步更新, 而傳統的 Policy Gradients 則是回合更新, 這降低了學習效率。所以就想到把兩者結合起來變成Actor-Critic。

要解決這個問題，需要引入value base的方法，也就是Q learning，其中Q learning有兩種方法：

根據Q的定義，可以將 $\sum_{t'=t}^{T_n}y^{t'-t}r_{t'}^n$ 替換成 $Q^{\pi_\theta}(s^n_t,a^n_t)$ ，然後baseline一般指定爲 $V^{\pi_\theta}(s_t^n)$

但是這樣就有個問題：需要估計兩個network，這樣就有2倍的風險。

按照定義：
$Q^{\pi}(s_t^n,a_t^n) = E[r_{t}+V^{\pi}(s_{t+1})|s_t=s, a_t=\pi'(s_t)]$
這裏取期望的原因是，跳轉到什麼樣的狀態，得到什麼樣的reward本來就有隨機性，所以要取期望來減少隨機性

這也是可以近似的認爲下式的原因，雖然也有一定的隨機性，但是隨機性比原來要小。

所以，就有：

所以，整個流程爲：
首先用 $\pi$ 與環境做互動，收集原始的資料，收集到的資料沒有去估計policy，而是去估計value function（TD或MC方法）然後套用優化公式去更新 $\pi$ 。

3. 小技巧

那麼，在Advantage Actor Critic中，需要估計的網絡其實有兩個，一個用於估計當前State中需要採取怎麼樣的action，另一個用於估計value。考慮到前面提取特徵的網絡結構，可以設計成下面結構：

通常情況下，會對 $\pi(s)$ 進行一個限制，希望 $\pi(s)$ 的entropy不要太小，這樣的話agent在面臨相同state的時候可以採取不同的action。

4. A3C

其實就是在工程上並行化A2C，所有的actor都是各做各的，所以當actor完成後，強行覆蓋原始的參數，不管這個參數是不是一開始agent拿到的。

5. Pathwise Derivative Policy Gradient

在原來的Critic-Actor中，Critic僅僅是告訴agent這個action好還是不好，並沒有指出哪一個action是最好的，而這種Pathwise Derivative Policy Gradient 則可以指導怎麼選擇action。

所以，一個基本的思路是這樣的，我們希望找一個Actor，將state s輸入這個Actor中，得到一個action a，將這個a和s丟入Qfunction中，可以讓Q function的值越大越好。可以參考GAN網絡的運行機制。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

代碼高手的過節祕籍：CodeArt Snap幫寫代碼，靈感彈指間實現

本文分享自華爲雲社區《【端午特輯】代碼高手的過節祕籍：CodeArt Snap幫寫代碼，靈感彈指間實現》，作者：華爲雲社區精選。端午將至，糉葉飄香，你卻還在爲一行行代碼頭疼？與bug纏鬥不休？現在，基於盤古大模型技術打造的華爲雲智能開

2024-06-07 22:57:17

一文教你在MindSpore中實現A2C算法訓練

本文分享自華爲雲社區《MindSpore A2C 強化學習》，作者：irrational。 Advantage Actor-Critic (A2C)算法是一個強化學習算法，它結合了策略梯度（Actor）和價值函數（Critic）的方法。A2

2024-06-07 10:56:57

京東商家智能助手：Multi-Agents 在電商垂域的探索與創新

電商助手是一款集合了多種電商經營決策功能的工具軟件，旨在幫助電商從業者完成從商品發佈到訂單管理、客服溝通、數據分析等一系列電商運營任務。京東零售基於 Multi-Agents 理念搭建了商家助手大模型在線推理服務架構，這一系統的核心是算法

2024-05-23 23:57:25

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

文心千帆：從PPT製作到數字人主播，ERNIE-Bot|BLOOMZ大模型調優與RLHF訓練全攻略

隨着人工智能技術的不斷髮展，文心千帆作爲一款領先的人工智能模型，已經在多個領域展現出其強大的實力。無論是PPT製作，還是數字人主播，文心千帆都能夠爲用戶提供驚豔的應用體驗。而背後支撐這一切的，正是ERNIE-Bot|BLOOMZ大模型的強大

2024-03-29 00:01:17

人工智能大模型原理與應用實戰：自動駕駛技術的飛躍

一、人工智能大模型的基本原理人工智能大模型，尤其是深度學習模型，通常由多層神經網絡組成。這些神經網絡通過海量的參數來建立輸入數據和輸出數據之間的複雜映射關係。在訓練過程中，模型通過反向傳播算法不斷調整參數，使得模型的預測結果與真實結果儘可

2024-03-15 00:33:20

阿里雲PAI-靈駿大模型訓練工具 Pai-Megatron-Patch 正式開源！

Pai-Megatron-Patch是什麼 Pai-Megatron-Patch工具是阿里雲機器學習平臺PAI算法團隊研發，基於阿里雲智算服務PAI-靈駿平臺的大模型最佳實踐解決方案配套工具，旨在幫助大模型開發者快速上手靈駿產品，完成大語

2023-10-07 12:29:41

快速成長的祕訣｜學會自我培養和培養他人

快速成長總共三篇，分別是《完成自我認知升級》、《自我成長好方法》和《自我培養和培養他人》。本篇是第三篇，篇幅較長。針對長文的閱讀方式，依舊建議在《完成自我認知升級》中提到的閱讀方式：“在一個不被打擾的時間做好隻字不差閱讀，用批判性思維思考和

2023-09-13 01:22:12

BeautifulPrompt：PAI 推出自研 Prompt 美化器，賦能 AIGC一鍵出美圖

背景 Stable Diffusion（SD）是一種流行的AI生成內容（AI Generated Content，AIGC）模型，能在文字輸入的基礎上生成各種風格多樣的圖像。在目前的AIGC方向，SD是開源社區最熱門的模型。然而，SD能夠

2023-06-21 12:25:47

我在京東做研發 | 從好玩到好用，爆火ChatGPT前沿分享

| 嘉賓：吳友政，京東集團高級總監、京東科技語音語言算法部負責人。 2006年中科院自博士畢業後，先後在日本國立信息通信研究機構、英國愛丁堡大學、索尼中國研究院從事自然語言處理相關研究工作，主要聚焦自然語言處理、人機對話、語音識別、機器翻

2023-02-24 23:41:13

強化學習入坑總結

總結一下自己入坑強化學習的經驗。在入坑之前，自己對強化學習基本一無所知，所以對於強化學習的學習基本上是從零開始。下面總結一下自己學習強化學習所看的網課，教材，論文，代碼網課莫煩的強化學習教程。這個教程真的是通俗易懂，完全針對初

2021-12-25 21:10:24

24小時熱門文章

最新文章

最新評論文章