強化學習 | COMA

原創

2021-06-24 11:03

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"本文首發於：","attrs":{}},{"type":"link","attrs":{"href":"https://xingzheai.cn/details/ec62be1696c","title":"","type":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"行者AI","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在多agent的強化學習算法中，前面我們講了QMIX，其實VDN是QMIX的一個特例，當求導都爲1的時候，QMIX就變成了VDN。QTRAN也是一種關於值分解的問題，在實際的問題中QTRAN效果沒有QMIX效果好，主要是QTRAN的約束條件太過於鬆散，導致實際沒有理論效果好。但是QTRAN有兩個版本，QTRAN_BASE和QTRAN_ALT，第二版本效果比第一要好，在大部分實際問題中和QMIX的效果差不多。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"上述的算法都是關於值分解的，每個agent的回報都是一樣的。如果在一局王者榮耀的遊戲中，我方大順風，我方一名角色去1打5，導致陣亡，然後我方4打5，由於我方處於大優勢，我方團滅對方，我方所有的agent都獲得正的獎勵。開始去1打5的agnet也獲得了一個正的獎勵，顯然他的行爲是不能獲得正的獎勵。就出現了“喫大鍋飯”的情況，置信度分配不均。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"COMA算法就解決了這種問題，利用反事實基線來解決置信度分配的問題。COMA是一種“非中心化”的策略控制系統。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"1. Actor-Critic","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"COMA主要採樣了Actor-Critic的主要思想，一種基於策略搜索的方法，中心式評價，邊緣式決策。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"2. COMA","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"COMA主要使用反事實基線來解決置信分配問題。在協作智能體的系統中，判斷一個智能體執行一個動作的的貢獻有多少，智能體選取一個動作成爲默認動作（以一種特殊的方式確認默認動作），分別執行較默認動作和當前執行的動作，比較出這兩個動作的優劣性。這種方式需要模擬一次默認動作進行評估，顯然這種方式增加了問題的複雜性。在COMA中並沒有設置默認動作，就不用額外模擬這基線，直接採用當前策略計算智能體的邊緣分佈來計算這個基線。COMA採用這種方式大大減少了計算量。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"基線的計算：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"katexblock","attrs":{"mathString":"\\sum_{u'a}\\pi^a(u^{'a}|\\tau^a)Q(s,(u^{-a},u^{'a}))"}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"COMA網絡結構","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/7b/7b0007b4564d2cd8cf410fd4791b1567.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"圖中（a）表示COMA的集中式網絡結構，（b）表示actior的網絡結構，（c）表示Critic的網絡結構。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"3. 算法流程","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"初始化actor_network，eval_critic_network，target_critic_network，將eval_critic_network的網絡參數複製給target_critic_network。初始化buffer ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"D"}},{"type":"text","text":"，容量爲","attrs":{}},{"type":"katexinline","attrs":{"mathString":"M"}},{"type":"text","text":"，總迭代輪數","attrs":{}},{"type":"katexinline","attrs":{"mathString":"T"}},{"type":"text","text":"，target_critic_network網絡參數更新頻率","attrs":{}},{"type":"katexinline","attrs":{"mathString":"p"}},{"type":"text","text":"。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"katexinline","attrs":{"mathString":"for"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"t"}},{"type":"text","text":"=","attrs":{}},{"type":"katexinline","attrs":{"mathString":"1"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"to"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"T"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"do"}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"1）初始化環境","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2）獲取環境的","attrs":{}},{"type":"katexinline","attrs":{"mathString":"S"}},{"type":"text","text":"，每個agent的觀察值","attrs":{}},{"type":"katexinline","attrs":{"mathString":"O"}},{"type":"text","text":"，每個agent的","attrs":{}},{"type":"katexinline","attrs":{"mathString":"avail"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"action"}},{"type":"text","text":"，獎勵","attrs":{}},{"type":"katexinline","attrs":{"mathString":"R"}},{"type":"text","text":"。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"3）","attrs":{}},{"type":"katexinline","attrs":{"mathString":"for"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"step=1"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"to"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"episode"}},{"type":"text","text":"_","attrs":{}},{"type":"katexinline","attrs":{"mathString":"limit"}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"a）每個agent通過actor_network，獲取每個動作的概率，隨機sample獲取動作","attrs":{}},{"type":"katexinline","attrs":{"mathString":"action"}},{"type":"text","text":"。actor_network，採用的GRU循環層，每次都要記錄上一次的隱藏層。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"b）執行","attrs":{}},{"type":"katexinline","attrs":{"mathString":"action"}},{"type":"text","text":"，將","attrs":{}},{"type":"katexinline","attrs":{"mathString":"S"}},{"type":"text","text":"，","attrs":{}},{"type":"katexinline","attrs":{"mathString":"S_{next}"}},{"type":"text","text":"，每個agent的觀察值","attrs":{}},{"type":"katexinline","attrs":{"mathString":"O"}},{"type":"text","text":"，每個agent的","attrs":{}},{"type":"katexinline","attrs":{"mathString":"avail"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"action"}},{"type":"text","text":"，每個agent的","attrs":{}},{"type":"katexinline","attrs":{"mathString":"next"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"avail"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"action"}},{"type":"text","text":"，獎勵","attrs":{}},{"type":"katexinline","attrs":{"mathString":"R"}},{"type":"text","text":"，選擇的動作","attrs":{}},{"type":"katexinline","attrs":{"mathString":"u"}},{"type":"text","text":"，env是否結束","attrs":{}},{"type":"katexinline","attrs":{"mathString":"terminated"}},{"type":"text","text":"，存入經驗池","attrs":{}},{"type":"katexinline","attrs":{"mathString":"D"}},{"type":"text","text":"。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"c）","attrs":{}},{"type":"katexinline","attrs":{"mathString":"if"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"len(D)"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":">="}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"M"}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"d）隨機從","attrs":{}},{"type":"katexinline","attrs":{"mathString":"D"}},{"type":"text","text":"中採樣一些數據，但是數據必須是不同的episode中的相同transition。因爲在選動作時不僅需要輸入當前的inputs，還要給神經網絡輸入hidden_state，hidden_state和之前的經驗相關，因此就不能隨機抽取經驗進行學習。所以這裏一次抽取多個episode，然後一次給神經網絡傳入每個episode的同一個位置的transition。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"e）","attrs":{}},{"type":"katexinline","attrs":{"mathString":"td_error =G_t-Q_eval"}},{"type":"text","text":"計算loss,更新Critic參數。","attrs":{}},{"type":"katexinline","attrs":{"mathString":"G_t"}},{"type":"text","text":"表示從狀態","attrs":{}},{"type":"katexinline","attrs":{"mathString":"S"}},{"type":"text","text":"，到結束，獲得的總獎勵。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"f）通過當前策略計算每個agent的每個step的基線，基線計算公式：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"katexblock","attrs":{"mathString":"\\sum_{u'a}\\pi^a(u^{'a}|\\tau^a)Q(s,(u^{-a},u^{'a}))（邊緣分佈）"}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"g）計算執行當前動作的優勢advantage：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"katexblock","attrs":{"mathString":"A^a(s,u) = Q(s,u)-\\sum_{u'a}\\pi^a(u^{'a}|\\tau^a)Q(s,(u^{-a},u^{'a}))"}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"h）計算loss，更新actor網絡參數:","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"katexblock","attrs":{"mathString":"loss=((advantage*select_action_pi_log)*mask).sum()/mask.sum()"}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"i）","attrs":{}},{"type":"katexinline","attrs":{"mathString":"if"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"t"}},{"type":"text","text":" ","attrs":{}},{"type":"katexinline","attrs":{"mathString":"p==0"}},{"type":"text","text":" :","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"j）將eval_critic_network的網絡參數複製給target_critic_network。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"4. 結果對比","attrs":{}}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/36/367edefa686f7899b9b2c1181be718af.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我自己跑的數據，關於QMIX，VDN，COMA，三者之間的對比，在相同場景下。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/f0/f030413402981f3c825a455e7004e14e.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/e0/e0a2430f1936314c82cf9b061d6e40b6.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"5. 算法總結","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"COMA在論文寫的算法原理很好，但是在實際的場景中，正如上面的兩張圖所示，COMA的表現並不是很理想。在一般的場景中，並沒有QMIX的表現好。筆者建議讀者，在實際的環境中，可以試試VDN，QMIX等等，COMA不適合“帶頭衝鋒”。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"6. 資料","attrs":{}}]},{"type":"numberedlist","attrs":{"start":1,"normalizeStart":1},"content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":1,"align":null,"origin":null},"content":[{"type":"text","text":"COMA：https://arxiv.org/abs/1705.08926","attrs":{}}]}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練

本文分享自華爲雲社區《MindSpore強化學習：使用PPO配合環境HalfCheetah-v2進行訓練》，作者： irrational。半獵豹（Half Cheetah）是一個基於MuJoCo的強化學習環境，由P. Wawrzyński

2024-04-29 10:33:13

圖片旋轉後保存到數據庫

1、圖片通過canvas繪製 2、canvas旋轉 3、canvas 轉成blob 在實例化成文件 4、創建formData裏面append放入文件和其他的參數，再調上傳接口 <div style=" heig

2024-04-29 10:16:22

記一次北京某大學邏輯漏洞挖掘

0x01 信息收集個人覺得教育src的漏洞挖掘就不需要找真實IP了，我們直接進入正題，收集某大學的子域名，可以用oneforall，這裏給大家推薦一個在線查詢子域名的網站：https://www.virustotal.com/ 收集到的子

2024-04-28 22:47:25

1 名工程師輕鬆管理 20 個工作流，創業企業用 Serverless 讓數據處理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

實用分享！用Axure RP構建交互的5個小技巧

Axure RP是一套專門爲網站或應用程序所設計的快速原型設計工具，可以讓應用網站策劃人員或網站功能界面設計師更加快速方便的建立Web AP和Website的線框圖、流程圖、原型和規格。在Axure RP中，交互是創建豐富而逼真的原型的

2024-04-28 11:35:53

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

系統整容紀：責任鏈設計模式的應用實戰（爆燈了，研發工期由45天降爲1天）

本文通過介紹使用責任鏈設計模式的背景和經歷，來使得讀者加深對於此設計模式的印象，甚至受到一定的啓發來對自己當下所參與、所負責的項目進行“整容”，從而提升系統的“美感”。分享工作中的點點滴滴。一、背景在下所負責的系統中有這麼一個模

2024-04-28 11:17:20

使用 @NoRepositoryBean 簡化數據庫訪問

在 Spring Data JPA 應用程序中管理跨多個存儲庫接口的數據庫訪問邏輯可能會變得乏味且容易出錯。開發人員經常發現自己爲常見查詢和方法重複代碼，從而導致維護挑戰和代碼冗餘。幸運的是，Spring Data JPA 爲這個問題提供了

2024-04-27 21:36:42

嘉爲藍鯨WeOps與DeepFlow強強聯合，共同打造拓展性運維平臺

直達原文：嘉爲藍鯨WeOps x DeepFlow | 強強聯合，共同打造拓展性運維平臺運維管理在企業信息化建設中扮演着至關重要的角色，嘉爲藍鯨WeOps一體化運維平臺致力於爲客戶提供更全面、智能的運維能力。在探索創新的過程中，我們深刻

2024-04-26 23:23:22

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

Sealos 雲主機正式上線，便宜，便宜，便宜！

我們基於 Sealos 雲開發的能力，僅用三天時間就上線 Sealos 的雲主機能力，現在不太懂容器的同學也可以在 Sealos 上開心的使用虛擬機了，本文先說 Sealos 雲主機的優勢，再聊聊我們是怎麼這麼快實現上線的，以及爲什麼我們要

2024-04-26 21:14:40

從零開始學架構V2-架構設計流程-2

一、架構設計流程架構的設計的是爲了降低整體的複雜性，那麼架構設計的第一步就是熟悉業務，識別其中的核心訴求，僅考慮技術的話就是識別複雜度。 1.1 識別複雜度架構的複雜度主要來源於第一節中介紹的“高性能”“高可用”“可擴展”等幾個方面，實

2024-04-25 23:56:26

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

三十分鐘入門基礎Go（Java小子版）

前言 Go語言定義 Go（又稱 Golang）是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 開發的一種靜態、強類型、編譯型語言。Go 語言語法與 C 相近，但功能上有：內存安

2024-04-25 23:17:43

24小時熱門文章

最新文章

最新評論文章