Value targets in off-policy AlphaZero: a new greedy backup

原創

2023-04-16 13:38

發表時間：2021
文章要點：這篇文章給AlphaZero設計了一個新的value targets，AlphaZero with greedy backups (A0GB)。
AlphaZero的樹裏面有探索，而value又是所有結果的平均，所以並不準確。而選動作也是依概率選的，但真正測試的時候是選的訪問次數最多的動作，所以這個方法是off-policy，也會存在不一致。作者比較了文章中提出的方法和幾種常見的方法的區別，如下圖所示

其中AlphaZero target用的是真實數據的勝負關係，Soft-Z target用的是根節點的估計，A0C target用的是根節點的子節點中最大的那個value backup回去得到的，文章提出的A0GB是用的greedy策略走到葉節點的value再backup回去得到的。
這裏就涉及幾個維度，一個是真實遊戲的backup depth，另一個是樹裏面的backup depth，最後一個是樹裏面的backup width，所以作者就畫了最上面那幅三個維度的圖，以及總結的關係如下表

最後就在幾個遊戲上測試了一下，說他這個方式效果最好。
總結：感覺這個問題還挺有意思的，可以深入研究下這裏面的關係。
疑問：無。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

iNeuOS工業互聯網操作系統，增加電力IEC104協議

1. 概述... 2 2. 配置IEC104協議設備驅動... 2 1. 概述　　IEC60870-5-104 是一種電力自動化系統中常用的通信協議，使用 TCP/IP 協議作爲底層通信協議，用於監視和控制電

唯笑志在-ineuos.net

2024-05-29 14:29:22

【Mac】前後端分離項目（springboot + vue）用nginx部署

步驟 npm run build 把項目打包到dist目錄下。新建vue.config.js const { defineConfig } = require('@vue/cli-service') module.exports = d

金大鑫要堅持

2024-05-29 14:27:52

圖牀PicGo

https://github.com/Molunerfinn/PicGo https://github.com/Molunerfinn/PicGo

2024-05-29 14:25:52

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

自託管模式運行dapr 新建訂閱webapi項目,取名爲backend 項目增加docker支持，取消https支持修改Program.cs var builder = WebApplication.CreateBuilder(args)

2024-05-29 14:25:52

編程循環（2024-5-29）

找了下go的介紹，看了一下爲什麼處理併發好。有小線程和通道。小線程是在線程的基礎上，go自己維護的線程，減少線程切換的開銷和更靈活分配空間。通道可以在線程之間通訊，是個先進先出的管道，大概是收到數據就觸發繼續執行，就像等待系統輸入一樣

2024-05-29 14:24:02

向量數據庫HNSW算法

向量數據庫構建好embedding後，需要通過相關算法進行檢索，它常用到的相似性搜索算法有HNSW，HNSW算法是NSW算法改進而來,它是屬於ANN算法中不同類別的圖類別中的一種。節點與節點之間的連接方式可以形成3類圖：正則圖，隨

人不瘋狂枉一生

2024-05-29 14:23:51

一個 .NET 開源的地圖組件庫 - Mapsui

前言今天大姚給大家分享一個.NET開源（MIT License）、免費、同時支持多平臺框架（MAUI、WPF、Avalonia、Uno、Blazor、WinUI、Eto、.NET Android 和 .NET iOS）地圖組件庫：Maps

2024-05-29 14:22:51

Windows下的mysql安裝(解壓版)

Windows 安裝並配置 MySQL 5.6_mysql 5.6 安裝-CSDN博客

2024-05-29 14:22:31

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

目前 AI 繪畫領域的產品非常多，比如 Midjourney、Dalle3、Stability AI 等等，這些產品大體上可以分爲兩類：模型與產品深度融合：比如 Midjourney、Dalle3 等等。模型與產品分離：比如 SD W

米開朗基楊

2024-05-29 14:22:21

huggingface 下載與訓練模型時會報 SSLERROR 連接錯誤，解決辦法如下

我用方案一解決解決方案方案1：使用代理（需要梯子）在你的 Python 代碼的開頭加上如下代碼 import os os.environ['HTTP_PROXY'] = 'http://proxy_ip_address:port'

2024-05-29 14:19:51

（三）SQL基礎-設置主鍵爲自增序列

一、如何設置主鍵爲自增標誌注意：這個設置必須要在創建表之前設置好，不然會報錯無法修改。

代號六零一

2024-05-29 14:18:10

《最新出爐》系列入門篇-Python+Playwright自動化測試-49-Route類攔截修改請求-下篇

1.簡介在日常工作和學習中，自動化測試的時候：在加載頁面時，可能頁面出現很多不是很重要或者不是我們所關注的，這個時候我們就可以選擇不加載這些內容，以提高頁面加載速度，節省資源。例如：可能頁面上圖片比較多，而我們又不關心圖片內容。那麼，在

2024-05-29 14:15:30

springboot~封裝依賴引用包jar還是pom，哪種更規範

將多個第三方包封裝成一個項目後，如果你的目的是讓其他開發人員可以直接引用這些依賴，一般來說有兩種常見的方式：打成JAR包：將封裝好的項目編譯打包成JAR文件，其他開發人員可以將這個JAR文件添加到他們的項目中，並在項目的構建工具（比如

2024-05-29 14:13:20

kbgressdb之數據結構V0.2

前言原本計劃2024.05.01日開始編碼，直到2024.05.21日纔開始編碼，因爲在2024.05.19日才感覺體力恢復到了九成，然後就開始kbgressdbV0.2版本設計，經過一週的推演與構思，終於在2024.05.29日完成V0

2024-05-29 14:11:40

css03 CSS Selectors

https://www.w3schools.com/css/css_selectors.asp A CSS selector selects the HTML element(s) you want to style. CSS Selec

2024-05-29 14:11:29

24小時熱門文章

最新文章

最新評論文章