Bandit based Monte-Carlo Planning

原創

2023-03-04 13:32

發表時間：2006（ECML 2006）
文章要點：這篇文章提出了UCT算法，把bandit的UCB1算法用到Monte-Carlo planning裏面。
首先假設我們有一個generative model，就是我給一個狀態和動作，就告訴我下一個狀態和reward。有了這個model之後，通常的做法就是搞個lookahead search。最常見的算法就是Monte-Carlo search,通過隨機採樣或者某種heuristic biasing的方法來選動作往前看n步，再回溯看哪個動作的value最高。這個方法的缺點就是sample是隨機的，相互之間沒有聯繫。作者的想法就是，如果在搜索過程中，如果在前期的sampling過程中能識別出一些比較好的動作的子集，那麼就會提升後期的性能（if one is able to identify a large subset of the suboptimal actions early in the sampling procedure then huge performance improvements can be expected.）。同時，這個子集不可能一上來就選對了，所以還需要擴張或者刪減，所以還需要平衡exploration-exploitation。然後作者就提出了經典的UCT算法來選擇動作。首先在bandit問題裏，UCB1是

同時，由Hoeffding's inequality可得

這個不等式就說明了UCB1在bandit問題上的收斂性。然後作者就說，planning其實就相當於是non-stationary bandit，只需要讓

然後取一個合適的\(C_p>0\)就可以滿足那個概率不等式了。這就成了經典的UCT算法了。

總結：算是MCTS的起源文章了，很經典也很有效，像AlphaZero這類算法都是基於UCT改進的，影響力是真的大。
疑問：裏面具體的證明還需要看看UCB的文章。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於vllm，探索產業級llm的部署

一、基本情況 vLLM 部署大模型官方網址: https://vllm.ai github 地址：https://github.com/vllm-project/vllm vLLM 是一個快速且易於使用的庫，用於進行大型語言模型（LLM）

2024-04-24 14:24:31

5款開源、美觀、強大的WPF UI組件庫

前言經常看到有小夥伴在DotNetGuide技術社區交流羣裏提問：WPF有什麼好用或者好看的UI組件庫？,今天大姚給大家分享5款開源、美觀、強大、簡單易用的WPF UI組件庫。 WPF介紹 WPF 是一個強大的桌面應用程序框架，用於構建具

2024-04-24 14:23:11

條款46：需要類型轉換時請爲模板定義非成員函數條款24：若所有參數皆需類型轉換，請爲此採用non-member函數

條款24 ----》條款24：若所有參數皆需類型轉換，請爲此採用non-member函數 **

2024-04-24 14:23:01

面試官：在原生input上面使用v-model和組件上面使用有什麼區別？

前言還是上一篇面試官：來說說vue3是怎麼處理內置的v-for、v-model等指令？文章的那個粉絲，面試官接着問了他另外一個v-model的問題。面試官：vue3的v-model都用過吧，來講講。粉絲：v-model其實就

你假裝沒察覺

2024-04-24 14:22:31

盟軍敢死隊2 360關

https://www.52pojie.cn/thread-1179852-1-1.html 下載後, 先D:\Comm2\Win10全屏補丁運行全屏補丁. 然後Comm2P.exe 右鍵屬性,設置更改dpi, 設置爲應用程序的放縮. 然

張博的博客

2024-04-24 14:21:11

AI 模型

智譜 https://chatglm.cn/main/alltoolsdetail kimi https://kimi.moonshot.cn/ 百川 https://www.baichuan-ai.com/chat

2024-04-24 14:16:10

網購消費投訴平臺

12315 https://www.12315.cn/cuser/ 互聯網信息服務投訴平臺 https://ts.isc.org.cn/#/login

2024-04-24 14:16:10

《最新出爐》系列入門篇-Python+Playwright自動化測試-40-錄製生成腳本

1.簡介各種自動化框架都會有腳本錄製功能， playwright這麼牛叉當然也不例外。很早之前的selenium、Jmeter工具，發展到每種瀏覽器都有對應的錄製插件。今天我們就來看下微軟自動化框架playwright是如何錄製腳本的。很

2024-04-24 14:15:50

c語言使用

如何驗證gcc正常使用，編譯c以及運行過程要驗證GCC（GNU Compiler Collection）是否正常使用，您可以按照以下步驟進行操作：檢查GCC是否安裝：打開終端或命令行界面，輸入以下命令來檢查GCC是否已安裝：

2024-04-24 14:15:10

springboot~mybatis-plus中使用TypeHandler做類型映射

mybatis-plus中，如果數據表字段類型與java實體字段類型不一樣，這時就需要做類型映射與轉換了，我們一般可以實現TypeHandler接口，或者繼承抽象類BaseTypeHandler，我們下面舉例來說明一下它的使用方法。場景

2024-04-24 14:13:50

Computer Basics 05 - Inside a Computer

Inside a computer Have you ever looked inside a computer case, or seen pictures of the inside of one? The small parts ma

2024-04-24 14:11:39

Computer Basics 10 - Setting Up a Computer

Setting up a computer Настройка компьютера So you have a new computer and you're ready to set it up. This may seem li

2024-04-24 14:11:39

代碼段——C#判斷時間是否在某個範圍

目錄1.使用DateTime.Compare()2.通過時間相減計算時間間隔，可以指定精確度 1.使用DateTime.Compare() 注意：兩個比較的時間，一定與相同的時間精度，比如都精確到分鐘，或都精確到日注意：這裏我判斷指定時

2024-04-24 14:11:09

java操作ftp server

參考：https://www.jianshu.com/p/2efc2669b736 POM依賴 <dependency> <groupId>commons-net</groupId>

2024-04-24 14:11:09

Linux shell格式化XML文件

在沒有工具的情況下， cat a.xml | awk -F'><' '{printf "%s\n",$1;for (i=2;i<NF;i++) printf "<%s>",$i;printf "<%s\n" $NF}'

2024-04-24 14:11:09

24小時熱門文章

最新文章

最新評論文章