2021 重啓強化學習(5) 多搖臂老虎機(UCB)

原創

2021-04-03 10:02

如果想觀看相關視頻可以在西瓜視頻(賬號zidea)或者嗶哩嗶哩(賬號zidea2015)找到我發佈視頻解說，注意頭像和簡書使用頭像一致。

通過一個問題引入置信區間

老虎機
1	1,0,0,1,1,0,0,1,0,1	0.5
2	1	1
3	1,1,0,1,1,1,0,1,1,1	0.8

不只是看平均贏率，還要看贏率的置信度(confidence)

置信區間

其實置信區間沒有那麼複雜，這裏簡單用語言描述一下，就是對 MAB(多搖臂老虎機)我們都是通過嘗試來得到值去推測其概率分佈，那麼我們看到均值是否接近真實值是和我們做實驗次數多少有關係的，也就是實驗次數越多這個值就越準確，這是我們想的，如何用數學嚴謹表達這件事，就引入置信區間的概念。

定義一個範圍，均值會以一定概率落在這個範圍，例如會 0.95 的概率，落在在 0.2 到 0.5 內
實驗次數少，置信區間大，也就是不可靠
實驗次數增加，置信區間變窄，估計越來越準確

樂觀策略

選擇置信區間上界最大搖臂老虎機
通過線性迴歸估計出 $\hat{p}$ 通常會

置信區間的上界

假設已經對老虎機 $i$ 實驗了 $m$ 次
對其均值的估計
$\hat{\mu}_m = \frac{1}{m} \sum_{i=1}^m R_i$
一定概率的置信區間
$|\mu - \hat{\mu}_m| \le b$
一定置信區間的概率
$P(|\mu - \hat{\mu}_m| \le b)$

Heoffding's inequality

$X_1,\cdots,X_m$ 爲獨立同分布的隨機變量，取值範圍爲 $[0,1]$
真實均值 $\mu =\mathbb{E}[X]$
實驗估計 $\hat{\mu}_m \frac{1}{m} \sum_{i=1}^m X_i$
$P(|\mu - \hat{\mu}_m| \le b) \le 2 \exp(-2b^2 m) = \delta$
置信區間 b，其中 $\delta$ 是超參數

$2 e^{-2b^2m} \le \delta \rightarrow b \ge \sqrt{\frac{\ln(\frac{2}{\delta})}{2m}}$

UCB(Upper confidence smapling) 算法

初始化 $\hat{\mu}_1 = \cdots = \hat{\mu}_k = 0$ 以及 $n_1 = \cdots = n_k = 0$
每一步，計算搖臂的 UCB
$UCB(i) = \hat{\mu}_i + \sqrt{\frac{2 \ln t}{n_i}}$
總實驗次數 t 越多，置信區間的 bound 就越大
搖臂老虎機 i 嘗試次數 $n_i$ 越多，置信區間就越窄
讓每個搖臂老虎機總被試，但又考慮已經發現的舉止

UCB 具體操作流程

初始化:對每一臂都嘗試一次
按照如下公式計算每個臂的分數，然後選擇分數最大的臂作爲選擇

$UCB(i) = \hat{\mu}_i + \sqrt{\frac{2 \ln t}{n_i}}$

觀察結果更新 $n_i$ 和 $t$
$\hat{\mu}_i$ 這個臂到目前的收益均值
$\sqrt{\frac{2 \ln t}{n_i}}$ 是上界，本質上是均值的標準差
$t$ 是實驗次數 $n_i$ 是搖臂 $i$ 臂的次數。
這個公式反映一個特點：均值越大，標準差越小，被選中的概率會越來越大，同時哪些被選次數較少的臂也會得到試驗機會。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

C#開源的兩款功能強大的錄屏神器

ScreenToGif ScreenToGif是一款由C#語言開發且開源的操作簡單、免費的屏幕錄製和GIF動畫製作神器。它可以幫助用戶捕捉計算機屏幕上的實時動畫，並將其保存爲高質量的 GIF 圖像格式。該工具不僅適用於技術支持、軟件演示和教

2024-05-03 14:28:27

前端 Vue yarn.lock文件：詳解和使用指南

yarn.lock文件：詳解和使用指南 https://www.python100.com/html/38KF796X6BHM.html 一、什麼是yarn.lock文件 yarn.lock文件是一個產生於Yarn 0.22及以後版

2024-05-03 14:15:26

前端 Vue webpack配置之 webpack.config.js 文件配置

Webpack 在執行的時候，除了在命令行傳入參數，還可以通過指定的配置文件來執行。默認情況下，會搜索當前目錄的 webpack.config.js 文件，這個文件是一個 node.js 模塊，返回一個 json 格式的配置信息對象，或

2024-05-03 14:15:26

Vue package-lock.json的作用

package-lock.json的作用 "node_modules/@aashutoshrathi/word-wrap": { "version": "1.2.6", "resolved": "h

2024-05-03 14:15:26

前端 Vue-cli中 vue.config.js 的配置詳解

Vue-cli 3 / Vue-cli 4 目錄結構 ├── README.md # 說明 |-- dist # 打包後文件夾 ├── babel.config.js

2024-05-03 14:15:26

druid數據源 xml配置

https://blog.csdn.net/h273979586/article/details/87932220 pom依賴 <dependency> <groupId>com.alibaba</groupId>

2024-05-03 14:14:55

Windows中Redis怎麼設置密碼

Windows中Redis怎麼設置密碼

2024-05-03 14:11:15

JDK8和JDK17共存以及切換的方法

1、先安裝"jdk-8u381-windows-x64.exe"，再安裝"jdk-17_windows-x64_bin.exe" 2、"系統屬性"-"高級"-"環境變量"-"系統變量"-"Path"-"編輯"，刪除以下2條 C:\Progr

2024-05-03 14:11:15

centos7修改redis密碼

檢查Redis配置文件首先，我們需要確保Redis的配置文件中包含了設置密碼的選項。打開Redis的配置文件/etc/redis.conf，查找以下行並確保取消註釋（去掉行首的#）： requirepass your_password 啓

2024-05-03 14:11:15

基於SSM的在線外賣訂餐系統畢業設計論文【範文】

摘要隨着互聯網技術的迅猛發展和人們生活節奏的加快，在線外賣訂餐系統因其便捷性和高效率而受到廣泛歡迎。本文圍繞《基於SSM框架的在線外賣訂餐系統》這一課題展開研究，旨在設計並實現一個功能全面、操作簡便且安全可靠的在線外賣訂餐平臺。首先，文

2024-05-03 14:08:24

基於CodeMirror開發在線編輯器時遇到的問題及解決方案

需求：實現json在線編輯並支持校驗，基於此使用了 CodeMirror在線編輯，jsonlint校驗輸入數據 // package.json: "dependencies": { "codemirror": "^5.53.2"

2024-05-03 14:04:44

《軟件性能測試、分析與調優實踐之路》(第2版) PPT課件流出

掃描圖書前言中的如下圖所示的二維碼，即可進入到下載頁面。如下圖所示即爲課件的下載頁面，免費提供下載

2024-05-03 14:01:24

2024年感想

　　看了一眼之前到博客，最近的一次博客還在一年之前，時間如白駒過隙，飛快流逝。這兩年生活和工作都經歷裏很多，想想是應該在這裏好好梳理總結下。我總是感慨，自己從二十六七歲到現在三十多的年紀，好像經歷別人的半輩子，感悟衆多。　　我以前是個朋友

兜兜有糖的博客

2024-05-03 13:57:53

AWS S3 Lambda Python腳本函數實現圖片自動轉換爲webp並上傳至s3

Amazon S3 自動轉換圖片格式 Amazon S3 存儲桶新增文件自動觸發 AWS Lambda。Lambda 取 S3 文件做轉換並存回去 S3 同一個目錄下，並增加相應的後綴名。並且支持通過API Gateway的方式觸發對

2024-05-03 13:51:42

Eclipse Memory Analyzer (MAT)的安裝後提示JDK版本不對要升級到jdk_17

背景在啓動MAT分析內存時報錯：Version1.8.0 of the jvm is not suitable for this product，Version17 or greater isrequired。問題原因很明顯，我電腦的J

2024-05-03 13:51:42

24小時熱門文章

druid數據源 xml配置

最新文章

最新評論文章