論文筆記——Thompson Sampling for Contextual Bandits with Linear Payoffs(線性收益)

Thompson Sampling for Contextual Bandits with Linear Payoffs(線性收益)

參考論文：
Agrawal S , Goyal N . Thompson Sampling for Contextual Bandits with Linear Payoffs[J]. 2012.

摘要

有關Thompson Sampling理論性能的許多問題仍未解決
本文設計和分析

Thompson Sampling algorithm
隨機 contextual multi-armed bandit 問題（上下文信息由自適應的adversary提供）
線性收益函數

Introduction

MAB問題主要用於爲許多順序決策問題中固有的勘探/開發權衡建模。

1. contextual MAB

在這個問題中，在每輪T輪中，一個learner會從N個action中選擇一個最好的，N個action稱爲N個arms。

在選擇要哪個arms之前，learner會看到與每個arm i相關聯的d維特徵向量bi，稱爲“上下文”。

learner將這些特徵向量與她過去使用過的arm的特徵向量和reward一起使用，以選擇在當前回合中要選擇的arm。
隨着時間的流逝，learner的目標是收集有關特徵向量和reward如何相互關聯的足夠信息，以便她可以確定地通過觀察特徵向量來預測哪條arm可能會提供最佳reward。

learner與一類預測變量競爭，其中每個預測變量都接受特徵向量並預測哪條arm會獲得最佳回報。如果learner可以保證在事後預測中所做的工作與最佳預測者的預測幾乎一樣（即，regret很低——用於評判該learner（算法）的有效性），那麼該learner可以成功地與該類競爭。

pridictor由d爲參數 $\bar{\mu}$ 來定義，然後根據 $b_{i}^{T} \bar{\mu}$ 來將arms排序
即：假設有個未知參數 $\mu$ ，則每個arm對應的reward爲 $b_{i}^{T} \bar{\mu}$ ，學習者的目標就是學習該未知參數 $\mu$

2. Thompson sampling(TS)

基本思想是：假設每個arm的reward分佈的基礎參數具有簡單的先驗分佈，並且在每個時間步長，根據該先驗分佈成爲最佳arm的後驗概率來選擇arm

主要包含以下參數：

一組參數 $\mu$
關於這些參數的先驗分佈 $p(\bar{\mu})$
過去的觀察結果D，由t-1時刻的上下文b，獎勵r組成
似然函數 $P(\mathcal{r} |b, \tilde{\mu})$
，即給定上下文b和參數 $\mu$ 的情況下得到獎勵的概率
後驗分佈 $P(\tilde{\mu} | \mathcal{D}) \propto P(\mathcal{D} | \tilde{\mu}) P(\tilde{\mu})$ ，其中 $P(\mathcal{D} | \tilde{\mu})$ 是似然函數

在每一輪中，TS根據具有最好參數的後驗概率來選擇arm。
一種簡單的方法是使用後驗分佈爲每個arm生成參數樣本，然後選擇生成最佳樣本的arm。

使用高斯先驗和高斯似然函數

在本文中，我們使用基於鞅的分析技術（novel martingale-based analysis techniques）來證明TS對具有線性收益函數的隨機contextual bandits實現了高概率，接近最優的regret界限。

3.問題設置和算法描述

3.1 問題設置

N個arms,每個arm i
時間t
上下文向量 $b_{i}^{T}(t)$
要學習的參數 $\mu$
時間t內選擇的動作 $a(t)$
歷史信息 $\mathcal{H}_{t-1}=\left\{a(\tau), r_{a(\tau)}(\tau), b_{i}(\tau), i=1, \ldots, N, \tau=1, \ldots, t-1\right\}$ ，包括t-1時刻之前已經選擇的arm及其對應的rewards,和t-1時刻觀察到的上下文向量 $b_{i}(\tau)$

給定 $b_{i}(t)$ ，時間t內arm i 的獎勵是通過平均量 $b_{i}^{T}(t)$ 的（未知）分佈生成的，其中
$\bar{\mu} \in \mathbb{R}^{d}$ 是一個固定但未知的參數：

$\mathbb{E}\left[r_{i}(t) |\left\{b_{i}(t)\right\}_{i=1}^{N}, \mathcal{H}_{t-1}\right]=\mathbb{E}\left[r_{i}(t) | b_{i}(t)\right]=b_{i}(t)^{T} \mu$

時間t內最優的arm $a^*(t)$ , $a^*(t)=argmax_ib_i(t)^T\mu$
$\Delta_i(t)$ 爲時間t時最優arm和arm i的平均reward之間的差值：

$\Delta_i(t)=b_{a^*(t)}(t)^T\mu-b_i(t)^T\mu$
則時間t內的regret定義爲：

$regret(t)=\Delta_{a(t)}(t)$
$regret(t)=r_{a^*(t)}(t)-r_{a(t)}(t)$
算法的目標是最小化時間T內總的regret

且假設（對所有t和i）：

$\left\|b_{i}(t)\right\| \leq 1,\|\mu\| \leq 1, \text { and } \Delta_{i}(t) \leq 1$
使得regret界限無標度。

3.2 Thompson Sampling 算法

使用高斯似然函數和高斯先驗設計湯普森採樣算法。

更精確地，假設在給定上下文 $b_{i}(t)$ 和參數 $\mu$ 的情況下，在時間t處：

$r_i(t)$ 的似然由高斯分佈 $\mathcal{N}\left(b_{i}(t)^{T} \mu, v^{2}\right)$ 的概率密度函數給出。（v是給定的值）

令：

$\begin{aligned} B(t) &=I_{d}+\sum_{\tau=1}^{t-1} b_{a(\tau)}(\tau) b_{a(\tau)}(\tau)^{T} \\ \hat{\mu}(t) &=B(t)^{-1}\left(\sum_{\tau=1}^{t-1} b_{a(\tau)}(\tau) r_{a(\tau)}(\tau)\right) \end{aligned}$

$\mu$ 的先驗分佈服從~ $\mathcal{N}\left(\hat\mu(t) , v^{2}B(t)^{-1}\right)$ ,則TS算法需要從 $\mathcal{N}\left(\hat\mu(t) , v^{2}B(t)^{-1}\right)$ 分佈中採樣，得到採樣值 $\tilde{\mu}(t)$ ; $\hat{\mu}(t)$ 是要學習的參數 $\mu$ 在時間t內的均值。
則t+1時刻的後驗分佈可根據 $Pr(\tilde{\mu} | r_i(t)) \propto Pr(r_i(t) | \tilde{\mu}) P(\tilde{\mu})$ 計算得出。

1）算法一

是對每個時間t內的所有arm，從所給分佈採樣整體的參數miu
然後再對每個arm i 求reward： $b_i(t)^T\tilde{\mu}(t)$

2)算法二

是在每個時隙t內，針對每個arm t 直接根據獎勵的分佈採樣得到每個arm的獎勵採樣值。

3）算法三

首先所有上下文向量以及要學習的參數都是獨立於每個arm i的，有新的定義：

即不同的arm會有不同的參數 $\mu$ ,該算法會爲每個arm i 的均值 $\mu_i(t)$ 和 $B_i(t)$ 維持單獨的估計。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文筆記——Thompson Sampling for Contextual Bandits with Linear Payoffs(線性收益)

Thompson Sampling for Contextual Bandits with Linear Payoffs(線性收益)

摘要

Introduction

1. contextual MAB

2. Thompson sampling(TS)

3.問題設置和算法描述

3.1 問題設置

3.2 Thompson Sampling 算法

1）算法一

2)算法二

3）算法三

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

利用Ajax進行前端和後端互傳數據

同步Ubuntu18.04和win7雙系統的時間

經典模塊化前端框架LayUI——表格+表格重載

經典模塊化前端框架LayUI——實現警告框彈出

論文筆記——Thompson Sampling for Contextual Bandits with Linear Payoffs(線性收益)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結