版權聲明:本文爲博主-姜興琪原創文章,未經博主允許不得轉載。
Bandit算法起源於賭博學,是一個多臂賭博機算法
原始問題:一個賭徒搖老虎機,走進賭場一看,一排老虎機外表一模一樣,但每個老虎機吐錢的概率不一樣,它不知道老虎機吐錢概率分佈,那麼如何最大化收益?
類比到推薦系統,Topic對應老虎機,新用戶對應賭徒。
每個Topic都維護兩個基於beta分佈的參數:WIN和LOSS, 針對一個新用戶,使用Thompson採樣爲每一個類別採樣一個隨機數,排序後,輸出採樣值top N 的推薦item。
獲取用戶的反饋(點擊),沒有反饋則更新對應類別的lose值,點擊了則更新對應類別的wins值。
我們可以通過幾次試驗,來刻畫出新用戶心目中對每個Topic的感興趣概率。
如此經歷“選擇-觀察-更新-選擇”的循環,理論上是越來越逼近用戶真正感興趣的Topic