Bandit 冷啓動算法

原創

2018-12-13 16:25

Bandit算法起源於賭博學，是一個多臂賭博機算法

原始問題：一個賭徒搖老虎機，走進賭場一看，一排老虎機外表一模一樣，但每個老虎機吐錢的概率不一樣，它不知道老虎機吐錢概率分佈，那麼如何最大化收益？

類比到推薦系統，Topic對應老虎機，新用戶對應賭徒。

每個Topic都維護兩個基於beta分佈的參數:WIN和LOSS, 針對一個新用戶，使用Thompson採樣爲每一個類別採樣一個隨機數，排序後，輸出採樣值top N 的推薦item。

獲取用戶的反饋（點擊），沒有反饋則更新對應類別的lose值，點擊了則更新對應類別的wins值。

我們可以通過幾次試驗，來刻畫出新用戶心目中對每個Topic的感興趣概率。

如此經歷“選擇-觀察-更新-選擇”的循環，理論上是越來越逼近用戶真正感興趣的Topic

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.