Bandit 冷啓動算法

版權聲明:本文爲博主-姜興琪原創文章,未經博主允許不得轉載。

Bandit算法起源於賭博學,是一個多臂賭博機算法

原始問題:一個賭徒搖老虎機,走進賭場一看,一排老虎機外表一模一樣,但每個老虎機吐錢的概率不一樣,它不知道老虎機吐錢概率分佈,那麼如何最大化收益?

類比到推薦系統,Topic對應老虎機,新用戶對應賭徒。

每個Topic都維護兩個基於beta分佈的參數:WIN和LOSS, 針對一個新用戶,使用Thompson採樣爲每一個類別採樣一個隨機數,排序後,輸出採樣值top N 的推薦item。

獲取用戶的反饋(點擊),沒有反饋則更新對應類別的lose值,點擊了則更新對應類別的wins值。

我們可以通過幾次試驗,來刻畫出新用戶心目中對每個Topic的感興趣概率。

如此經歷“選擇-觀察-更新-選擇”的循環,理論上是越來越逼近用戶真正感興趣的Topic

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章