輔助讀懂Reinforcement Learning for Slate-based Recommender Systems

基礎知識準備

強化學習入門簡單實例 DQN
強化學習入門 第一講 MDP
隨筆分類 - 0084. 強化學習

中文翻譯

強化學習RL應用在youtube推薦系統 2019谷歌論文解讀

強化學習應用k推薦的問題

slate在文中的意思大概就是一次性推薦k個item給用戶。由於是k個item的組合,動作空間是非常大的。
在這裏插入圖片描述

Choice Model

在本文的強化學習中使用到了choice model模型的技巧。簡單來說choice model就是預估用戶在推薦的動作A中選擇某個item的概率。
在這裏插入圖片描述
在這裏插入圖片描述

Slate-Q的分解

因爲動作空間過大,文中對Slate-Q進行了分解。
在這裏插入圖片描述
得到q的更新公式:
在這裏插入圖片描述

Slate優化

前面提到了Slate-Q的分解,以及分解後的q的TD更新方式。那麼如何根據這個q值來獲得推薦的動作A呢?作者提出三種方式:標準方式、top-k、貪心。
標準方式:
目標函數定義爲,注意作者的P是由模型預測出來的。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
top-k和貪心:
這兩種啓發式方法效果也不錯。
在這裏插入圖片描述

僞代碼

在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章