基礎知識準備
強化學習入門簡單實例 DQN
強化學習入門 第一講 MDP
隨筆分類 - 0084. 強化學習
中文翻譯
強化學習RL應用在youtube推薦系統 2019谷歌論文解讀
強化學習應用k推薦的問題
slate在文中的意思大概就是一次性推薦k個item給用戶。由於是k個item的組合,動作空間是非常大的。
Choice Model
在本文的強化學習中使用到了choice model模型的技巧。簡單來說choice model就是預估用戶在推薦的動作A中選擇某個item的概率。
Slate-Q的分解
因爲動作空間過大,文中對Slate-Q進行了分解。
得到q的更新公式:
Slate優化
前面提到了Slate-Q的分解,以及分解後的q的TD更新方式。那麼如何根據這個q值來獲得推薦的動作A呢?作者提出三種方式:標準方式、top-k、貪心。
標準方式:
目標函數定義爲,注意作者的P是由模型預測出來的。
top-k和貪心:
這兩種啓發式方法效果也不錯。
僞代碼