輔助讀懂Reinforcement Learning for Slate-based Recommender Systems

原創

2020-04-14 15:40

基礎知識準備

強化學習入門簡單實例 DQN
強化學習入門第一講 MDP
隨筆分類 - 0084. 強化學習

中文翻譯

強化學習RL應用在youtube推薦系統 2019谷歌論文解讀

強化學習應用k推薦的問題

slate在文中的意思大概就是一次性推薦k個item給用戶。由於是k個item的組合，動作空間是非常大的。

Choice Model

在本文的強化學習中使用到了choice model模型的技巧。簡單來說choice model就是預估用戶在推薦的動作A中選擇某個item的概率。

Slate-Q的分解

因爲動作空間過大，文中對Slate-Q進行了分解。

得到q的更新公式：

Slate優化

前面提到了Slate-Q的分解，以及分解後的q的TD更新方式。那麼如何根據這個q值來獲得推薦的動作A呢？作者提出三種方式：標準方式、top-k、貪心。
標準方式：
目標函數定義爲，注意作者的P是由模型預測出來的。

top-k和貪心：
這兩種啓發式方法效果也不錯。

僞代碼

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Windows環境下編譯 matconvnet的坑（2）

未定義函數或變量 'export_fig'。出錯 tiny_face_detector (line 197) export_fig('-dpng', '-native', '-opengl', '-transparent', out

2020-07-08 01:05:53

[3 Jun 2015 ~ 9 Jun 2015] Deep Learning in arxiv

arXiv is an e-print service in the fields of physics, mathematics, computer science, quantitative biology, quantitative

2020-07-06 23:45:22

[Fri 19 Jun 2015 ~ Thu 25 Jun 2015] Deep Learning in arxiv

A Neural Network Approach to Context-Sensitive Generation of Conversational Responses Leverage Financial News to Pr

2020-07-06 23:05:10

[DEEP LEARNING An MIT Press book in preparation]Deep Learning for AI

接觸DL已經有半年了，積累了一些實驗的經驗，也對DL有了一些自己的見解和認識，於是乎想擴寬以及加深DL方面相關的一些知識。然後看到一本MIT出版社正要出版的一本關於DL的書http://www.iro.umontreal.ca/~beng

2020-07-06 23:05:10

Deep Learning 激活函數總結

引入激活函數的意義：激活函數是用來加入非線性因素的，提高神經網絡對模型的表達能力，解決線性模型所不能解決的問題（比如線性不可分的問題）。激活函數的作用：在沒有激活函數的神經網絡中所

一条死在减速带的大鱼

2020-07-06 08:41:24

類vgg網絡實現端到端識別驗證碼

項目起因大二在做weibo爬蟲抓取用於情感分析語料時遇到了模擬登陸的問題，其中關鍵的一環就是驗證碼識別。由於當時專業知識有限選擇了對接打碼平臺來解決這個痛點，在時間不充分情況下這是效率最高的方法。但這也在我心中埋下了一個小小的種

一条死在减速带的大鱼

2020-07-06 08:00:11

windows labelme安裝與使用

1. 安裝（1）打開anacoda prompt (2) 輸入 pip install pyqt5 pip install labelme 2. 使用在anaconda prompt輸入 labelme 快捷鍵上一張圖：A 下一張

2020-07-05 20:39:35

caffe cuda docker 環境搭建

注意：在安裝過程中，要時刻提醒自己注意版本的一致性(若不一致，會走很多彎路)，包括nvidia driver cuda cudnn 和caffe ，我們需要的版本是： dirver:384以上 cuda:9.0 cudnn:7.

2020-07-05 17:09:47

經典 network -- 圖像分類篇（01 AlexNet / NIN / VGG）（持續更新）

近期，實驗室小組成員決定定期學習經典網絡模型。因此，特別準備寫這麼一個博客，持續更新我們的學習、及個人對各種經典網絡的理解。如有不足和理解不到位的地方，還望讀者提出質疑和批評，定虛心改進。望共同討論、學習和進步。系列目錄：經典 net

Phoenixtree_Zhao

2020-07-05 10:13:57

MyDLNote - Attention: [NLA系列] Asymmetric Non-local Neural Networks for Semantic Segmentation

Asymmetric Non-local Neural Networks for Semantic Segmentation Zhen Zhu , Mengde Xu , Song Bai , Tengteng Huang , Xiang

Phoenixtree_Zhao

2020-07-05 10:13:46

經典 network -- 圖像分類篇（03 ResNet v1-v2）

近期，實驗室小組成員決定定期學習經典網絡模型。因此，特別準備寫這麼一個博客，持續更新我們的學習、及個人對各種經典網絡的理解。如有不足和理解不到位的地方，還望讀者提出質疑和批評，定虛心改進。望共同討論、學習和進步。系列目錄：經典 net

Phoenixtree_Zhao

2020-07-05 10:13:45

MyDLNote - Network: Deep High-Resolution Representation Learning for Human Pose Estimation

Deep High-Resolution Representation Learning for Human Pose Estimation [paper] https://arxiv.org/pdf/1902.09212.pdf [gi

Phoenixtree_Zhao

2020-07-05 10:13:45

【轉】淺談人類視覺系統與卷積神經網絡(CNN)的聯繫和區別

淺談人類視覺系統與卷積神經網絡(CNN)的聯繫和區別文章轉載：葉強深度學習 / 強化學習 / 機器學習 / 算法 / 眼科學聲明：本文爲作者原創、歡迎免費規範轉載。本文使用的一些圖片素材來自於網絡，感謝素材提供方，如有侵權請聯繫告知

Phoenixtree_Zhao

2020-07-05 10:13:44

【轉】Knowledge-Distillation 知識蒸餾論文集合

Awesome Knowledge-Distillation 博客轉自CTOLib碼庫：https://www.ctolib.com/FLHonker-Awesome-Knowledge-Distillation.html Aweso

Phoenixtree_Zhao

2020-07-05 10:13:44

MyDLNote-Inpainting:[2019 ICCV] Free-Form Image Inpainting with Gated Convolution

Free-Form Image Inpainting with Gated Convolution 本文作者在 2018年 CVPR 上發表了一篇 Generative Image Inpainting with Contextual A

Phoenixtree_Zhao

2020-07-05 10:13:43

24小時熱門文章

最新文章

最新評論文章