DRN: A Deep Reinforcement Learning Framework for News Recommendation學習

歡迎轉載,請註明出處https://blog.csdn.net/ZJKL_Silence/article/details/85798935。
本文提出了(基於深度Q-learning 的推薦框架)基於強化學習的推薦系統框架來解決三個問題:
1)首先,使用DQN網絡來有效建模新聞推薦的動態變化屬性,DQN可以將短期回報和長期回報進行有效的模擬。
2)將用戶活躍度(activeness score)作爲一種新的反饋信息,不僅僅考慮點擊率作爲回報。
3)使用Dueling Bandit Gradient Descent方法來進行有效的探索。
在這裏插入圖片描述
當前強化學習中已經提出增加一些隨機性到決策中,來尋找新的物品。e-greedy或者UCB主要作爲多臂賭博方法,因爲e-greedy可能給消費者推薦完全不相關的物品,然而,UCB只有對物品進行多次嘗試,纔可以得到相對準確的回報估計。這兩種方法在短期內可能損害推薦的性能,這裏採取更加有效的探索。
本文用競爭賭博梯度下降方法進行探索。通過在當前推薦的鄰居候選物品中隨機選擇一些物品,這樣介意避免推薦完全不相關的物品,因此可以保持較好的推薦準確性。
對於上圖,描述了強化學習的四個必要因素:
狀態:用戶的特徵
動作:物品(新聞)特徵
環境:用戶和物品池
回報:點擊率和用戶的活躍度
強化過程:將用戶的連續狀態特徵表示和連續的物品動作特徵表示作爲多層深度Q-網絡,預測潛在回報。
該框架優點:
1、可以處理高度動態的新聞推薦,由於可以在線更新DQN。同時,DQN網卡可以推斷用戶和物品之間將來的交互。
2、結合用戶的活躍度和來最用戶反饋的點擊率作爲 回報。
3、利用DBGD策略更改推薦多樣性。
模型框架包括線下階段和線上階段:
線下階段:抽取用戶和物品的四種特徵。利用用戶和物品的點擊記錄進行訓練該網絡。
四種特徵:新聞特徵,進行one-hot編碼後的417維度特徵;用戶特徵413*5=2065;用戶新聞特徵:用戶和新聞之間的交互特徵25;上下文特徵32;
線上學習部分:我們推薦代理G將於用戶進行交互,並按照以下方式更新網絡:
(1)push:在每個時間戳用戶像系統法師弓一個新聞請求,推薦代理G將當前用戶和候選的新聞的特徵表示作爲DQN網絡的輸入並生成新聞推薦列表L,L的產生是結合當前模型的利用和新穎物品的探索。
(2)反饋:用戶u將根據推薦新聞列表L,其點擊率做爲反饋
(3)次要更新:在每個時間戳之後,先前用戶的特徵表示,其推薦列表L,反饋B。代理G將通過利用Q網絡和探索網絡Q’比較推薦的性能。若Q’能夠給出較好的推薦,將當前網絡朝着Q’網絡更新,否則保持Q網絡不變。
(4)主要更新:在經過一段時間T後,代理將利用用戶的反饋和存儲在內存中的用戶的活躍度和反饋更新Q網絡。因此我們將利用
經驗重放技術更新網絡。每次更新,代理將抽樣批量記錄更新模型。
模型的整個回報
在這裏插入圖片描述
對於DDQN的reward:在這裏插入圖片描述
這裏t+1是因爲回報總是延時;
在這裏插入圖片描述
用戶的活躍度
利用用戶的生存分析構建用戶的活躍度;
在這裏插入圖片描述
利用DBGD算法進行探索
在這裏插入圖片描述
代理G使用當前Q網絡產生推薦表L;利用探索網絡Q’產生推薦列表L’;在原來Q網絡的W基礎上,增加小的擾動到當前的Q網絡中:
在這裏插入圖片描述

將使用概率交錯算法算法首先隨機的在L和L’選擇物品,假設L被選中,來自列表L的物品i,將通過在L中的排序以確定性的概率放入L’中。然後推薦列表L’作爲用戶u的推薦列表,並得到反饋B。若利用探索網絡Q’獲得比較好的反饋,代理將更新Q網絡朝着Q’網絡進行更新。參數更新如下:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章