輔助讀懂Top-K Off-Policy Correction for a REINFORCE Recommender System

基礎知識準備

強化學習入門簡單實例 DQN
強化學習入門 第一講 MDP
隨筆分類 - 0084. 強化學習

目標函數

首先需要定義目標函數來優化模型參數,此處使用的REINFORCE算法解決RL問題:
在這裏插入圖片描述
求導證明參考

OFF-POLICY糾偏

OFF-POLICY指的是要更新的策略和生成訓練數據的策略並不是同一個策略,也就是除了存在一個RL算法外,還有其他算法也會產生推薦。那麼這些策略混合在一起會生成訓練數據,但生成的訓練數據只在RL算法上用於更新。因此二者之間存在分佈差異。作者引入 importance weighting 來解決該問題。
在這裏插入圖片描述
beta是混合策略,pai是RL策略。爲解決bata策略與pai策略分佈的差異,使用importance weight來糾偏。但是importance weight是一個鏈式乘法項。其會導致推測器的高方差。所以採用降低importance weight精準度(忽略項+一階近似)來降低高方差。由公式(3)生成最終的梯度計算方法。

模型化策略PAI

policy gradient方法是輸入狀態S,輸出動作A的分佈。作者使用的chaos free rnn。
在這裏插入圖片描述
在這裏插入圖片描述
簡而言之,模型初始狀態服從一個初始分佈,然後根據每一步的action,由rnn輸出新的狀態,在預測時,使用新狀態特徵與action特徵內積形式輸入softmax來輸出動作分佈。在實驗中初始分佈爲0,context包括頁數、設備、時間差等信息。對於0-reward的行爲將不會用於參數更新。

混合策略beta的預測

在off-policy中,梯度計算涉及到beta分佈值。但是在實際情況中,很多策略是無法控制的或者就是一些規則策略。因此作者重用了RNN模型,對於RNN模型輸出的狀態添加一個額外的head來預測beta分佈,並且block該head的梯度傳播。
在這裏插入圖片描述

Top-K Off-Policy糾偏

推薦系統需要一次性推薦K個item。作者採用迭代採樣k個item來實現。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在梯度更新的糾偏上又加入了一項因素lamba。

其他方差降低方法

在這裏插入圖片描述

代碼

非官方開源
這份代碼只能走個過程,和論文差別很大。

Trick原理

log-derivative推導:
在這裏插入圖片描述
一階近似公式:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章