輔助讀懂Top-K Oﬀ-Policy Correction for a REINFORCE Recommender System

基礎知識準備

強化學習入門簡單實例 DQN
強化學習入門第一講 MDP
隨筆分類 - 0084. 強化學習

目標函數

首先需要定義目標函數來優化模型參數，此處使用的REINFORCE算法解決RL問題：

求導證明參考

OFF-POLICY糾偏

OFF-POLICY指的是要更新的策略和生成訓練數據的策略並不是同一個策略，也就是除了存在一個RL算法外，還有其他算法也會產生推薦。那麼這些策略混合在一起會生成訓練數據，但生成的訓練數據只在RL算法上用於更新。因此二者之間存在分佈差異。作者引入 importance weighting 來解決該問題。

beta是混合策略，pai是RL策略。爲解決bata策略與pai策略分佈的差異，使用importance weight來糾偏。但是importance weight是一個鏈式乘法項。其會導致推測器的高方差。所以採用降低importance weight精準度（忽略項+一階近似）來降低高方差。由公式(3)生成最終的梯度計算方法。

模型化策略PAI

policy gradient方法是輸入狀態S，輸出動作A的分佈。作者使用的chaos free rnn。

簡而言之，模型初始狀態服從一個初始分佈，然後根據每一步的action，由rnn輸出新的狀態，在預測時，使用新狀態特徵與action特徵內積形式輸入softmax來輸出動作分佈。在實驗中初始分佈爲0，context包括頁數、設備、時間差等信息。對於0-reward的行爲將不會用於參數更新。