【推薦系統】ATRank: Attention-Based User Behavior Modeling Framework For Recommendation

原創

2020-07-03 09:16

ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation

論文地址：https://arxiv.org/pdf/1711.06632.pdf

1. Introduction

正如單詞可以由上下文表示一樣，一個用戶也可以由他/她的歷史行爲來表徵
用戶行爲通常構成一個與時間相關的序列（a sequence over the timeline）
- RNN/CNN被引入來encode behavior sequence，但是 both the basic RNN and CNN encoders suffer from the
  problem that the fixed-size encoding vector may not support both short and long sequences well
  - 即使使用LSTM或者GRU，RNN 也難以對 long-term dependencies 建模，且無法並行
  - CNN可以並行，但是任意兩個位置的behavior之間的interaction paths最長爲 $log_kn$ ， $k$ 爲卷積核的大小， $n$ 爲用戶行爲的數量
- attention被引入，在decode時能夠給予不同的行爲不同的權重
  - However, we show that the one-dimensional attention score between any two vectors may neutralize their relationships in different semantic spaces
  - attention的機制如下： $C=\sum_{i=1}^na_i\vec{v_i}$
  - $\vec{v_i}$ 的每個元素都使用相同的權重 $a_i$ ，因此對 $\vec{v}_i$ 的不同語義並不能能夠做出區分
- 此外，用戶的行爲是異質的(heterogeneous)，非常靈活的，因此很難去建模
  - 以電商推薦系統舉例，用戶可能會瀏覽/點擊/收藏商品（browse/click/mark items）、接收/使用優惠券（receive/use coupons）、點擊廣告（click ads）、搜索關鍵詞（search keywords ），寫評論（write down reviews）、看商鋪的視頻或者直播等，每一種行爲都反映了用戶的某一方面的特徵，對於構建全方位的用戶模型都是非常有幫助的

2. Self-Attention Based Behavior Modeling Framework

用戶行爲被表示爲一個三元組： $\{a,o,t\}$

$a$ 表示行爲的類型 (behavior type)，比如點擊/收藏/加購、領取/使用
$o$ 表示行爲的對象 (the object the behavior acts on)，比如商品、優惠券、搜索詞等
$t$ 表示行爲發生的時間
用戶的行爲序列被表示爲 $U=\{(a_j,o_j,t_j) | j=1,2,\cdots,m\}$

模型分爲如下幾塊：

Raw Feature Spaces
Behavior Embedding Spaces
Latent Semantic Spaces

2.1 Raw Feature Spaces

首先會根據行爲的對象 $o_j$ 將 $U=\{(a_j,o_j,t_j) | j=1,2,\cdots,m\}$ 劃分至不同的組 $G=\{bg_1,bg_2,\cdots,bg_n\}$ ，
$bg_i\cap bg_j= \emptyset,U=\cup_{i=1}^{n}bg_i$ ，例如劃分爲商品行爲，優惠券行爲，關鍵字行爲等等
在每個 $bg_i$ 內部，object的空間相同，之後可以使用 group-specific 的神經網絡去獲得 behavior embeddings
舉例：對商品的行爲組成第一組 $bg_1$ ，優惠券行爲是 $bg_3$ ，搜索相關行爲 $bg_2$ ，注意每組裏面行爲的個數不一定相同

2.2 Behavior Embedding Spaces

對於在 $bg_i$ 中的某個行爲 $u_i=(a_j,o_j,t_j)$ ，會將 $a_j, o_j, t_j$ 分別轉化爲嵌入式向量：
對於時間 $t_j$ 會將其離散化：計算行爲發生時間距當前時間的間隔，然後按照如下區間將時間間隔離散化，之後再進行embedding：
behavior embedding spaces的輸出是一組向量，其中 $u_{bgi}=concat_j(u_{ij})$ ，表示所有屬於第 $i$ 組的 behavior embedding 的 concat：
具體的計算過程示例如下：
有以下兩點注意事項：
- 每組embedding的維度是不一樣的，因爲：
  - 每個用戶在不同組別下行爲的個數不一樣
  - 不同組別embedding size不一定一樣，比如商品行爲一般會比搜索行爲反映更多的信息，所以會有更長的embedding size
- 不同bg的objects如果有相同的特徵，embedding 是跨組共享的，比如 shop id, category id 可以由 item, coupon組共享；但是關於時間的embedding不共享，因爲時間對於不同組行爲的影響不同。

2.3 Latent Semantic Spaces

由於不同組的embedding size不一樣，因此首先通過 $F_{Mi}$ 將 $u_{bgi}$ 映射到一個相同的維度 $s_{all}$ ，若一個user行爲的個數爲 $n_{all}$ , $S$ 的維度則爲 $n_{all} \times s_{all}$
之後再利用 $F_{P_k}$ 將 $S$ 映射到不同的語義空間， $S_k$ 的維度爲 $n_{all}\times s_k$