Factorization Machines ---- FM模型論文閱讀筆記及相關推導

原創

ChunKwanTong

2020-05-24 10:58

Introduction

在類似協同過濾的場景下，SVM的作用不如一些如PARAFA等直接進行矩陣因子分解的模型。

Why:
因爲在含有大量稀疏數據的場景下，SVM不能從複雜的核空間中學到可靠的超平面。

FM的優點:

能在高維稀疏數據的場景下進行參數估計（SVM並不擅長）。
能關聯變量間的相互作用。
線性的計算時間，線性的參數量
可以使用任意實數域的特徵向量進行預測（其他因子分解模型對輸入數據非常嚴格）

Prediction under sparsity

最普遍的CTR場景是通過訓練集
$D=\{(x^{(1)} ,y^{(1)}),(x^{(2)} ,y^{(2)}),...\}$

估計一個函數：
$y:R^n \to T$

從 $x \in R^n$ 特徵向量映射到目標域 $T$

Factorization Machine Model

定義

$\hat{y}(\boldsymbol x) := w_0 + \sum_{i=1}^{n}w_ix_i+\hat w_{i,j}x_ix_j$
可轉化爲：
$\hat{y}(\boldsymbol x) := w_0 + \sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}<v_i,v_j>x_ix_j$
其中:

（1）
$w_0 \in \mathbb{R} ,\boldsymbol w \in \mathbb{R}^n,\boldsymbol V \in \mathbb{R}^{n \times k}$
（2）<·，·> 爲兩個K維向量的點乘（K爲超參數）
$<v_i,v_j> := \sum_{f=1}^{k}v_{i,j}·v_{j,f}$
因爲實踐中通常沒有足夠數據去預估 $\hat W$ 因此K值選擇數值較小的值。

（3）
$\hat \boldsymbol w_{i,j} := <v_i,v_j>$
代表第i個變量和第j個變量的相互關係(interaction)，因爲任意正定矩陣存在一個矩陣 $\boldsymbol V$ 令 $\boldsymbol W = \boldsymbol V · \boldsymbol V^\mathrm{T}$ ,因此使用因子分解後的 $V$ 進行轉化。

推導

在數據非常稀疏的場景下，由於大部分特徵 $x_{i},x_{j}$ 的值爲0，因此很難直接求解出 $\hat W$ ，因此通過引入輔助變量 $V_{i}=(v_{i1},v_{i2},...,v_{ik})$ 。
$V = \begin{pmatrix} v_{11}&v_{12}&... &v_{1k} \\ v_{21}&v_{22}&... &v_{2k} \\ \vdots &\vdots& & \vdots\\ v_{n1}&v_{n2}&... &v_{nk} \end{pmatrix}_{n \times k}=\begin{pmatrix} \boldsymbol v_{1} \\ \boldsymbol v_{2} \\ \vdots \\ \boldsymbol v_{n} \end{pmatrix}$
因此：
$\hat W= \boldsymbol V · \boldsymbol V^\mathrm{T} = \begin{pmatrix} \boldsymbol v_{1} \\ \boldsymbol v_{2} \\ \vdots \\ \boldsymbol v_{n} \end{pmatrix}·\begin{pmatrix} \boldsymbol v_1^\mathrm{T} & \boldsymbol v_2^\mathrm{T} & ... & \boldsymbol v_n^\mathrm{T} \end{pmatrix}$

求解 $\sum_{i=1}^n\sum_{j=i+1}^n<v_i,v_j>x_ix_j$

由於
$\sum_{i=1}^n\sum_{j=i+1}^n<v_i,v_j>x_ix_j = \begin{pmatrix} <v_1,v_1>x_1x_1&{\color{Red} <v_1,v_2>x_1x_2}& {\color{Red} <v_1,v_3>x_1x_3}&... &{\color{Red} <v_1,v_k>x_1x_k} \\ <v_2,v_1>x_2x_1&<v_2,v_2>x_2x_2& {\color{Red} <v_2,v_3>x_2x_3}&... &{\color{Red} <v_2,v_k>x_2x_k} \\ \vdots &\vdots& \vdots& & \vdots\\ <v_n,v_1>x_nx_1&<v_n,v_2>x_nx_2& <v_n,v_3>x_nx_3&... &{ <v_n,v_k>x_nx_k} \\ \end{pmatrix}_{n \times k}$

即 $\sum_{i=1}^n\sum_{j=i+1}^n<v_i,v_j>x_ix_j$ 爲上述實對稱矩陣去除主對角線的上三角（紅色部分）。

設該上三角爲 $A=\sum_{i=1}^n\sum_{j=i+1}^n<v_i,v_j>x_ix_j$
$2A+\sum_{i=1}^n<v_i,v_j>x_ix_i = \sum_{i=1}^n\sum_{j=1}^n<v_i,v_j>x_ix_j$
$2A= \sum_{i=1}^n\sum_{j=1}^n<v_i,v_j>x_ix_j - \sum_{i=1}^n<v_i,v_j>x_ix_i$
$A= \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n<v_i,v_j>x_ix_j -\frac{1}{2} \sum_{i=1}^n<v_i,v_j>x_ix_i$

因此
$\sum_{i=1}^n\sum_{j=i+1}^n<v_i,v_j>x_ix_j\\ =\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n<v_i,v_j>x_ix_j -\frac{1}{2} \sum_{i=1}^n<v_i,v_j>x_ix_i\\ =\frac{1}{2} (\sum_{i=1}^n\sum_{j=1}^n\sum_{f=1}^kv_{i,f}v_{j,f}x_ix_j - \sum_{i=1}^n\sum_{f=1}^kv_{i,f},v_{j,f}x_ix_i\\ =\frac{1}{2}\sum_{f=1}^k((\sum_{i=1}^nv_{i,f}x_i)(\sum_{j=1}^nv_{j,f}x_j)-\sum_{i=1}^nv_{i,f}^2x_i^2)\\ =\frac{1}{2}\sum_{f=1}^k((\sum_{i=1}^nv_{i,f}x_i)^2-\sum_{i=1}^nv_{i,f}^2x_i^2)$

使用SGD對模型進行訓練，梯度如下：
$\frac{\partial }{\partial \theta}\hat y(\boldsymbol x)=\begin{cases} 1& \text{ if } \theta= w_0\\ x_i& \text{ if } \theta= w_i\\ x_i\sum_{j=1}^nv_{j,f}x_j-v_{i,f}x_i^2& \text{ if } \theta= v_{i,f} \end{cases}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Factorization Machines ---- FM模型論文閱讀筆記及相關推導

Introduction

Prediction under sparsity

Factorization Machine Model

定義

推導

Scala-對象、Case Class和Trait

Scala-類

Spark調優技巧總結

Factorization Machines ---- FM模型論文閱讀筆記及相關推導

在Spark Streaming中使用Hbase進行lookup實時讀取

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結