背景

有時系統中用戶的行爲比較稀少，採集到的樣本很稀疏，這樣直接導致常用的擬合方法學到的模型存在嚴重的過擬合問題，即特徵之間存在嚴重的依賴和隔離關係，使得模型無法進一步學習到精準的內在規律。爲了解決這一問題，FM模型應運而生，其基本原理是學到特徵與特徵之間的關係，從而達到更加精準的預測的目的。

遞進

引用論文原文的圖示，圖中的一條樣本描述了當前用戶的id特徵、當前物品的id特徵、當前用戶對其他物品的打分、時間、當前用戶上次對物品的打分，這條樣本的label是當前用戶對當前物品的打分。

可以看出，整個矩陣比較稀疏，通常意義下LR模型都會爲每一維特徵分配一個權重，公式如下所示：
$\hat{y}(x)=w_0+\sum_{i=1}^n w_ix_i$

FM 模型與上述公式不同的地方在於其添加了一個 $V(n\times k)$ 矩陣， $V$ 的每一行代表的是 $x$ 的某個特徵本身的"特徵"，具體公式如下所示：
$\hat{y}(x)=w_0+\sum_{i=1}^n w_ix_i + {\color{Red} \sum_{i=1}^n\sum_{j=i+1}^n\left \langle v_i,v_j \right \rangle x_i x_j}$

示意圖如下所示：

這裏 $\left \langle v_i,v_j \right \rangle=\sum_{f=1}^kv_{i,f}v_{j,f}$ ，代表的是 $x_i$ 和 $x_j$ 之間的相互關係。而上述紅色公式這樣設定的原因我個人理解是因爲其描述的是兩個不同特徵之間的關係，同一個特徵之間的關係沒有學習的意義，即學習的關係如下所示(藍色爲需要學習的領域，白色爲不需要學習的領域)：

可以看出上述公式的時間複雜度爲 $O(kn^2)$ ，但是這個時間複雜度可以優化到 $O(kn)$ ，公式推導如下所示：

上述公式的梯度下降計算公式如下：
$\frac{\partial \hat{y}(x)}{\partial \theta} = \left\{\begin{matrix} 1 \ \ \ \ \theta =w_0\\ x_i \ \ \ \ \theta =w_i\\ x_i\sum_{j=1}^n v_{j,f}x_j-v_{i,f}x^2_i \ \ \ \theta=v_{i,f} \end{matrix}\right.$

代碼實現

未完待續

參考文獻

FM paper

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

推薦系統（九）Factor Machines

背景

遞進

代碼實現

參考文獻

推薦系統（九）Factor Machines

樹系列（四）boosting_tree

數學（三）信息熵、相對熵(KL散度)和交叉熵

ML基本知識（八）K近鄰法

ML基本知識（六）EM 算法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結