Wide&Deep versus DeepFM

最近在回顾一下深度学习在推荐系统上的应用，重点回顾了两个比较著名的模型：Wide&Deep 和 DeepFM。刚好前者是谷歌研究员提出的，后者是有三位作者来自华为，又刚好最近这两家公司的话题性这么强……emmmmm

Wide&Deep

推荐系统面临的一个重要挑战是对memorization和generization的均衡，这个关系跟强化学习中的探索与利用的权衡关系很类似。打个比方，比如一个新闻app，我经常在新闻app看NBA新闻，那毫无疑问需要给我推荐更多NBA或者球星之类的方向上高度相关新闻，这是memorization。但只给我推荐篮球新闻会造成用户体验很差，所以需要给我推荐一些别的我可能喜欢的资讯，这就是generization。

Memorization很好解决，例如传统的基于内容的协同过滤就能很棒的解决这个问题，因为在历史训练数据中这些模式很明显，很容易挖掘。但generization并不好处理，因为这些推荐内容的相关性相当隐蔽（例如啤酒尿布这个经典案例），甚至与用户目前的一些特征上很少共现，但generization又很重要，它可以拓宽推荐内容的多样性。

出于易用性、可伸缩性和可解析性，工业上的在线推荐和排序系统广泛采用逻辑回归之类的广义线性模型，而这些模型通常是使用one-hot编码后的二值化特征来训练的。Memorization的实现可以通过特征之间交叉相乘（在二值特征中即相当于二次多项式）得到，而generization可以通过使用粗粒度的特征的交叉相乘来完成。但这种做法的一个天然限制就是对于很少共现的内容很难泛化，试想一下，某两个item的交叉相乘项在大部分用户上基本上都为0，那么这个特征的重要度是十分有限的。

Wide&Deep，顾名思义就是由wide和deep两部分组成:wide部分采用LR负责memorization的学习，deep部分采用embedding+DNN负责generization的学习。网络结构图如下

图二 Wide&Deep网络结构

Wide部分

Wide部分其实就是多项式回归，输入特征是one-one编码并交叉乘积后的二值化特征，假设 $x\in{R^d}$
$f(x) = w_0+\sum_{i=1}^{d}w_{i}*x_{i}+\sum_{j\in{[1,d]},k>{j}}v_{j,k}*x_j*x_k$

Deep部分

Deep部分是传统的前馈神经网络，对于定类特征，会先对其进行嵌入操作，即对每个类别特征嵌入到低维的稠密向量。

Wide&Deep

Wide部分和Deep部分加权汇总再经过一个sigmoid激活函数得到最后的预测值
$P(y|x)=\sigma(w_{wide}^{T}[x,\phi(x)]+w_{deep}^{T}a^{lf}+b)$

式中， $\sigma$ 是sigmoid函数， $w_{wide}$ 代表wide部分的模型权值， $w_{deep}$ 代表deep部分最后一层输出要乘上的权值， $b$ 是偏置值。换句话而言，Wide&Deep这个模型本质上是一个逻辑回归，它的输入特征由两部分组成而已，又或者，可以看成是一个有交叉乘积特征辅助决策的DNN。

Wide&Deep的训练策略是联合训练（joint training），作者特意强调了联合训练和集成学习的区别：

联合训练是将各个部分按一个权值加权汇总得到一个预测结果，并在训练的时候根据同一个误差信号一起更新权值
集成学习是各个基模型独立地训练，它们之间互不干扰，可以自己独立完成自己的训练，只是最终的结果也是汇总或者投票产生

模型结构

图三 Wide&Deep网络结构

Wide部分由已安装的app和曝光的app等特征的交叉乘积组成，Deep部分每个类别特征都映射到32维的向量，然后把连续型特征和嵌入特征拼接起来，用三层DNN来计算。

DeepFM

Wide&Deep模型虽然综合了generization和memorization，但依然没有避免一定的特征工程。DeepFM是Wide&Deep的改进版本，FM（Factorization Machine）作为Wide部分（这部分paper称为FM部分），DNN作为Deep部分。而DeepFM是end-to-end的，也就是它只需要把原始特征丢进去训练得到点击概率值就可以了，Wide部分也不需要额外的特征工程。抽象来说，总体结构还是跟Wide&Deep挺像的。
$\hat{y} = sigmoid(y_{FM}+y_{DNN})$

FM

跟Wide部分一样，FM部分也是用来学习特征交互信息的。在之前谈及的Wide部分有个比较尴尬的情况，本来one-hot编码之后出来的特征向量已经足够稀疏了，再交叉乘积转换一下出来的特征会更加稀疏（要 $x_i$ 和 $x_j$ 同时为1时）。FM模型在处理特征交互信息上则更为先进：每个类别特征 $x_i$ 都嵌入到一个低维的稠密向量 $v_i$ ，特征交互就变成了两个稠密向量 $v_i$ 和 $v_j$ 之间的内积，这样就避免了交互特征过于稀疏的尴尬，而且内积也可以很好的衡量两个特征向量之间的关联度，这一个特性从余弦夹角公式就可以看出来。
$y_{FM}= <{w,x}>+\sum_{j_1=1}^{d}\sum_{j_2=j_1+1}^{d}{<{v_i,v_j}>x_{i}\cdot{x_{j}}}$

其中， $w\in{R^d}$ ， $v\in{R^k}$ ， $\lt..\gt$ 代表内积。

图四 FM部分结构

Deep

DeepFM的Deep部分其实跟Wide&Deep的Deep部分没有太大的区别，唯一的区别在于，在DeepFM原始特征会被同时用于Deep和FM两部分，也就是特征是共享（shared）的，而Wide&Deep中并不如此。而FM中用来学习交互信息的嵌入特征向量也会作为Deep中的嵌入向量，这么一来，在迭代优化这个网络的时候，这部分的嵌入特征会在两部分同时得到误差反馈信号而更新，而在Wide&Deep中，这部分的信号只来自于Wide部分的加权误差。

图五 Deep部分结构

模型结构

图六 DeepFM模型结构

DeepFM可以说是Wide&Deep的改进版，但是更好的学习了低阶和高阶特征，也避免了特征交互的稀疏性并且直接用端对端的方式实现模型训练，不需要任何额外的特征工程。

Wide&Deep versus DeepFM

推荐系统

Wide&Deep

Wide部分

Deep部分

Wide&Deep

模型结构

DeepFM

FM

Deep

模型结构

参考资料

《Python进阶》学习笔记

Leetcode 3161. 物块放置查询

一个docker容器暴露多个端口

leetcode 60 排列序列

微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序

wpf附加属性理解 WPF附加属性

Language Model and Recurrent Neural Networks （一）

Word Embeddings And Word Sense

漫談ELMo

Language Model and Recurrent Neural Networks （二）

Language Model and Recurrent Neural Networks

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結