推荐系统之CTR预估-FM算法解析

原創

wangdong2017

2020-07-01 04:54

一、问题由来

在计算广告和推荐系统中，CTR预估（click-through rate）是非常重要的一个环节，判断一个商品是否进行推荐需要根据CTR预估的点击率来进行。传统的逻辑回归模型是一个广义线性模型，非常容易实现大规模实时并行处理，因此在工业界获得了广泛应用，但是线性模型的学习能力有限，不能捕获高阶特征（非线性信息），而在进行CTR预估时，除了单特征外，往往要对特征进行组合。对于特征组合来说，业界现在通用的做法主要有俩大类：FM系列和DNN系列。今天，我们就来分享下FM算法。

二、为什么需要FM

1、特征组合是许多机器学习建模过程遇到的问题，如果对特征直接建模，很有可能会忽略与特征之间的关联信息，因此，可以通过构建新的交叉特征这一特征组合方式提高模型的效果。

2、高维的稀疏矩阵是实际工程中常见的问题，并直接会导致计算量过大，特征权值更新缓慢。试想一个10000×100的表，每一列都有8种元素，经过one-hot独热编码之后，会产生一个10000×800的表。因此表中每行元素只有100个值为1,700个值为0.特征空间急剧变大，以淘宝上的item为例，将item进行one-hot编码以后，样本空间有一个categories变为了百万维的数值特征，特征空间一下子暴增一百万。所以大厂动不动上亿维度，就是这么来的。

而FM的优势就在于这俩方面问题的处理。首先是特征组合，通过对两两特征组合，引入交叉项特征，提高模型得分;其次是高维灾难，通过引入隐向量（对参数矩阵进行矩阵分解），完成对特征的参数估计。

三、原理及求解

在看FM算法前，我们先回顾一下最常见的线性表达式：