干货 | 携程酒店推荐模型优化

原創

2021-04-19 08:03

模型	决策边界	大规模离散特征	增量\/在线学习	精度	可扩展性	可解释性	工程复杂度
LR	线性	支持	支持	中	低	高	低
GBDT	非线性	不支持	不支持	高	低	中	中
DNN	高度非线性	支持	支持	很高	高	低	Depends"}}},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"酒店推荐算法"}]},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/61\/612f26c2644ca4a428d2e99c104f7b94.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{"type":"text","text":"Figure 3：模型结构"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":"br"}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"用户在酒店的行为包括点击(click)和转化(CR)。在LR和GBDT的算法迭代阶段，我们优化目标只用到了CR信息。后来在DNN模型优化过程中，在模型建模中也引入了click信息，主要有两方面的考虑："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"1）相对CR，click行为更加稠密；同时click也能反映一定的用户个性化偏好。所以合理的利用稠密的click信息，会对最终CR的学习有所帮助。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2）在酒店列表中，用户是先有点击，再有转化。对用户的行为漏斗建模，方便分析转化不好是哪个阶段导致的。对因为点击率偏低导致转化低的酒店，可以做定向优化和机制上的细节调整。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在引入了click信息后，需要解决的是如何进行多目标建模的问题。因为DNN结构灵活，我们尝试了各种多目标学习的方式，最后采取了Figure 3所示的ESMM的模型结构。整个模型从下到上包括如下三个步骤。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"1）"},{"type":"text","marks":[{"type":"strong"}],"text":"离散特征签名"},{"type":"text","text":"：签名是通过hash函数使“特征-slot”映射到feasign，作为特征的唯一标示。每个feasign会通过模型学习得到一个K维embedding向量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2）"},{"type":"text","marks":[{"type":"strong"}],"text":"Pooling和Concat"},{"type":"text","text":"：离散特征由单值离散和多值离散组成：单值离散是指一个slot只有一个唯一值，比如用户id；多值离散则是一个slot会有多个值，比如用户历史点击行为。相同的slot会放到一起做sum pooling，这一操作把多值离散从NK维向量映射为1K维embedding向量；再和单值离散的1K维embedding concat连接。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"3）"},{"type":"text","marks":[{"type":"strong"}],"text":"Multilayer Perceptron（MLP）和损失函数"},{"type":"text","text":"：通过pooling和concat将每条样本映射为固定长度的1M维向量，通过全连接神经网络，以交叉熵为损失函数拟合是否点击、转化两个二分类目标。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"基于以上的模型框架，我们相对pairwise的GBDT模型，有了显著的提升。后来在以上模型结构的基础上，我们针对离散特征，做了更多模型交叉的尝试，其中Deep Cross Network(DCN)模型结构，在用户费力度指标和AUC\/NDCG这些模型指标上都获得了非常大的提升。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在模型推进的过程中，我们也遇到了很多问题。包括如何做normalization、如何处理异常值和缺省值、在从LR到GBDT再到DNN升级中如何处理数据分布变化，这些细节对最终模型线上效果都有直接的影响。当然还有一些很基础性的困难，是跟工程团队一起克服推进的。这个困难主要包括两方面："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"1）DNN模型结构灵活，在离散特征加成下，规模也很大。我们需要一个模型训练平台，支持我们定义any model并且支持any scale规模模型的训练。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2）在DNN这种复杂的非线性模型下，线上线下不一致问题会被放大。一个直接的影响是线下AUC提升很明显，但是线上效果是负向的。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"针对这两个问题，我们开发了一套大规模离散DNN模型训练框架和统一特征处理框架，分别解决以上两个问题。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"三、推荐工程的演进"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"针对策略需求，推荐中台做了很多的标准化服务。在本章节中，我们主要介绍推荐中台里面的大规模离散DNN训练框架和特征处理框架。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"3.1大规模离散DNN训练框架"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"大规模离散DNN模型因为具备很高精度和灵活性，成为目前业界做推荐算法的主流方法。但要推进大规模离散DNN在我们业务场景中落地，有一个前提：需要一个能训练大规模离散DNN模型的框架。我们结合长期实践经验，开发了一套分布式大规模离散DNN训练平台。这个平台具备如下特点："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"支持任意形式的模型Any Model："},{"type":"text","text":"训练框架前端采取tensorflow。Tensorflow允许我们定义任意在推荐中常用的网络结构，并提供网络结构梯度计算功能。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"支持任意规模的模型Any Scale："},{"type":"text","text":"训练框架后端是一个异步参数服务器；服务器节点可以任意横向扩展。服务器会做梯度融合和权重更新的工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"开箱即用的默认参数："},{"type":"text","text":"参数服务器中的参数（学习率，初始值范围）和权重更新函数是经过长期实践的结果；用这组默认的参数，不用调参，基本上在我们碰到的推荐业务场景都具备良好的效果。DNN调参是比较关键的，参数调整不合适会直接影响模型精度；而因为DNN的复杂性，调参往往需要较长的时间摸索。我们调研的相对通用的默认参数，是目前上线快速迭代的前提。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"模型框架有如下几个部分组成："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Front前端"},{"type":"text","text":"：采取Tensorflow，策略同学通过python编写模型结构；tensorflow本身提供灵活的网络结构定义和梯度计算能力。Tensorflow是我们策略扩展性的保障。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Client端"},{"type":"text","text":"：Front通过Client和Server进行通信；通信的内容就是（feasign, grads\/weights）。Client可以看作一个路由器：feasign可以看作是ip，我们根据feasign把相应的特征分发到相应的server机器上；而grads\/weights可以看作通讯报文；而通信push\/pull可以看作http的post\/request请求。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"Server端"},{"type":"text","text":"：基于BRPC协议，用c++编写的后台。目前酒店推荐模型扫描一天只需要6分钟，训练效率高于xgb。Server端把每次请求里相同的梯度信息做merge，并且根据自定义的优化器进行权重更新。Server可以通过增加节点来横向扩展。Server是我们工程能力扩展性的保障。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/3d\/3dc50cbd22dd2c1886e7528b2aa4c114.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我们构建了分布式训练集群，开发了python API接口以支持用户模型任务的创建，任务队列的管理以及日志监控等。现在这套大规模离散DNN的训练框架以中台服务的形式，同时支持着许多其他场景推荐模型的迭代。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"3.2 统一特征处理框架"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"线上线下不一致是目前推荐算法应用常见的问题。出现这个问题的本质原因有两个方面："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"1）输入不一致：在业务的早期，我们并没有完善的落日志服务。离线训练数据的输入来自hive表的落盘数据；而线上的特征是来自近线数据服务。虽然工程同学建立了一定的数据同步机制，但仍然难以保证线上和线下数据严格一致。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2）OP不一致：在业务早期，离线特征处理OP的逻辑是由策略的同学在hive调度框架上以hive sql的形式实现的；而线上代码则由策略同学跟工程的同学沟通后，由工程的同学开发的java OP。这里面既存在策略工程两边同学沟通代价，也带来了因为不同人在实现OP细节的时候存在的不一致。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如果没有标准的框架来做特征处理的话，每次上线都会花很多时间在分析、排查线上线下问题上。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"针对这个问题，推荐中台专门开发了一套统一的特征处理框架。在这个框架里面，我们做到了数据跟框架的解耦，以方便框架做不同业务场景的扩展。数据以标准化的Protobuf（PB）协议定义，线上用户请求的时候框架会填充PB里面的上下文、用户侧和Item侧的信息。线上用这个PB作为特征抽取的输入，并同时异步落盘PB数据到hive表中。这样一来线上线下特征输入都是同一份PB数据，保证输入严格一致。同时我们线上线下用同一个特征抽取JAR包，特征配置也是同一份，这样保证OP严格一致。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"通过这种方式，彻底地解决了线上线下不一致问题。特征抽取框架作为推荐中台模型服务的重要组成部分，支持很多业务场景做标准化的特征工程迭代。在这套框架下，工程同学专注优化框架性能，策略同学专注实现OP算子。这样一来，策略工程同学各司其职，减少不必要的沟通代价，增加整体迭代效率。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"四、总结"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文主要介绍了我们在推进酒店排序模型迭代过程中，在策略和工程方面做的尝试，线上也取得了不错的效果。实际酒店业务中，排序模型仅仅是整个系统中的一环。线上推荐系统还要综合考虑用户端、平台方和酒店端的多方生态。但不论如何，准确的预估用户的个性化偏好，是任何精细化机制策略的基础。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在未来的工作中，我们还会面临很多挑战。比如酒店业务同学非常关注的黑盒模型的可解释性问题，我们在DNN模型可解释方面也做了一些探索性工作。随着基建的愈加完善，我们在算法上面还会有更深入的探索。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"作者简介："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Yorkey，携程高级算法专家，主要从事大规模分布式推荐系统设计和算法研发工作。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文转载自：携程技术中心（ID：ctriptech）"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"原文链接："},{"type":"link","attrs":{"href":"https:\/\/mp.weixin.qq.com\/s\/lb6Ei_JPxhuTJ7bR8UyxgA","title":"xxx","type":null},"content":[{"type":"text","text":"干货 \| 携程酒店推荐模型优化"}]}]}]}