用户画像-ID_MAPPING pyspark实战

一、背景简介
用户性别预测是我进入机器学习领域的HelloWorld级工程实践,也是第一个从业务需求分析、数据源调研、数据整理和特征工程到建模、模型评估、系统部署这一完整流程都由自己独立设计实现的工程。非常有幸能接触到这个难度不是很大,但是却很好将我带入机器学习的世界的工程。前后大约花了4个月的时间做了三个版本,这是其中第二个版本,这个版本耗时大约1.5个月。

一 项目背景

公司大数据平台从无到有,过去一年大部分在做etl和单业务系统的数据分析,现在由于各个业务系统数据都已经统一到了大数据平台,迫切需要将各个业务系统的用户进行打通,然后对用户进行用户画像等分析。ID_MAPPING 也算得上是第一个正式的机器学习工程实践,从业务整理、数据源调研、数据整理和特征工程到建模、模型评估、系统部署这一完整流程都由自己独立设计实现。

二 算法思路

是一家餐饮行业的数据,业务系统主要有第三方平台(o2o,包括在美团上点餐及在到店堂食等),微信小程序(有多个微信小程序),支付宝小程序,自有app。各个业务系统之家用户没有打通,各个业务系统都有各自的id对用户进行标识,如果用户是多个系统的会员并且注册的手机号相同,在会员表中会有一条会员信息可以通过一个第三方账户表和各个业务系统的用户表对应。

如 a用户通过微信小程序wx_1 购买了商品,有一个wx_id a_wx_1;同时又在微信小程序wx_2上购买了商品,有
另一个wx_id a_wx_2 (微信的安全机制让在不同微信小程序上的用户wx_id不同,所以a_wx_1 和 a_wx_2 是不
一样的,但是同一个微信用户会有一个统一的wx_uinon_id,通过这个id可以把不同微信渠道的统一用户识别出
来);同理,a用户在支付宝小程序购买了商品产生Alipay_id  a_alipay,在o2o购买产出o2_id a_o2o;在自有app
购买产生的数据和o2o购买产生的数据是一样的,就是这两种交易方式共用的是一套系统。所有这些业务系统
的用户都会在用户第三方账户表产生一条记录(如果之前存在该第三方用户就不变);如果该用户注册为会
员,就会在会员表产生一条记录,会员表通过第三方账户表关联到各个业务系统。业务系统id流向如下图(业务id流向)

数据构成
业务id流向

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章