用戶畫像-ID_MAPPING pyspark實戰

一、背景簡介
用戶性別預測是我進入機器學習領域的HelloWorld級工程實踐,也是第一個從業務需求分析、數據源調研、數據整理和特徵工程到建模、模型評估、系統部署這一完整流程都由自己獨立設計實現的工程。非常有幸能接觸到這個難度不是很大,但是卻很好將我帶入機器學習的世界的工程。前後大約花了4個月的時間做了三個版本,這是其中第二個版本,這個版本耗時大約1.5個月。

一 項目背景

公司大數據平臺從無到有,過去一年大部分在做etl和單業務系統的數據分析,現在由於各個業務系統數據都已經統一到了大數據平臺,迫切需要將各個業務系統的用戶進行打通,然後對用戶進行用戶畫像等分析。ID_MAPPING 也算得上是第一個正式的機器學習工程實踐,從業務整理、數據源調研、數據整理和特徵工程到建模、模型評估、系統部署這一完整流程都由自己獨立設計實現。

二 算法思路

是一家餐飲行業的數據,業務系統主要有第三方平臺(o2o,包括在美團上點餐及在到店堂食等),微信小程序(有多個微信小程序),支付寶小程序,自有app。各個業務系統之家用戶沒有打通,各個業務系統都有各自的id對用戶進行標識,如果用戶是多個系統的會員並且註冊的手機號相同,在會員表中會有一條會員信息可以通過一個第三方賬戶表和各個業務系統的用戶表對應。

如 a用戶通過微信小程序wx_1 購買了商品,有一個wx_id a_wx_1;同時又在微信小程序wx_2上購買了商品,有
另一個wx_id a_wx_2 (微信的安全機制讓在不同微信小程序上的用戶wx_id不同,所以a_wx_1 和 a_wx_2 是不
一樣的,但是同一個微信用戶會有一個統一的wx_uinon_id,通過這個id可以把不同微信渠道的統一用戶識別出
來);同理,a用戶在支付寶小程序購買了商品產生Alipay_id  a_alipay,在o2o購買產出o2_id a_o2o;在自有app
購買產生的數據和o2o購買產生的數據是一樣的,就是這兩種交易方式共用的是一套系統。所有這些業務系統
的用戶都會在用戶第三方賬戶表產生一條記錄(如果之前存在該第三方用戶就不變);如果該用戶註冊爲會
員,就會在會員表產生一條記錄,會員表通過第三方賬戶表關聯到各個業務系統。業務系統id流向如下圖(業務id流向)

數據構成
業務id流向

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章