Flink項目系列1-項目介紹 一. 電商的用戶行爲 二. 項目主要模塊 三. 數據源解析 四. 項目模塊設計 參考:

一. 電商的用戶行爲

  電商平臺中的用戶行爲頻繁且較複雜,系統上線運行一段時間後,可以收集到大量的用戶行爲數據, 進而利用大數據技術進行深入挖掘和分析, 得到感興趣的商 業指標並增強對風險的控制。

  電商用戶行爲數據多樣,整體可以分爲用戶行爲習慣數據和業務行爲數據兩大類。用戶的行爲習慣數據包括了用戶的登錄方式、上線的時間點及時長、點擊和瀏 覽頁面、頁面停留時間以及頁面跳轉等等, 我們可以從中進行流量統計和熱門商品 的統計,也可以深入挖掘用戶的特徵;這些數據往往可以從 web 服務器日誌中直接 讀取到。 而業務行爲數據就是用戶在電商平臺中針對每個業務( 通常是某個具體商 品) 所作的操作, 我們一般會在業務系統中相應的位置埋點, 然後收集日誌進行分 析 。業 務行爲數據又可以簡單分爲兩類 :一 類是能夠明顯地表現出用戶興趣的行爲, 比如對商品的收藏、 喜歡、評分和評價,我們可以從中對數據進行深入分析,得到 用戶畫像,進而對用戶給出個性化的推薦商品列表,這個過程往往會用到機器學習 相關的算法;另一類則是常規的業務操作, 但需要着重關注一些異常狀況以做好風 控,比如登錄和訂單支付。

二. 項目主要模塊

  基於對電商用戶行爲數據的基本分類 ,我們可以發現主要有以下三個分析方向:

  1. 熱門統計 利用用戶的點擊瀏覽行爲,進行流量統計、近期熱門商品統計等。

  2. 偏好統計 利用用戶的偏好行爲,比如收藏、喜歡、評分等,進行用戶畫像分析,給出個 性化的商品推薦列表。

  3. 風險控制 利用用戶的常規業務行爲,比如登錄、下單、支付等,分析數據,對異常情況 進行報警提示。 本項目限於數據,我們只實現熱門統計和風險控制中的部分內容,將包括以下 五大模塊:
    1)實時熱門商品統計
    2)實時流量統計
    3)市場營銷商業指標統計
    4)惡意登錄
    5)監控和訂單支付失效監控
    其中細分爲以下 9 個具體指標:

  由於對實時性要求較高,我們會用 flink 作爲數據處理的框架。在項目中,我們 將綜合運用 flink 的各種 API,基於 EventTime 去處理基本的業務需求,並且靈活地 使用底層的 processFunction,基於狀態編程和 CEP 去處理更加複雜的情形。

三. 數據源解析

  我們準備了一份淘寶用戶行爲數據集 ,保存 爲 csv 文件 。本 數據集包含了淘寶上 某一天隨機一百萬用戶的所有行爲(包括點擊、購買、 收藏、喜歡)。 數據集的每 一行表示一條用戶行爲,由用戶 ID、商品 ID、商品類目 ID、 行爲類型和時間戳組 成,並以逗號分隔。關於數據集中每一列的詳細描述如下:


  另外 ,我 們還可以拿到 web 服務器的日誌數據,這裏以 apache 服務器的一份 log 爲例,每一行日誌記錄了訪問者的 IP、userId、訪問時間、訪問方法以及訪問的 url, 具體描述如下:


  由於行爲數據有限 ,在實時熱門商品統計模塊中 可以使用 UserBehavior 數據集, 而對於惡意登錄監控和訂單支付失效監控,我們只以示例數據來做演示。

四. 項目模塊設計

4.1 數據源解析

用戶行爲數據:UserBehavior.csv
e.g. 543462, 1715, 1464116, pv, 1511658000

web 服務器日誌:apache.log
e.g. 66.249.73.135 - - 17/05/2015:10:05:40 +0000 GET /blog/tags/ipv6

4.2 項目模塊

參考:

  1. https://www.bilibili.com/video/BV1qy4y1q728
  2. https://ashiamd.github.io/docsify-notes/#/study/BigData/Flink/%E5%B0%9A%E7%A1%85%E8%B0%B7Flink%E5%85%A5%E9%97%A8%E5%88%B0%E5%AE%9E%E6%88%98-%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0?id=_143-%e9%a1%b9%e7%9b%ae%e6%a8%a1%e5%9d%97
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章