用戶畫像第一章(企業級360°全方位用戶畫像_項目概述)

項目概述
**企業級360°全方位用戶畫像是基於電商平臺進行設計和開發,是面向註冊會員的偏好、行爲習慣和 人口屬性的畫像還原,同時也包括對商品信息的畫像還原。**提供用戶喜好和商品特徵幫助營銷平臺提升 營銷的精準度,也方便個性化推薦系統快速準確的爲每個用戶推薦相關的商品
2、項目介紹

項目名稱:
企業級360°全方位用戶畫像
行業領域:
電商平臺,針對電商平臺用戶構建用戶畫像,給用戶打標籤
構建畫像:
1)、註冊會員(打標籤) - 用戶標籤
a)、偏好:訂單數據
依據訂單數據、購物車數據和收藏數據構建標籤
b)、行爲習慣:流量數據、搜索數據
依據瀏覽數據,構建標籤
c)、人口屬性:用戶註冊信息數據
對用戶基本信息構建標籤
2)、商品信息(打標籤) - 商品標籤
訂單數據構建商品的標籤
標籤存儲:將用戶標籤數據存儲到HBase表中
表名稱:
tbl_profile
ROW_KEY:
userId
列簇ColumnFamily:
用戶標籤列簇:user
商品標籤列簇:item
列值:
標籤的ID集合:tagIds -> 384,392,376,…
回顧:
在HBase Shell命令行中如何創建用戶標籤表呢?
create ‘tbl_profile’, ‘user’, ‘item’ -> 此種方式創建表的只有一個分區Region
創建表的時候,考慮數據的預分區和預測壓縮
畫像功能:
1)、精準營銷
2)、個性化推薦

2.1、功能模塊
整個項目分爲如下幾個功能模塊,具體描述:
在這裏插入圖片描述

畫像模塊:
個體畫像 -> 【微觀畫像】
依據用戶ID:userId,查詢用戶所用標籤,進行展示
羣體畫像 -> 【標籤查詢】
依據多個標籤組合(OR、AND)查詢用戶,屬於某個羣體,分不同類
在這裏插入圖片描述

1、標籤體系
標籤體系模塊基於本體論建立,包括基礎標籤和組合標籤兩個子模塊。基礎標籤維護了人口屬性、 商業屬性、行爲屬性和用戶價值4個方面。組合標籤是在基礎標籤的基礎上按TGI創建的,用於反映目標 羣體在特定研究範圍的強勢和弱勢。
2、標籤引擎
標籤引擎模塊是用戶畫像運轉的核心實現,維護標籤的具體實現邏輯,包括標籤依賴的數據源、規 則和模型的信息。同時提供每一個標籤引擎運行狀態的可視化監控。當Super User登錄時會出現新增標 籤及其引擎的審覈。
3、畫像模塊
畫像模塊是對實體(用戶/物品)信息全貌可視化的精準還原,包括對個體的全方位還原和羣體的 全方位還原。
4、標籤查詢
標籤查詢模塊是查看標籤所覆蓋的實體,用於查看標籤體系中所有標籤包含的商品詳細信息和經過脫敏後的用戶信息。
5、系統設置
系統設置模塊主要包括用戶管理、權限管理。
2.2、技術架構
項目的總體架構圖:
在這裏插入圖片描述

軟件版本:
jdk1.8.0_221
hadoop-2.6.0-cdh5.14.0
hbase-1.2.0-cdh5.14.0
zookeeper-3.4.5-cdh5.14.0
spark-2.2.0-bin-2.6.0-cdh5.14.0
sqoop-1.4.6-cdh5.14.0
apache-flume-1.6.0-cdh5.14.0-bin
solr-4.10.3-cdh5.14.0
oozie-4.1.0-cdh5.14.0
hue-3.9.0-cdh5.14.0
安裝目錄:
/export/servers
系統用戶:
root/123456
實際項目使用CDH版本大數據框架版本,使用HDP 大數據框架版本
HDP 2.x版本

項目功能架構圖:
在這裏插入圖片描述
2.3、標籤梳理
學習目標
能夠了解本體論
能夠掌握標籤的分類和業務背景
2.3.1、 標籤定義依據
知識工程(本體論)的概念最早由美國斯坦福大學計算機科學家費根鮑姆提出。他認爲“知識工程是人工智能的原理和方法,爲那些需要專家知識才能解決的應用難題提供求解的手段,恰當運用專家知識對獲取、表達、和推理過程做出解釋,是設計知識系統的關鍵問題”。
基於知識工程的用戶定性畫像中,核心思想是利用本體對用戶畫像中的標籤進行表示、驗證、推理和解釋。本體論(Ontology)是哲學上的一個學科,是研究客觀事物存在和組成的通用理論。
本體的結構包括類、屬性、實例、公理和推理規則

1)、類:Thing爲本體中所有類的父類,如酒類。
2)、屬性:每個類都有屬性,在酒類當中包括:白酒、啤酒、紅酒等屬性。
3)、實例:指類的具體對象,如茅臺酒、二鍋頭酒。
4)、公理:本體中的永真式,描述類的約束條件,該條件在某個領域中是永遠成立的。例如茅臺酒廠生產的酒就是茅臺酒,這個公理即永遠成立。
5)、推理規則:本體所在領域以專家知識的形式化表示,用於保證本體的完整性和一致性。

2.3.2、標籤體系需求分析
標籤體系是根據已註冊用戶的偏好、行爲習慣和人口屬性等不同的領域進行建立的,按領域可以分爲人口屬性、商業屬性、行爲屬性和用戶價值四類。按具體的實現方式分爲規則標籤、統計標籤和挖掘標籤。在本項目中標籤體系按照業務類型劃分爲基礎標籤和組合標籤
在這裏插入圖片描述
按領域劃分
在這裏插入圖片描述
按實現方式劃分
在這裏插入圖片描述
按照業務類型劃分
業務標籤一:人口屬性
在這裏插入圖片描述
業務標籤二:商業屬性
在這裏插入圖片描述
業務標籤三:行爲屬性
在這裏插入圖片描述
業務標籤四:用戶價值
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章