三分鐘讀懂用戶畫像

一、什麼是用戶畫像

用戶畫像是指根據用戶的屬性、偏好、生活習慣、行爲等信息，抽象出來的標籤化用戶模型。通俗說就是給用戶打標籤，而標籤是通過對用戶信息分析而來的高度精煉的特徵標識。通過打標籤可以利用一些高度概括、容易理解的特徵來描述用戶，可以讓人更容易理解用戶，並且可以方便計算機處理。

用戶畫像是對現實世界中用戶的建模，用戶畫像包含目標，方式，組織，標準，驗證這5個方面。

**目標：**指的是描述人，認識人，瞭解人，理解人。

**方式：**分爲非形式化手段，如使用文字、語言、圖像、視頻等方式描述人；形式化手段，即使用數據的方式來刻畫人物的畫像。

**組織：**指的是結構化、非結構化的組織形式。

**標準：**指的是使用常識、共識、知識體系的漸進過程來刻畫人物，認識瞭解用戶。

**驗證：**依據側重說明了用戶畫像應該來源事實、經得起推理和檢驗。

在產品早期和發展期，會較多地藉助用戶畫像，幫助產品人員理解用戶的需求，想象用戶使用的場景，產品設計從爲所有人做產品變成爲三四個人做產品，間接的降低複雜度。

二、用戶畫像的作用

在互聯網、電商領域用戶畫像常用來作爲精準營銷、推薦系統的基礎性工作，其作用總體包括：

（1）精準營銷：根據歷史用戶特徵，分析產品的潛在用戶和用戶的潛在需求，針對特定羣體，利用短信、郵件等方式進行營銷。

（2）用戶統計：根據用戶的屬性、行爲特徵對用戶進行分類後，統計不同特徵下的用戶數量、分佈；分析不同用戶畫像羣體的分佈特徵。

（3）數據挖掘：以用戶畫像爲基礎構建推薦系統、搜索引擎、廣告投放系統，提升服務精準度。

（4）服務產品：對產品進行用戶畫像，對產品進行受衆分析，更透徹地理解用戶使用產品的心理動機和行爲習慣，完善產品運營，提升服務質量。

（5）行業報告&用戶研究：通過用戶畫像分析可以瞭解行業動態，比如人羣消費習慣、消費偏好分析、不同地域品類消費差異分析

根據用戶畫像的作用可以看出，用戶畫像的使用場景較多，用戶畫像可以用來挖掘用戶興趣、偏好、人口統計學特徵，主要目的是提升營銷精準度、推薦匹配度，終極目的是提升產品服務，起到提升企業利潤。用戶畫像適合於各個產品週期：從新用戶的引流到潛在用戶的挖掘、從老用戶的培養到流失用戶的迴流等。

總結來說，用戶畫像必須從實際業務場景出發，解決實際的業務問題，之所以進行用戶畫像，要麼是獲取新用戶，要麼是提升用戶體驗、或者挽回流失用戶等具有明確的業務目標。

另外關於用戶畫像數據維度的問題，並不是說數據維度越豐富越好，總之，畫像維度的設計同樣需要緊跟業務實際情況進行開展。

三、用戶畫像的分類

從畫像方法來說，可以分爲定性畫像、定性+定量畫像、定量畫像

從應用角度來看，可以分爲行爲畫像、健康畫像、企業信用畫像、個人信用畫像、靜態產品畫像、旋轉設備畫像、社會畫像和經濟畫像等。

四、用戶畫像需要用到哪些數據

    一般來說，根據具體的業務內容，會有不同的數據，不同的業務目標，也會使用不同的數據。在互聯網領域，用戶畫像數據可以包括以下內容：

（1）人口屬性：包括性別、年齡等人的基本信息

（2）興趣特徵：瀏覽內容、收藏內容、閱讀諮詢、購買物品偏好等

（3）消費特徵：與消費相關的特徵

（4）位置特徵：用戶所處城市、所處居住區域、用戶移動軌跡等

（5）設備屬性：使用的終端特徵等

（6）行爲數據：訪問時間、瀏覽路徑等用戶在網站的行爲日誌數據

（7）社交數據：用戶社交相關數據
用戶畫像數據來源廣泛，這些數據是全方位瞭解用戶的基礎，這裏以Qunar的畫像爲例，其畫像數據主要維度如下所示，包括用戶RFM信息、航線信息等。

Qunar的畫像數據倉庫構建都是基於Qunar基礎數據倉庫構建，然後按照維度進行劃分。

五、用戶畫像主要應用場景

a)用戶屬性

b)用戶標籤畫像

c)用戶偏好畫像

d)用戶流失

e)用戶行爲

f)產品設計

g) 個性化推薦、廣告系統、活動營銷、內容推薦、興趣偏好

六、用戶畫像標籤體系的建立

1、什麼是標籤體系

用戶畫像是對現實用戶做的一個數學模型，在整個數學模型中，核心是怎麼描述業務知識體系，而這個業務知識體系就是本體論，本體論很複雜，我們找到一個特別樸素的實現，就是標籤。

標籤是某一種用戶特徵的符號表示。是一種內容組織方式，是一種關聯性很強的關鍵字，能方便的幫助我們找到合適的內容及內容分類。（注：簡單說，就是你把用戶分到多少個類別裏面去，這些類是什麼，彼此之間有什麼關係，就構成了標籤體系）

標籤解決的是描述（或命名）問題，但在實際應用中，還需要解決數據之間的關聯，所以通常將標籤作爲一個體系來設計，以解決數據之間的關聯問題。

一般來說，將能關聯到具體用戶數據的標籤，稱爲葉子標籤。對葉子標籤進行分類彙總的標籤，稱爲父標籤。父標籤和葉子標籤共同構成標籤體系，但兩者是相對概念。例如：下表中，地市、型號在標籤體系中相對於省份、品牌，是葉子標籤。

（1）標籤分類

用戶畫像標籤可以分爲基礎屬性標籤和行爲屬性標籤。

由於基於一個目標的畫像，其標籤是在動態擴展的，所以其標籤體系也沒有統一的模板，在大分類上，與自身的業務特徵有很大的關聯，在整體思路上可以從橫縱兩個維度展開思考：橫向是產品內數據和產品外數據，縱向是線上數據和線下數據。而正中間則是永恆不變的“人物基礎屬性”。

如果說其他的分類因企業特徵而定，那麼只有人物特徵屬性（至於名字叫什麼不重要，關鍵是內涵）是各家企業不能缺失的板塊。

所謂人物基礎屬性指的是：用戶客觀的屬性而非用戶自我表達的屬性，也就是描述用戶真實人口屬性的標籤。所謂非“自我表達”，舉例來說，某產品內個人信息有性別一項，用戶填寫爲“女”，而通過用戶上傳的身份證號，以及用戶照片，用戶購買的產品，甚至用戶打來的客服電話，都發現該用戶性別是“男性”。那麼在人物基礎屬性中的性別，應該標識的是“男性”，但是用戶信息標籤部分，自我描述的性別則可能標註爲女性。
（2）標籤級別（標籤的體系結構）

分級有兩個層面的含義，其一是：指標到最低層級的涵蓋的層級；其二是指：指標的運算層級。其一非常好理解，這裏重點說運算層級。

標籤從運算層級角度可以分爲三層：事實標籤、模型標籤、預測標籤。

事實標籤： 是通過對於原始數據庫的數據進行統計分析而來的，比如用戶投訴次數，是基於用戶一段時間內實際投訴的行爲做的統計。

模型標籤： 模型標籤是以事實標籤爲基礎，通過構建事實標籤與業務問題之間的模型，進行模型分析得到。比如，結合用戶實際投訴次數、用戶購買品類、用戶支付的金額等，進行用戶投訴傾向類型的識別，方便客服進行分類處理。

預測標籤： 則是在模型的基礎上做預測，比如針對投訴傾向類型結構的變化，預測平臺輿情風險指數。

（3）標籤命名&賦值
我們用一張圖來說明一下命名和賦值的差別，只要在構建用戶標籤的過程種，有意識的區別標籤命名和賦值足矣，不再贅述。

（4）標籤屬性

標籤屬性可以理解爲針對標籤進行的再標註，這一環節的工作主要目的是幫助內部理解標籤賦值的來源，進而理解指標的含義。如圖所示，可以總結爲5種來源：

1、固有屬性：是指這些指標的賦值體現的是用戶生而有之或者事實存在的，不以外界條件或者自身認知的改變而改變的屬性。比如：性別、年齡、是否生育等。

2、推導屬性：由其他屬性推導而來的屬性，比如星座，我們可以通過用戶的生日推導，比如用戶的品類偏好，則可以通過日常購買來推導。

3、行爲屬性：產品內外實際發生的行爲被記錄後形成的賦值，比如用戶的登陸時間，頁面停留時長等。

4、態度屬性：用戶自我表達的態度和意願。比如說我們通過一份問卷向用戶詢問一些問題，並形成標籤，如詢問用戶：是否願意結婚，是否喜歡某個品牌等。當然在大數據的需求背景下，利用問卷收集用戶標籤的方法效率顯得過低，更多的是利用產品中相關的模塊做了用戶態度信息收集。

5、測試屬性：測試屬性是指來自用戶的態度表達，但並不是用戶直接表達的內容，而是通過分析用戶的表達，結構化處理後，得出的測試結論。比如，用戶填答了一系列的態度問卷，推導出用戶的價值觀類型等。

值得注意的是，一種標籤的屬性可以是多重的，比如：個人星座這個標籤，既是固有屬性，也是推導屬性，它首先不以個人的意志爲轉移，同時可以通過身份證號推導而來。

即便你成功了建立用戶畫像的標籤體系，也不意味着你就開啓了用戶畫像的成功之路，因爲有很大的可能是這些標籤根本無法獲得，或者說無法賦值。

標籤無法賦值的原因有：數據無法採集（沒有有效的渠道和方法採集到準確的數據，比如用戶身份證號）、數據庫不能打通、建模失敗（預測指標無法獲得賦值）等等。
2、標籤體系結構

標籤體系可以歸納出如下的層級結構。

（1）原始輸入層

主要指用戶的歷史數據信息，如會員信息、消費信息、網絡行爲信息。經過數據的清洗，從而達到用戶標籤體系的事實層。

（2）事實層

事實層是用戶信息的準確描述層，其最重要的特點是，可以從用戶身上得到確定與肯定的驗證。如用戶的人口屬性、性別、年齡、籍貫、會員信息等。

（3）模型預測層

通過利用統計建模，數據挖掘、機器學習的思想，對事實層的數據進行分析利用，從而得到描述用戶更爲深刻的信息。如通過建模分析，可以對用戶的性別偏好進行預測，從而能對沒有收集到性別數據的新用戶進行預測。還可以通過建模與數據挖掘，使用聚類、關聯思想，發現人羣的聚集特徵。

（4）營銷模型預測

利用模型預測層結果，對不同用戶羣體，相同需求的客戶，通過打標籤，建立營銷模型，從而分析用戶的活躍度、忠誠度、流失度、影響力等可以用來進行營銷的數據。

（5）業務層

業務層可以是展現層。它是業務邏輯的直接體現，如圖中所表示的，有車一族、有房一族等。

3、標籤體系結構分類

一般來說，設計一個標籤體系有3種思路，分別是：（1）結構化標籤體系；（2）半結構化標籤體系；（3）非結構化標籤體系。

（1）結構化標籤體系

簡單地說，就是標籤組織成比較規整的樹或森林，有明確的層級劃分和父子關係。結構化標籤體系看起來整潔，又比較好解釋，在面向品牌廣告井噴時比較好用。性別、年齡這類人口屬性標籤，是最典型的結構化體系。下圖就是Yahoo!受衆定向廣告平臺採用的結構化標籤體系。

（3）非結構化標籤體系

非結構化，就是各個標籤就事論事，各自反應各自的用戶興趣，彼此之間並無層級關係，也很難組織成規整的樹狀結構。非結構化標籤的典型例子，是搜索廣告裏用的關鍵詞。還有Facebook用的用戶興趣詞。

4、用戶畫像標籤層級的建模方法

用戶畫像的核心是標籤的建立，用戶畫像標籤建立的各個階段使用的模型和算法如下圖所示。

原始數據層。對原始數據，我們主要使用文本挖掘的算法進行分析如常見的TF-IDF、TopicModel主題模型、LDA 等算法，主要是對原始數據的預處理和清洗，對用戶數據的匹配和標識。

事實標籤層。通過文本挖掘的方法，我們從數據中儘可能多的提取事實數據信息，如人口屬性信息，用戶行爲信息，消費信息等。其主要使用的算法是分類和聚類。分類主要用於預測新用戶，信息不全的用戶的信息，對用戶進行預測分類。聚類主要用於分析挖掘出具有相同特徵的羣體信息，進行受衆細分，市場細分。對於文本的特徵數據，其主要使用相似度計算，如餘弦夾角，歐式距離等。

模型標籤層。使用機器學習的方法，結合推薦算法。模型標籤層完成對用戶的標籤建模與用戶標識。其主要可以採用的算法有迴歸，決策樹，支持向量機等。通過建模分析，我們可以進一步挖掘出用戶的羣體特徵和個性權重特徵，從而完善用戶的價值衡量，服務滿意度衡量等。

預測層。也是標籤體系中的營銷模型預測層。這一層級利用預測算法，如機器學習中的監督學習，計量經濟學中的迴歸預測，數學中的線性規劃等方法。實習對用戶的流失預測，忠實度預測，興趣程度預測等等，從而實現精準營銷，個性化和定製化服務。

不同的標籤層級會考慮使用對其適用的建模方法，對一些具體的問題，有專門的文章對其進行研究。

八、用戶畫像基本步驟

根據具體業務規則確定用戶畫像方向後，開展用戶畫像分析，總體來說，一個用戶畫像流程包括以下三步。（1）用戶畫像的基本方向；（2）用戶數據收集；（3）用戶標籤建模。
另外，需要注意的是用戶畫像的時效性，構建畫像的數據多爲歷史數據，但用戶的行爲、偏好等特徵多會隨着時間的推移而發生變化。

九、用戶畫像驗證

十一、用戶畫像平臺&架構

用戶畫像平臺需要實現的功能。

用戶畫像系統技術架構

（1）數據處理

a、數據指標的梳理來源於各個系統日常積累的日誌記錄系統，通過sqoop導入hdfs,也可以用代碼來實現，比如spark的jdbc連接傳統數據庫進行數據的cache。還有一種方式，可以通過將數據寫入本地文件，然後通過sparksql的load或者hive的export等方式導入HDFS。

b、通過hive編寫UDF 或者hiveql根據業務邏輯拼接ETL，使用戶對應上不同的用戶標籤數據（這裏的指標可以理解爲每個用戶打上了相應的標籤），生成相應的源表數據,以便於後續用戶畫像系統，通過不同的規則進行標籤寬表的生成。

（2）數據平臺

a、數據平臺應用的分佈式文件系統爲Hadoop的HDFS，因爲Hadoop2.0以後,任何的大數據應用都可以通過ResoureManager申請資源，註冊服務。比如(sparksubmit、hive）等等。而基於內存的計算框架的出現，就並不選用Hadoop的MapReduce了。當然很多離線處理的業務，很多人還是傾向於使用Hadoop,但是Hadoop封裝的函數只有map和Reduce太過單一，而不像spark一類的計算框架有更多封裝的函數（可參考博客spark專欄）。可以大大提升開發效率。

b、計算的框架選用Spark以及RHadoop,這裏Spark的主要用途有兩種，一種是對於數據處理與上層應用所指定的規則的數據篩選過濾，(通過Scala編寫spark代碼提交至sparksubmit)。一種是服務於上層應用的SparkSQL（通過啓動spark thriftserver與前臺應用進行連接）。 RHadoop的應用主要在於對於標籤數據的打分，比如利用協同過濾算法等各種推薦算法對數據進行各方面評分。

c、MongoDB內存數據的應用主要在於對於單個用戶的實時的查詢，也是通過對spark數據梳理後的標籤寬表進行數據格式轉換(json格式）導入mongodb,前臺應用可通過連接mongodb進行數據轉換，從而進行單個標籤的展現。（當然也可將數據轉換爲Redis中的key value形式，導入Redis集羣)

d、mysql的作用在於針對上層應用標籤規則的存儲，以及頁面信息的展現。後臺的數據寬表是與spark相關聯，通過連接mysql隨後cache元數據進行filter、select、map、reduce等對元數據信息的整理,再與真實存在於Hdfs的數據進行處理。

（3）面向應用

從剛纔的數據整理、數據平臺的計算，都已經將服務於上層應用的標籤大寬表生成。（用戶所對應的各類標籤信息）。那麼前臺根據業務邏輯，勾選不同的標籤進行求和、剔除等操作，比如本月流量大於200M用戶（標籤）+本月消費超過100元用戶（標籤）進行和的操作，通過前臺代碼實現sql的拼接，進行客戶數目的探索。這裏就是通過jdbc的方式連接spark的thriftserver，通過集羣進行HDFS上的大寬表的運算求count。（這裏要注意一點，很多sql聚合函數以及多表關聯join 相當於hadoop的mapreduce的shuffle,很容易造成內存溢出，相關參數調整可參考本博客spark欄目中的配置信息）這樣便可以定位相應的客戶數量，從而進行客戶羣、標籤的分析，產品的策略匹配從而精準營銷。

十二、用戶畫像困難點、用戶畫像瓶頸

用戶畫像困難點主要表現爲以下4個方面

這裏講解下用戶畫像的技術架構和整體實現，那麼就從數據整理、數據平臺、面向應用三個方面來討論一個架構的實現（個人見解）。

數據整理：

1、數據指標的的梳理來源於各個系統日常積累的日誌記錄系統，通過sqoop導入hdfs,也可以用代碼來實現，比如spark的jdbc連接傳統數據庫進行數據的cache。還有一種方式，可以通過將數據寫入本地文件，然後通過sparksql的load或者hive的export等方式導入HDFS。

2、通過hive編寫UDF 或者hiveql 根據業務邏輯拼接ETL，使用戶對應上不同的用戶標籤數據（這裏的指標可以理解爲爲每個用戶打上了相應的標籤），生成相應的源表數據,以便於後續用戶畫像系統，通過不同的規則進行標籤寬表的生成。

數據平臺

1、數據平臺應用的分佈式文件系統爲Hadoop的HDFS，因爲Hadoop2.0以後,任何的大數據應用都可以通過ResoureManager申請資源，註冊服務。比如(sparksubmit、hive）等等。而基於內存的計算框架的出現，就並不選用hadoop的MapReduce了。當然很多離線處理的業務，很多人還是傾向於使用Hadoop,但是hadoop的封裝的函數只有map和Reduce太過單一，而不像spark一類的計算框架有更多封裝的函數（可參考博客spark專欄）。可以大大提升開發效率。

2、計算的框架選用Spark以及RHadoop,這裏Spark的主要用途有兩種，一種是對於數據處理與上層應用所指定的規則的數據篩選過濾，(通過Scala編寫spark代碼提交至sparksubmit)。一種是服務於上層應用的SparkSQL（通過啓動spark thriftserver與前臺應用進行連接）。 RHadoop的應用主要在於對於標籤數據的打分，比如利用協同過濾算法等各種推薦算法對數據進行各方面評分。

3、MongoDB內存數據的應用主要在於對於單個用戶的實時的查詢，也是通過對spark數據梳理後的標籤寬表進行數據格式轉換(json格式）導入mongodb,前臺應用可通過連接mongodb進行數據轉換，從而進行單個標籤的展現。（當然也可將數據轉換爲Redis中的key value形式，導入Redis集羣)

4、mysql的作用在於針對上層應用標籤規則的存儲，以及頁面信息的展現。後臺的數據寬表是與spark相關聯，通過連接mysql隨後cache元數據進行filter,select,map,reduce等對元數據信息的整理,再與真實存在於Hdfs的數據進行處理。
面向應用

1、從剛纔的數據整理、數據平臺的計算，都已經將服務於上層應用的標籤大寬表生成。（用戶所對應的各類標籤信息）。那麼前臺根據業務邏輯，勾選不同的標籤進行求和、剔除等操作，比如本月流量大於200M用戶（標籤）+本月消費超過100元用戶（標籤）進行和的操作，通過前臺代碼實現sql的拼接，進行客戶數目的探索。這裏就是通過jdbc的方式連接spark的thriftserver，通過集羣進行HDFS上的大寬表的運算求count。（這裏要注意一點，很多sql聚合函數以及多表關聯join 相當於hadoop的mapreduce的shuffle,很容易造成內存溢出，相關參數調整可參考本博客spark欄目中的配置信息）這樣便可以定位相應的客戶數量，從而進行客戶羣、標籤的分析，產品的策略匹配從而精準營銷。

三分鐘讀懂用戶畫像

一、什麼是用戶畫像

二、用戶畫像的作用

三、用戶畫像的分類

四、用戶畫像需要用到哪些數據

五、用戶畫像主要應用場景

六、用戶畫像標籤體系的建立

1、什麼是標籤體系

八、用戶畫像基本步驟

九、用戶畫像驗證

十一、用戶畫像平臺&架構

淺談公司大數據平臺的數據治理

【Java學習】_03 基本數據類型

【Java學習】_02註釋和關鍵字

【Java學習】_04 常量和變量

【Java學習】_01第一個程序和常見問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

三分鐘讀懂用戶畫像

一、 什麼是用戶畫像

二、 用戶畫像的作用

三、 用戶畫像的分類

四、 用戶畫像需要用到哪些數據

五、 用戶畫像主要應用場景

六、 用戶畫像標籤體系的建立

1、什麼是標籤體系

八、 用戶畫像基本步驟

九、 用戶畫像驗證

十一、 用戶畫像平臺&架構

一、什麼是用戶畫像

二、用戶畫像的作用

三、用戶畫像的分類

四、用戶畫像需要用到哪些數據

五、用戶畫像主要應用場景

六、用戶畫像標籤體系的建立

八、用戶畫像基本步驟

九、用戶畫像驗證

十一、用戶畫像平臺&架構