“用戶畫像”從生產到應用，背後的標籤邏輯是什麼？

本文內容爲【友盟+】首席數據架構師&數據委員會會長張金做客「極客公開課·Live 」演講內容。文章內容包含：用戶畫像的核心價值，用戶畫像是如何生成的？常用的標籤體系包括哪些？應用在哪？以及數據應用的建議和總結等。友萌君精心整理了文字＋PPT版本，建議你先收藏再仔細閱讀，真的是乾貨滿滿！

什麼是用戶畫像？

用戶畫像也叫用戶標籤，是基於用戶行爲分析獲得的對用戶的一種認知表達，也是後續數據分析加工的起點。從認知心理學的角度，用戶標籤其實與人認知世界的方式相一致，人爲了簡化思考，通常也會通過概念化的方式簡化事物認知，這種概念認知就是標籤。因此，用戶畫像的內容可以很寬泛，要是對人的認知，都可以叫做用戶畫像。例如：今天路過這個門口三次的人，也可以是一個標籤，只要他有合適的應用場景。

另外，我們需要從概念上加以區分，用戶標籤和用戶透視，一個是個體的認知，一個是整體的標籤分佈，二者都經常被人統稱爲用戶畫像。今天我們在這裏說的用戶畫像主要指標籤。

用戶畫像的4個核心價值

一、市場細分和用戶分羣：市場營銷領域的重要環節。比如在新品發佈時，定位目標用戶，切分市場。這是營銷研究公司會經常用的方式。

二、數據化運營和用戶分析。後臺PV\UV\留存等數據，如果能夠結合用戶畫像一起分析就會清晰很多，揭示數據趨勢背後的祕密。

三、精準營銷和定向投放。比如某產品新款上市，目標受衆是白領女性，在廣告投放前，就需要找到符合這一條件的用戶，進行定向廣告投放。

四、各種數據應用：例如推薦系統、預測系統。我們認爲：未來所有應用一定是個性化的，所有服務都是千人千面的。而個性化的服務，都需要基於對用戶的理解，前提就需要獲得用戶畫像。

用戶畫像的基礎：數據

做好用戶畫像需要一定的門檻，一方面是數據的體量和豐富程度，另一方面是技術和算法能力。今天介紹的經驗基礎是【友盟+】數據，首先簡單介紹一下。【友盟+】有覆蓋線上線下的實時更新的全域數據資源，每天大約有14億的設備，覆蓋數百萬級的網站和APP行爲，這個龐大的數據量使得我們有豐富的數據資源來生產用戶畫像，同時又要求我們能相應的技術能力來進行處理。

數據是如何產生，變成畫像的？

結合上圖，用戶畫像生產流程概覽，我們將用戶畫像的生產比喻成一個流水線，就如同將礦石加工成成品的過程。用戶瀏覽網頁、使用APP、線下行爲，這些數據都是礦石，需要提煉、加工成爲產品，最後還要通過質檢。

這個過程通常有幾個步驟。首先獲得原始行爲數據，基於這些數據做特徵抽取，相當於清洗、加工的工作；在機器學習環節，會與外部知識庫有一些交互。實際上機器算法對人的理解，一定要基於知識體系，就好像我們說的概念。比如，機器給人打汽車相關的標籤，一定要首先知道汽車體系有什麼樣的分類，有什麼車型，有這樣的知識系統我們才能把人做很好的標識歸類。

最後，質量檢測，這一步也很重要。一個標籤的質量決定了後期的應用效果，如果前期對人的分析偏了，後期結果就很難做對。

用戶畫像產生的流程框架

上面講的是概念圖，如果具象到實際操作中，是這樣一個框架流程：

這裏先留三個懸念：
懸念一：從用戶行爲日誌開始到標籤產出，爲什麼有兩條線？
懸念二：標籤體系爲什麼只作用在內容標註上？
懸念三：爲什麼下面的“評估”過程要特別標註出來？

從用戶行爲日誌開始到標籤產出，爲什麼有兩條線？我們把畫像分爲兩大類：

第一類：統計型畫像；第二類：預測性畫像。

第一類，統計型畫像是客觀存在，這種都是興趣偏好。比如，用戶每天都在看汽車新聞、搜索汽車相關的內容，基於這種行爲，我們判斷這個用戶對汽車感興趣。這些行爲是客觀發生的，因此無所謂正確率，也不需要訓練樣本集。

第二類，預測性畫像。需要通過用戶行爲做預測，像用戶的性別預測，尤其是挖掘人的內心態度。比如，用戶在消費時，是激進的，還是保守的？有預測就有準確率。所以這裏面有很重要的評估指標，就是正確率，也需要取樣本集。這就是二者的不同，也會有不同的加工流程。

常用的一些標籤體系

再繼續介紹標籤體系，因爲很多同學會問到，“我應該建一個什麼樣的標籤體系？什麼樣的標籤體系是比較好的？”通常我們會把它分爲四大類：

第一類：人口屬性。比如說性別、年齡、常駐地、籍貫，甚至是身高、血型，這些東西叫做人口屬性。

第二類：社會屬性。因爲我們每個人在社會里都不是一個單獨的個體，一定有關聯關係的，如婚戀狀態、受教育程度、資產情況、收入情況、職業，我們把這些叫做社會屬性。

第三類，興趣偏好。攝影、運動、喫貨、愛美、服飾、旅遊、教育等，這部分是最常見的，也是最龐大的，難以一一列舉完。

第四類，意識認知。消費心理、消費動機、價值觀、生活態度、個性等，是內在的和最難獲取的。舉個例子，消費心理/動機。用戶購物是爲了炫耀，還是追求品質，還是爲了安全感，這些都是不一樣的。

如何判斷標籤體系的好壞？

在實際構建標籤體系時，大家經常會遇到很多困惑，我列舉5個常見問題：
第一、怎樣的標籤體系纔是正確的？其實每種體系各有千秋，要結合實際應用去評估。

第二、標籤體系需要很豐富麼？標籤是枚舉不完的，可以橫線延展、向下細分。也可以交叉分析，多維分析。如果沒有自動化的方式去挖掘，是很難做分析的，太多的標籤反而會帶來使用上的障礙。

第三、標籤體系需要保持穩定麼？不是完全必要，標籤體系就是產品/應用的一部分，要適應產品的發展，與時俱進。比如，以前沒有共享經濟這個詞，今天卻很熱。我們是不是要增加一個標籤，分析哪些人對共享經濟的參與度高？喜歡共享單車、共享汽車。

但是，有一種情況下，標籤要保持穩定。如果你生產的標籤有下游模型訓練的依賴，即我們模型建完後，它的輸入是要保持穩定的，不能今天是ABC，明天是BCD。在這種情況下，是不能輕易對標籤體系做更改的。

第四個，樹狀結構or網狀結構？樹狀結構和網狀結構從名字上就可以看出其分別。網狀結構，更符合現實，但是層次關係很複雜，對數據的管理和存儲都有更高要求。知乎，如果仔細去看它的話題設置，其實是網狀的。

網狀的特點就是一個子話題，父級可以不止一個，可能有兩個。比如兒童玩具，既可以是母嬰下分分類，也可以是玩具下的分類，它就會存在兩個父節點之下。樹狀結構相對簡單，也是我們最常用的。網狀結構在一些特定場景下，我們也會去用。但是實現和維護的成本都比較高。比如，有一個節點是第四級的，但它的兩個父節點一個是二級，一個是三級，結構異化帶來處理上的麻煩。

第五個，何爲一個好的標籤體系？應用爲王，不忘初心。標籤是爲了用的，並不是爲了好玩，最好保證標籤體系的靈活和細緻性。

在【友盟+】已經很少強調標籤有多少種，或者有多麼大的一個體系，我們更強調兩點：

第一，快速建模的能力。有新需求來時，能夠快速把這個標籤製作出來，把相關的用戶找出來；

第二，我們可以做的很細，不能只說這個用戶對汽車感興趣，而是需要細分到車型、價位，甚至他去買車時，會關注駕駛乘坐的舒適性、操控的靈活性，還是內飾的細節。

統計型標籤的生產流程

再回到剛纔說的生產流程上。我先結合下面的圖介紹上半邊，統計型的標籤是怎麼去加工的。

首先我們要有行爲數據，例如用戶每天看100篇文章，有40篇是體育的，有30篇是汽車的，有20篇是旅遊的，還有10篇其他的。我推測，你比較喜歡體育、汽車、旅遊。

對於這樣的標籤，大概需要什麼流程去做呢？環節一很重要，內容標註。只有知道用戶看的內容是什麼，才能統計偏好。環節二，如何基於用戶行爲做聚合統計和歸一化。

一個經典的標註例子：網頁標註

在做內容標註時，一般會有兩種情況：

第一種：有些公司在建自有用戶畫像時會很幸運，例如電商、視頻類、音樂類的媒體，它給用戶服務的這些內容是已經分類好的。可以直接用內容的標註來做用戶行爲標註。

但是，對於一些通用型的內容，比如【友盟+】的數據，會有PC瀏覽數據、APP的使用數據，一定要先了解用戶喜歡看什麼，才能去做下一步的工作。在這裏面，最複雜，也最典型的就是網頁的內容標註。

第一步需要將URL做清洗和過濾。

接來下有兩種不同的做法。一種是PATH標註。這個會比較簡單一些。
舉個例子， sports.163.com/nba 這個域名下網頁都是關於NBA的。這些URL的結構非常規整，只需要對URL的分級做標註都可以標識很大一批網頁。

通過具體內容做分析，也有兩條路。一條路是通過Title，標題是內容最精煉的概括。第二條路是通過DOM解析，正文抽取。這兩步又彙總到對內容分詞。

我們不需要對網頁裏所有的單詞做處理，一定是關鍵詞搜尋，就是哪些詞更能表達網頁的內容。再之後，是對內容的分類，我們會訓練一個分類器，把所有的網頁內容進行分類。這其實是機器學習的過程。

還有一個小細節，在PATH標註和網頁標註之間是雙箭頭。當我們對網頁有了大量標註後，可以反推URL是不是都相同的主題，而對於PATH的標註有助於提高召回率。

標籤的最終生成：行爲統計

根據用戶的行爲，統計標籤數值，歸一化。這裏有個計算公式：
比如，我們判斷用戶是喜歡運動、還是服飾，會將他看來多少相關網頁、使用了多少APP進行累加，在除以一個總累積，得到一個標籤得分。

這裏面有幾個點需要關注：

第一、統計量的選取。可能是瀏覽數量、瀏覽時長、瀏覽頻度、複合關係等。舉個複合關係的例子，對於某個商品類目的偏好，你可以將瀏覽、搜索、收藏，購買等行爲統計量加權在一起考慮。

第二、個體內的可比性。個體用戶的不同標籤間具有可比性。舉個例子，我有兩個標籤：閱讀、旅遊。我的閱讀標籤是0.8分，旅遊是0.6分，代表我更傾向於去閱讀，而不是去旅遊？如何保證這一點呢？在上面公式裏將個體的行爲總和作爲分母就可以了。

第三、垂類內的可比性。一個垂類內不同用戶的相同標籤具有可比性。

例如，我的動漫得分是0.8，你的是0.6，表示我比你要更喜歡動漫。那麼分母就是選取整個動漫類行爲的總和。比如說，今天全國用戶在B站上一共100萬小時，你有1個小時，你是百萬分之一，他花了2個小時，大約是百萬分之二，最後再做一個歸一化，就會產生一個類內可比的得分。

我們剛剛說的是絕對化的值，還有一個簡單的做法就是做排序，基於用戶的使用時間做排序，這樣也可以。

但是排序和歸一化到底有什麼不同？排序只代表相對性，而剛纔說歸一化代表了強弱，我的得分是0.8和你是0.6，就表示偏好強度上我比你高了30%，而排序則不能反映這樣的比例。

留一個小問題，能否在兩層面上同時可比？建議大家首先要考慮這樣做是否有必要。

舉個例子，我今天搜索了一個化妝品對比之前搜化妝品的時候，更能體現想要購買。近期的行爲比遠期的行爲更能反映用戶的興趣偏好，尤其消費需求偏好這種類型。我們可以在得分計算中體現這種結果，就是做衰減因子。

一個簡單的做法，是利用衰減因子：

這個公式的含義是，今天的得分可以由昨天的得分乘以衰減係數，同時加上今天的增量。衰減不只這一個模型，還有其他方法，但是思路是一樣的。

統計型標籤生產要點回顧

1、行爲數據。瀏覽、使用、點擊、購買、LBS等，通過行爲數據反映人的偏好傾向；
2、標籤體系。根據實際需要進行設定。可以參考《消費者行爲學》、電商類目體系、應用市場體系、媒體資訊體系等；
3、內容標註。把行爲相關的內容抽出來做分析，把標籤體系先打到它們身上，再累積到“人”身上；
4、得分歸一化。明確歸一化的目標，選擇所需的歸一化方法。舉個例子，推薦適合用個體內可比較的得分，不管A看會某個內容用了多少時間，A所看到最多的內容就優先推薦給A，不用和其他人比較；
但在投放廣告上，就要考慮用戶在這個商品上的傾向度有多高，需要用戶間可比較的得分。

預測型標籤的生產流程

預測性標籤的生產流程：特徵抽取→監督學習、樣本數據→評估→標籤產出，這也是經典的機器學習流程。

特徵工程

特徵工程，是機器學習的關鍵過程之一。最重要的是提取不同側面的特徵。我們以移動端使用行爲可抽取的部分特徵爲例：

1、APP使用事實特徵：用戶30天內開啓APP的天數、用戶180天內開啓APP的天數。這兩個數據都會作爲特徵，考慮用戶短期和長期的情況。

用戶30天內使用APP時長佔比、用戶180天內使用APP時長佔比。剛纔說的是次數，這塊是時長，用戶可能反覆打開，但是總時長很短。

2、興趣特徵：雖然信息有損失，但是泛化效果更好。舉個例子，你是A站用戶，他是B站用戶，理論上講，如果我們用最底層的數據，你們兩個人是不太一樣的，但某種程度上，他們都是對二次元感興趣的人；

近期用戶興趣標籤歸一化值、長期用戶興趣標籤歸一化值。用戶長短期基於興趣標籤下使用不同APP的熵值、歷史某類APP時間消耗佔比變動比例。其實反映了我們要看這個分佈，以及分佈的趨勢性，你過去關注度高，現在關注度減弱，和你過去關注度不高，現在關注度高，其實這兩個是完全對應不同的人，這也是我們參考的特徵。

3、設備與環境特徵：近期使用的設備品牌、近期使用的設備型號；工作日時間段內Wi-Fi使用時間分佈、休息日時間段內Wi-Fi使用時間分佈（工作日與假日的區分）。

模型訓練與結果評估

1、模型選擇。有有監督的分類算法：邏輯迴歸、SVM、決策樹、Bagging、深度學習；

2、二分類or多分類。二分類比較簡單，多分類則有不同的拆分策略。舉個例子，把人分爲男女，是二分類的問題；分爲年齡段，就是多分類的問題，我們在機器學習當中也有不同的做法，OvO（一對一）、OvR（一對其他）、MvM（多對多）。

3、結果評估。評估指標包括：正確率、召回率、應用效果。但是對於統計型標籤來說無正確率，召回率看閾值，今天你只看一個汽車的型號，理論上我也可以給你打一個標籤，但是分值非常低，這個分值到底要不要算做這個標籤的人，要看中選什麼樣強度的人。預測型標籤，一般看Precision，Recall，F-Score，ROC。

4、Ranking任務。一類特殊的定製化標籤。針對特定場景，如對電話營銷需要按照可能性排序打電話。套用上述模型，可以用最終得分來做Ranking。

關於標籤評估的延展

標籤的生產不是目的，使用纔是。正確率≠效果，舉個例子：喜歡看車不代表是試駕購車的目前人羣。

第一，用戶分層的評估。針對於重點人羣進行評估，不同人羣分層進行評估；

第二，從全局進行評估。不要只侷限於樣本集合的評估，參看一些全局統計數據。

例如，人口屬性的分佈和統計局的結果是否相符？第三，有效果反饋的應用。將標籤直接應用於使用場景中檢驗效果。例如，進行營銷的定向投放，測試點擊率；第四，利用其它數據佐證。使用其他行爲數據來驗證標籤的有效性。例如，在電商環境中後續的行爲差異來評估顯著性。

一個快速建模框架

我們今天不再強調標籤豐富度，而是快速建模的能力。快速建模怎麼做到？這套系統在【友盟+】比較完備，使得我們收到一個樣本就可以很快訓練模型，這個流程最快3個小時就能夠把標籤算出來。

用戶畫像的應用

Data -> Insight -> Action->Data->…
第一步，先有數據，就像標籤生產出來，要有數據的過程；

第二步，分析，洞察。洞察並不是最終目的，因爲洞察只是得到一個結論或者方向；第三步，開始應用；應用後又帶來新的數據，從而形成數據的閉環。舉個例子，廣告怎樣的羣體點擊了，數據被反饋回來，下一個循環可以進行調整，不斷地迭代，優化整個效果。

DIP營銷服務流程

關於上述流程的實際使用，結合【友盟+】DIP數據智能平臺講一下營銷服務流程是如何做的。

左上面是我們一些數據，例如：客戶上傳數據後，我們會有一個匹配的過程，把所有數據打通連接。上傳、匹配之後，會對這些數據做人羣分析。比如說寶馬X1今年剛上市，他們把去年購買X1的用戶都上傳上來，我們會分析這樣的用戶在哪些方面是有特性的，比如年齡段、地域分佈、收入、偏好。有了這樣的分析後，我們可以選擇相應的人羣，基於歷史的偏好、特徵，然後再去投放；如果中間我們會發現人羣量不夠，最初選擇10萬人可以放大到100萬人。最後輸出到媒體、RTB等渠道商。做預算，看效果，將效果數據迴流，再去迭代，以進一步提高投放的精準率。這是我們常用的一個流程。

在舉個實際的例子，如果要做一個新產品的傳播推廣，這時需要做定向投放。我們先要對潛在用戶要進行分析，例如對於科技產品非常感興趣的人，我們發現他每天8、9點特別活躍，通過進一步分析，他會和哪些媒體做觸達，或者他看不看電視會不會留意到地鐵裏面的廣告，這也是一個觸達渠道，以及看什麼樣類型的，看資訊、社交、八卦，這個不太一樣。要找到受衆，應該到哪找？比如說去這種有態度的網易新聞，還是個性化的今日頭條，或者說騰訊新聞，這都需要進行分析。

基於上面的分析之後，再做結合分析。舉個例子，你對科技感興趣，那你的手機是不是到了更新期，你手機大概用了三年，應該到了更新期，就可以對這樣的特定人進行投放。把人圈出來，投放、曝光，曝光之後我們去看營銷的結果，然後返回來繼續分析，會不會對其他內容感興趣，再去做下一輪分析。這就是我們之前做的一系列方法的一個應用。

最後關於數據應用我再給出一些通用型的建議：

第一、分析：

1、結合業務場景去選擇分析維度：如果你是給中年婦女推薦保健品，你去分析她們喜歡不喜歡二次元，這就非常說不通了。

2、不要只是簡單的看畫像分佈，一定要做對比。

3、例如，與大盤對比情況：TGI。上圖是我們分析一個APP內的購買人羣。紫色的線是人羣的分佈，年齡段的分佈。我們看到18-30歲之間的人很多，感覺還不錯。但是，如果你做一下大盤情況，APP的用戶大多是年輕人，因爲本身這個產品有一個年齡偏小的分佈特徵。通過分析對比之後發現，TGI比較高是30-39歲的人，這個範圍的人才是在購買人羣裏面是顯著的，這個羣人才是你去做運營活動、投放的人羣。
分析，一定要去做對比，單純看分佈是並沒有太多信息含量。不對比看不出來差異。

4、環節的對比。哪些人我觸達了，哪些人到這裏落地了，哪些人註冊了、哪些人真正瀏覽、哪些是留存、哪些是付費，每一個環節你都可以做這樣的分析。

第二、精準投放（Action）。這是我們今天做標籤非常大的一類應用。這時候大家可能會發現，我們做品牌廣告、效果廣告是不同的。

舉個例子：品牌廣告我們就會關心TA濃度，關注我投放廣告的人性別怎麼樣、年齡分佈怎麼樣。效果廣告是不一樣的，效果廣告通常很直接，你這個人是不是點了，最終CTR高不高，最終購買ROI高不高，這種一定是你最直接的興趣是什麼，你什麼性別不重要，我就想知道你要不要。

另外一點，直覺未必靠譜，一定要通過反饋來檢測，就是剛纔說我們爲什麼要數據閉環，比如說，有一個商品設計者說，我這個產品目標是吸引白領女性，實際上他上市場去賣的時候發現，買他的男性大學生最多，跟他想的根本不一樣。

如果你一直持續的給白領女性做廣告投放，實際上效果可能不是最優的，反而你做校園活動會達到更好的效果。

甚至說，你可以基於你的用戶場景做專屬標籤，以及你可以通過人羣放大來做處理。舉個例子說，我今天有新的車型上市，一個方法是，先選取對汽車感興趣的人，或者SUV感興趣的人，就可以去做投放，這個效果就可能不是最優的，更優的情況是針對你這個case，去針對性的做訓練，針對性的選取跟你相關的人，通常效果上比通用的標籤選取更好，這時候我建議如果你特別強調你的效果，就去試試訓練專屬的標籤。

總結

第一點，要有目標。你所有的通過應用來驅動需求，單純你做上千維的標籤並不是一個好的目標。

第二點，要有數據。數據是一切的核心，沒有數據說要建很多標籤是沒有用的，如果你手裏沒有數據，或者數據不多，你第一個工作不是建後面的標籤體系，你要趕緊找數據。數據決定了你的天花板，我的這個東西建到什麼程度由數據決定，你的算法、技術方案只是讓你無限的接近天花板而已，超越不了的。

第三點，不要拘泥於技術細節。用簡單的方法快速走通整個流程，然後再去看哪些環節需要優化去深入，舉個例子像剛纔那個標籤，你的分詞可以做得很細，網頁分類可以做的很細，每個關鍵環節都可以做的很細。實際上一開始你這麼細是沒有必要的，因爲它是一個鏈路，你在這個環節上，比如說從6分變成9分，最終結果可能只提升1%，這裏時間有一個很大的浪費，所以快速的走完整個環節，不要糾結細節，這樣會比較好。