“用戶畫像”從生產到應用,背後的標籤邏輯是什麼?

本文內容爲【友盟+】首席數據架構師&數據委員會會長張金做客「極客公開課·Live 」演講內容。文章內容包含:用戶畫像的核心價值,用戶畫像是如何生成的?常用的標籤體系包括哪些?應用在哪?以及數據應用的建議和總結等。友萌君精心整理了文字+PPT版本,建議你先收藏再仔細閱讀,真的是乾貨滿滿!

 

什麼是用戶畫像?

 

用戶畫像也叫用戶標籤, 是基於用戶行爲分析獲得的對用戶的一種認知表達,也是後續數據分析加工的起點。從認知心理學的角度,用戶標籤其實與人認知世界的方式相一致,人爲了簡化思考,通常也會通過概念化的方式簡化事物認知,這種概念認知就是標籤。因此,用戶畫像的內容可以很寬泛,要是對人的認知,都可以叫做用戶畫像。例如:今天路過這個門口三次的人,也可以是一個標籤,只要他有合適的應用場景。

另外,我們需要從概念上加以區分,用戶標籤和用戶透視,一個是個體的認知,一個是整體的標籤分佈,二者都經常被人統稱爲用戶畫像。今天我們在這裏說的用戶畫像主要指標籤。

 

用戶畫像的4個核心價值

 

一、市場細分和用戶分羣:市場營銷領域的重要環節。比如在新品發佈時,定位目標用戶,切分市場。這是營銷研究公司會經常用的方式。

二、數據化運營和用戶分析。後臺PV\UV\留存等數據,如果能夠結合用戶畫像一起分析就會清晰很多,揭示數據趨勢背後的祕密。

三、精準營銷和定向投放。比如某產品新款上市,目標受衆是白領女性,在廣告投放前,就需要找到符合這一條件的用戶,進行定向廣告投放。

四、各種數據應用:例如推薦系統、預測系統。我們認爲:未來所有應用一定是個性化的,所有服務都是千人千面的。而個性化的服務,都需要基於對用戶的理解,前提就需要獲得用戶畫像。

 

用戶畫像的基礎:數據

 

做好用戶畫像需要一定的門檻,一方面是數據的體量和豐富程度,另一方面是技術和算法能力。今天介紹的經驗基礎是【友盟+】數據,首先簡單介紹一下。【友盟+】有覆蓋線上線下的實時更新的全域數據資源,每天大約有14億的設備,覆蓋數百萬級的網站和APP行爲,這個龐大的數據量使得我們有豐富的數據資源來生產用戶畫像,同時又要求我們能相應的技術能力來進行處理。

 

數據是如何產生,變成畫像的?

 

 

結合上圖,用戶畫像生產流程概覽,我們將用戶畫像的生產比喻成一個流水線,就如同將礦石加工成成品的過程。用戶瀏覽網頁、使用APP、線下行爲,這些數據都是礦石,需要提煉、加工成爲產品,最後還要通過質檢。
 
這個過程通常有幾個步驟。首先獲得原始行爲數據,基於這些數據做特徵抽取,相當於清洗、加工的工作;在機器學習環節,會與外部知識庫有一些交互。實際上機器算法對人的理解,一定要基於知識體系,就好像我們說的概念。比如,機器給人打汽車相關的標籤,一定要首先知道汽車體系有什麼樣的分類,有什麼車型,有這樣的知識系統我們才能把人做很好的標識歸類。

最後,質量檢測,這一步也很重要。一個標籤的質量決定了後期的應用效果,如果前期對人的分析偏了,後期結果就很難做對。

 

用戶畫像產生的流程框架

 


上面講的是概念圖,如果具象到實際操作中,是這樣一個框架流程:

這裏先留三個懸念:
懸念一:從用戶行爲日誌開始到標籤產出,爲什麼有兩條線?
懸念二:標籤體系爲什麼只作用在內容標註上?
懸念三:爲什麼下面的“評估”過程要特別標註出來?

 
從用戶行爲日誌開始到標籤產出,爲什麼有兩條線?我們把畫像分爲兩大類:

第一類:統計型畫像;第二類:預測性畫像。

第一類,統計型畫像是客觀存在,這種都是興趣偏好。比如,用戶每天都在看汽車新聞、搜索汽車相關的內容,基於這種行爲,我們判斷這個用戶對汽車感興趣。這些行爲是客觀發生的,因此無所謂正確率,也不需要訓練樣本集。
 
第二類,預測性畫像。需要通過用戶行爲做預測,像用戶的性別預測,尤其是挖掘人的內心態度。比如,用戶在消費時,是激進的,還是保守的?有預測就有準確率。所以這裏面有很重要的評估指標,就是正確率,也需要取樣本集。這就是二者的不同,也會有不同的加工流程。

 

常用的一些標籤體系

 

再繼續介紹標籤體系,因爲很多同學會問到,“我應該建一個什麼樣的標籤體系?什麼樣的標籤體系是比較好的?”通常我們會把它分爲四大類:

第一類:人口屬性。比如說性別、年齡、常駐地、籍貫,甚至是身高、血型,這些東西叫做人口屬性。

第二類:社會屬性。因爲我們每個人在社會里都不是一個單獨的個體,一定有關聯關係的,如婚戀狀態、受教育程度、資產情況、收入情況、職業,我們把這些叫做社會屬性。

第三類,興趣偏好。攝影、運動、喫貨、愛美、服飾、旅遊、教育等,這部分是最常見的,也是最龐大的,難以一一列舉完。

第四類,意識認知。消費心理、消費動機、價值觀、生活態度、個性等,是內在的和最難獲取的。舉個例子,消費心理/動機。用戶購物是爲了炫耀,還是追求品質,還是爲了安全感,這些都是不一樣的。

 

如何判斷標籤體系的好壞?

 

在實際構建標籤體系時,大家經常會遇到很多困惑,我列舉5個常見問題:
第一、怎樣的標籤體系纔是正確的?其實每種體系各有千秋,要結合實際應用去評估。
 

第二、標籤體系需要很豐富麼?標籤是枚舉不完的,可以橫線延展、向下細分。也可以交叉分析,多維分析。如果沒有自動化的方式去挖掘,是很難做分析的,太多的標籤反而會帶來使用上的障礙。

 

 第三、標籤體系需要保持穩定麼?不是完全必要,標籤體系就是產品/應用的一部分,要適應產品的發展,與時俱進。比如,以前沒有共享經濟這個詞,今天卻很熱。我們是不是要增加一個標籤,分析哪些人對共享經濟的參與度高?喜歡共享單車、共享汽車。
 

但是,有一種情況下,標籤要保持穩定。如果你生產的標籤有下游模型訓練的依賴,即我們模型建完後,它的輸入是要保持穩定的,不能今天是ABC,明天是BCD。在這種情況下,是不能輕易對標籤體系做更改的。
 
第四個,樹狀結構or網狀結構?樹狀結構和網狀結構從名字上就可以看出其分別。網狀結構,更符合現實,但是層次關係很複雜,對數據的管理和存儲都有更高要求。知乎,如果仔細去看它的話題設置,其實是網狀的。

網狀的特點就是一個子話題,父級可以不止一個,可能有兩個。比如兒童玩具,既可以是母嬰下分分類,也可以是玩具下的分類,它就會存在兩個父節點之下。樹狀結構相對簡單,也是我們最常用的。網狀結構在一些特定場景下,我們也會去用。但是實現和維護的成本都比較高。比如,有一個節點是第四級的,但它的兩個父節點一個是二級,一個是三級,結構異化帶來處理上的麻煩。
 
第五個,何爲一個好的標籤體系?應用爲王,不忘初心。標籤是爲了用的,並不是爲了好玩,最好保證標籤體系的靈活和細緻性。

在【友盟+】已經很少強調標籤有多少種,或者有多麼大的一個體系,我們更強調兩點:

第一,快速建模的能力。有新需求來時,能夠快速把這個標籤製作出來,把相關的用戶找出來;

第二,我們可以做的很細,不能只說這個用戶對汽車感興趣,而是需要細分到車型、價位,甚至他去買車時,會關注駕駛乘坐的舒適性、操控的靈活性,還是內飾的細節。

 

統計型標籤的生產流程

 

再回到剛纔說的生產流程上。我先結合下面的圖介紹上半邊,統計型的標籤是怎麼去加工的。

首先我們要有行爲數據,例如用戶每天看100篇文章,有40篇是體育的,有30篇是汽車的,有20篇是旅遊的,還有10篇其他的。我推測,你比較喜歡體育、汽車、旅遊。

對於這樣的標籤,大概需要什麼流程去做呢?環節一很重要,內容標註。只有知道用戶看的內容是什麼,才能統計偏好。環節二,如何基於用戶行爲做聚合統計和歸一化。

 

一個經典的標註例子:網頁標註

 

在做內容標註時,一般會有兩種情況:

第一種:有些公司在建自有用戶畫像時會很幸運,例如電商、視頻類、音樂類的媒體,它給用戶服務的這些內容是已經分類好的。可以直接用內容的標註來做用戶行爲標註。

 但是,對於一些通用型的內容,比如【友盟+】的數據,會有PC瀏覽數據、APP的使用數據,一定要先了解用戶喜歡看什麼,才能去做下一步的工作。在這裏面,最複雜,也最典型的就是網頁的內容標註。


第一步需要將URL做清洗和過濾。
 
接來下有兩種不同的做法。一種是PATH標註。這個會比較簡單一些。
 舉個例子, sports.163.com/nba 這個域名下網頁都是關於NBA的。這些URL的結構非常規整,只需要對URL的分級做標註都可以標識很大一批網頁。


通過具體內容做分析,也有兩條路。一條路是通過Title,標題是內容最精煉的概括。第二條路是通過DOM解析,正文抽取。這兩步又彙總到對內容分詞。


我們不需要對網頁裏所有的單詞做處理,一定是關鍵詞搜尋,就是哪些詞更能表達網頁的內容。再之後,是對內容的分類,我們會訓練一個分類器,把所有的網頁內容進行分類。這其實是機器學習的過程。
 
還有一個小細節,在PATH標註和網頁標註之間是雙箭頭。當我們對網頁有了大量標註後,可以反推URL是不是都相同的主題,而對於PATH的標註有助於提高召回率。

 

標籤的最終生成:行爲統計

 

根據用戶的行爲,統計標籤數值,歸一化。這裏有個計算公式:
比如,我們判斷用戶是喜歡運動、還是服飾,會將他看來多少相關網頁、使用了多少APP進行累加,在除以一個總累積,得到一個標籤得分。

這裏面有幾個點需要關注:

第一、統計量的選取。可能是瀏覽數量、瀏覽時長、瀏覽頻度、複合關係等。舉個複合關係的例子,對於某個商品類目的偏好,你可以將瀏覽、搜索、收藏,購買等行爲統計量加權在一起考慮。

第二、個體內的可比性。個體用戶的不同標籤間具有可比性。舉個例子,我有兩個標籤:閱讀、旅遊。我的閱讀標籤是0.8分,旅遊是0.6分,代表我更傾向於去閱讀,而不是去旅遊?如何保證這一點呢?在上面公式裏將個體的行爲總和作爲分母就可以了。
 
第三、垂類內的可比性。一個垂類內不同用戶的相同標籤具有可比性。

例如,我的動漫得分是0.8,你的是0.6,表示我比你要更喜歡動漫。那麼分母就是選取整個動漫類行爲的總和。比如說,今天全國用戶在B站上一共100萬小時,你有1個小時,你是百萬分之一,他花了2個小時,大約是百萬分之二,最後再做一個歸一化,就會產生一個類內可比的得分。
 
我們剛剛說的是絕對化的值,還有一個簡單的做法就是做排序,基於用戶的使用時間做排序,這樣也可以。

但是排序和歸一化到底有什麼不同?排序只代表相對性,而剛纔說歸一化代表了強弱, 我的得分是0.8和你是0.6,就表示偏好強度上我比你高了30%,而排序則不能反映這樣的比例。

留一個小問題,能否在兩層面上同時可比?建議大家首先要考慮這樣做是否有必要。

舉個例子,我今天搜索了一個化妝品對比之前搜化妝品的時候,更能體現想要購買。近期的行爲比遠期的行爲更能反映用戶的興趣偏好,尤其消費需求偏好這種類型。我們可以在得分計算中體現這種結果,就是做衰減因子。

一個簡單的做法,是利用衰減因子:

這個公式的含義是,今天的得分可以由昨天的得分乘以衰減係數,同時加上今天的增量。衰減不只這一個模型,還有其他方法,但是思路是一樣的。

 

統計型標籤生產要點回顧

 

1、行爲數據。瀏覽、使用、點擊、購買、LBS等,通過行爲數據反映人的偏好傾向;
2、標籤體系。根據實際需要進行設定。可以參考《消費者行爲學》、電商類目體系、應用市場體系、媒體資訊體系等;
3、內容標註。把行爲相關的內容抽出來做分析,把標籤體系先打到它們身上,再累積到“人”身上;
4、得分歸一化。明確歸一化的目標,選擇所需的歸一化方法。舉個例子,推薦適合用個體內可比較的得分,不管A看會某個內容用了多少時間,A所看到最多的內容就優先推薦給A,不用和其他人比較;
但在投放廣告上,就要考慮用戶在這個商品上的傾向度有多高,需要用戶間可比較的得分。

 

預測型標籤的生產流程

 

 預測性標籤的生產流程:特徵抽取→監督學習、樣本數據→評估→標籤產出,這也是經典的機器學習流程。

 

特徵工程

 

特徵工程,是機器學習的關鍵過程之一。最重要的是提取不同側面的特徵。我們以移動端使用行爲可抽取的部分特徵爲例:

1、APP使用事實特徵:用戶30天內開啓APP的天數、用戶180天內開啓APP的天數。這兩個數據都會作爲特徵,考慮用戶短期和長期的情況。

用戶30天內使用APP時長佔比、用戶180天內使用APP時長佔比。剛纔說的是次數,這塊是時長,用戶可能反覆打開,但是總時長很短。

2、興趣特徵:雖然信息有損失,但是泛化效果更好。舉個例子,你是A站用戶,他是B站用戶,理論上講,如果我們用最底層的數據,你們兩個人是不太一樣的,但某種程度上,他們都是對二次元感興趣的人;
 
近期用戶興趣標籤歸一化值、長期用戶興趣標籤歸一化值。用戶長短期基於興趣標籤下使用不同APP的熵值、歷史某類APP時間消耗佔比變動比例。其實反映了我們要看這個分佈,以及分佈的趨勢性,你過去關注度高,現在關注度減弱,和你過去關注度不高,現在關注度高,其實這兩個是完全對應不同的人,這也是我們參考的特徵。
 
3、設備與環境特徵:近期使用的設備品牌、近期使用的設備型號;工作日時間段內Wi-Fi使用時間分佈、休息日時間段內Wi-Fi使用時間分佈(工作日與假日的區分)。

 

模型訓練與結果評估

 

1、模型選擇。有有監督的分類算法:邏輯迴歸、SVM、決策樹、Bagging、深度學習;
 
2、二分類or多分類。二分類比較簡單,多分類則有不同的拆分策略。舉個例子,把人分爲男女,是二分類的問題;分爲年齡段,就是多分類的問題,我們在機器學習當中也有不同的做法,OvO(一對一)、OvR(一對其他)、MvM(多對多)。
 
3、結果評估。評估指標包括:正確率、召回率、應用效果。但是對於統計型標籤來說無正確率,召回率看閾值,今天你只看一個汽車的型號,理論上我也可以給你打一個標籤,但是分值非常低,這個分值到底要不要算做這個標籤的人,要看中選什麼樣強度的人。預測型標籤,一般看Precision,Recall,F-Score,ROC。
 
4、Ranking任務。一類特殊的定製化標籤。針對特定場景,如對電話營銷需要按照可能性排序打電話。套用上述模型,可以用最終得分來做Ranking。

 

關於標籤評估的延展

 

標籤的生產不是目的,使用纔是。正確率≠效果,舉個例子:喜歡看車不代表是試駕購車的目前人羣。

第一,用戶分層的評估。針對於重點人羣進行評估,不同人羣分層進行評估;

第二,從全局進行評估。不要只侷限於樣本集合的評估,參看一些全局統計數據。

例如,人口屬性的分佈和統計局的結果是否相符?第三,有效果反饋的應用。將標籤直接應用於使用場景中檢驗效果。例如,進行營銷的定向投放,測試點擊率;第四,利用其它數據佐證。使用其他行爲數據來驗證標籤的有效性。例如,在電商環境中後續的行爲差異來評估顯著性。

 

一個快速建模框架

 

 

我們今天不再強調標籤豐富度,而是快速建模的能力。快速建模怎麼做到?這套系統在【友盟+】比較完備,使得我們收到一個樣本就可以很快訓練模型,這個流程最快3個小時就能夠把標籤算出來。

 

用戶畫像的應用

 

Data -> Insight -> Action->Data->…
第一步,先有數據,就像標籤生產出來,要有數據的過程;

第二步,分析,洞察。洞察並不是最終目的,因爲洞察只是得到一個結論或者方向;第三步,開始應用;應用後又帶來新的數據,從而形成數據的閉環。舉個例子,廣告怎樣的羣體點擊了,數據被反饋回來,下一個循環可以進行調整,不斷地迭代,優化整個效果。

 

DIP營銷服務流程

 

關於上述流程的實際使用,結合【友盟+】DIP數據智能平臺講一下營銷服務流程是如何做的。

左上面是我們一些數據,例如:客戶上傳數據後,我們會有一個匹配的過程,把所有數據打通連接。上傳、匹配之後,會對這些數據做人羣分析。比如說寶馬X1今年剛上市,他們把去年購買X1的用戶都上傳上來,我們會分析這樣的用戶在哪些方面是有特性的,比如年齡段、地域分佈、收入、偏好。有了這樣的分析後,我們可以選擇相應的人羣,基於歷史的偏好、特徵,然後再去投放;如果中間我們會發現人羣量不夠,最初選擇10萬人可以放大到100萬人。最後輸出到媒體、RTB等渠道商。做預算,看效果,將效果數據迴流,再去迭代,以進一步提高投放的精準率。這是我們常用的一個流程。

 
在舉個實際的例子,如果要做一個新產品的傳播推廣,這時需要做定向投放。我們先要對潛在用戶要進行分析,例如對於科技產品非常感興趣的人,我們發現他每天8、9點特別活躍,通過進一步分析,他會和哪些媒體做觸達,或者他看不看電視會不會留意到地鐵裏面的廣告,這也是一個觸達渠道,以及看什麼樣類型的,看資訊、社交、八卦,這個不太一樣。要找到受衆,應該到哪找?比如說去這種有態度的網易新聞,還是個性化的今日頭條,或者說騰訊新聞,這都需要進行分析。

基於上面的分析之後,再做結合分析。舉個例子,你對科技感興趣,那你的手機是不是到了更新期,你手機大概用了三年,應該到了更新期,就可以對這樣的特定人進行投放。把人圈出來,投放、曝光,曝光之後我們去看營銷的結果,然後返回來繼續分析,會不會對其他內容感興趣,再去做下一輪分析。這就是我們之前做的一系列方法的一個應用。
 
最後關於數據應用我再給出一些通用型的建議:

第一、分析:

1、結合業務場景去選擇分析維度:如果你是給中年婦女推薦保健品,你去分析她們喜歡不喜歡二次元,這就非常說不通了。

2、不要只是簡單的看畫像分佈,一定要做對比。

 

3、例如,與大盤對比情況:TGI。上圖是我們分析一個APP內的購買人羣。紫色的線是人羣的分佈,年齡段的分佈。我們看到18-30歲之間的人很多,感覺還不錯。但是,如果你做一下大盤情況,APP的用戶大多是年輕人,因爲本身這個產品有一個年齡偏小的分佈特徵。通過分析對比之後發現,TGI比較高是30-39歲的人,這個範圍的人才是在購買人羣裏面是顯著的,這個羣人才是你去做運營活動、投放的人羣。
分析,一定要去做對比,單純看分佈是並沒有太多信息含量。不對比看不出來差異。

4、環節的對比。哪些人我觸達了,哪些人到這裏落地了,哪些人註冊了、哪些人真正瀏覽、哪些是留存、哪些是付費,每一個環節你都可以做這樣的分析。

第二、精準投放(Action)。這是我們今天做標籤非常大的一類應用。這時候大家可能會發現,我們做品牌廣告、效果廣告是不同的。

舉個例子:品牌廣告我們就會關心TA濃度,關注我投放廣告的人性別怎麼樣、年齡分佈怎麼樣。效果廣告是不一樣的,效果廣告通常很直接,你這個人是不是點了,最終CTR高不高,最終購買ROI高不高,這種一定是你最直接的興趣是什麼,你什麼性別不重要,我就想知道你要不要。

另外一點,直覺未必靠譜,一定要通過反饋來檢測,就是剛纔說我們爲什麼要數據閉環,比如說,有一個商品設計者說,我這個產品目標是吸引白領女性,實際上他上市場去賣的時候發現,買他的男性大學生最多,跟他想的根本不一樣。
 

如果你一直持續的給白領女性做廣告投放,實際上效果可能不是最優的,反而你做校園活動會達到更好的效果。
 

甚至說,你可以基於你的用戶場景做專屬標籤,以及你可以通過人羣放大來做處理。舉個例子說,我今天有新的車型上市,一個方法是,先選取對汽車感興趣的人,或者SUV感興趣的人,就可以去做投放,這個效果就可能不是最優的,更優的情況是針對你這個case,去針對性的做訓練,針對性的選取跟你相關的人,通常效果上比通用的標籤選取更好,這時候我建議如果你特別強調你的效果,就去試試訓練專屬的標籤。

 

總結

 

第一點,要有目標。你所有的通過應用來驅動需求,單純你做上千維的標籤並不是一個好的目標。

第二點,要有數據。數據是一切的核心,沒有數據說要建很多標籤是沒有用的,如果你手裏沒有數據,或者數據不多,你第一個工作不是建後面的標籤體系,你要趕緊找數據。數據決定了你的天花板,我的這個東西建到什麼程度由數據決定,你的算法、技術方案只是讓你無限的接近天花板而已,超越不了的。

第三點,不要拘泥於技術細節。用簡單的方法快速走通整個流程,然後再去看哪些環節需要優化去深入,舉個例子像剛纔那個標籤,你的分詞可以做得很細,網頁分類可以做的很細,每個關鍵環節都可以做的很細。實際上一開始你這麼細是沒有必要的,因爲它是一個鏈路,你在這個環節上,比如說從6分變成9分,最終結果可能只提升1%,這裏時間有一個很大的浪費,所以快速的走完整個環節,不要糾結細節,這樣會比較好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章