用戶畫像之標籤權重算法

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde29a8e&scene=21#wechat_redirect
用戶畫像：即用戶信息標籤化，通過收集用戶社會屬性、消費習慣、偏好特徵等各個維度數據，進而對用戶或者產品特徵屬性的刻畫，並對這些特徵分析統計挖掘潛在價值信息，從而抽象出一個用戶的信息全貌，可看做是企業應用大數據的根基，是定向廣告投放與個性化推薦的前置條件。

先舉個場景，程序員小Z在某電商平臺上註冊了賬號，經過一段時間在該電商平臺的web端/app端進行瀏覽、所搜、收藏商品、下單購物等系列行爲，該電商平臺數據庫已全程記錄該用戶在平臺上的行爲，通過系列建模算法，給程序員小Z打上了符合其特徵的標籤（如下圖所示）。此後程序員小Z在該電商平臺的相關推薦版塊上總能發現自己想買的商品，總能在下單前猶豫不決時收到優惠券的推送，總是在平臺上越逛越喜歡…

上面的例子是用戶畫像一些應用場景。而本文主要分享的是打在用戶身上標籤的權重是如何確定的。

如上圖所示，一個用戶標籤表裏麪包括常見的字段如：用戶id、用戶姓名、標籤id、標籤名稱、用戶與該標籤發生行爲的次數（如搜索了兩次“大數據”這個關鍵詞）、行爲類型（不同的行爲類型對應用戶對商品不同的意願強度，如購買某商品>收藏某商品>瀏覽某商品>搜索某商品），行爲時間（越久遠的時間對用戶當前的影響越小，如5年前你會搜索一本高考的書，而現在你會搜索一本考研的書）。最後非常重要的一個字段是標籤權重，該權重影響着對用戶屬性的歸類，屬性歸類不準確，接下來基於畫像對用戶進行推薦、營銷的準確性也就無從談起了。下面我們來講兩種權重的劃分方法：

1、基於TF-IDF算法的權重歸類
TF-IDF算法是什麼思想，這裏不做詳細展開，簡而言之：一個詞語的重要性隨着它在該文章出現的次數成正比，隨它在整個文檔集中出現的次數成反比。

比如說我們這裏有3個用戶和4個標籤，標籤和用戶之間的關係將會在一定程度上反應出標籤之間的關係。這裏我們用w（P , T）表示一個標籤T被用於標記用戶P的次數。TF（P , T）表示這個標記次數在用戶P所有標籤中所佔的比重，公式如下圖：

對上面的圖來說，用戶1身上打了標籤A 5個，標籤B 2個，標籤C 1個，那麼用戶1身上的A標籤TF=5/（5+2+1）。
相應的IDF（P , T）表示標籤T在全部標籤中的稀缺程度，即這個標籤的出現機率。如果一個標籤T出現機率很小，並且同時被用於標記某用戶，這就使得該用戶與該標籤T之間的關係更加緊密。

然後我們根據TF * IDF即可得到該用戶該標籤的權重值。到這裏還沒結束，此時的權重是不考慮業務場景，僅考慮用戶與標籤之間的關係，顯然是不夠的。還需要考慮到該標籤所處的業務場景、發生的時間距今多久、用戶產生該標籤的行爲次數等等因素。我用個圖總結下：

關於時間衰減的函數，根據發生時間的先後爲用戶行爲數據分配權重。

時間衰減是指用戶的行爲會隨着時間的過去，歷史行爲和當前的相關性不斷減弱，在建立與時間衰減相關的函數時，我們可套用牛頓冷卻定律數學模型。牛頓冷卻定律描述的場景是：一個較熱的物體在一個溫度比這個物體低的環境下，這個較熱的物體的溫度是要降低的，周圍的物體溫度要上升，最後物體的溫度和周圍的溫度達到平衡，在這個平衡的過程中，較熱物體的溫度F(t)是隨着時間t的增長而呈現指數型衰減，其溫度衰減公式爲：

F(t)=初始溫度×exp(-冷卻係數×間隔的時間)

其中α爲衰減常數，通過迴歸可計算得出。例如：指定45分鐘後物體溫度爲初始溫度的0.5，即 0.5=1×exp(-a×45)，求得α=0.1556。

2、基於相關係數矩陣的權重歸類
這個相關係數矩陣聽title挺困難，其實道理十分簡單。舉個例子：用戶1身上打上了5個A標籤、2個B標籤、1個C標籤；用戶2身上打上了4個A標籤，3個B標籤；用戶3身上打上了4個C標籤、1個D標籤。

用個圖形象表示一下：

那麼同時打上A、B標籤的用戶有兩個人，這就說明AB之間可能存在某種相關性，當用戶量、標籤量級越多時，標籤兩兩之間的相關性也越明顯。

今天先聊這麼多，大家可以留言交流。後面再更新 …

用戶畫像之標籤權重算法

1 RDD的數據結構模型

pyspark RDD 一行轉多行

kylin-增量構建Cube

kylin異常排查-Step Name: Build Cube In-Mem

Hive導入/導出 : 創建分區表及分區表導入csv文本文件數據

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結