用戶畫像算法分享和乾貨推薦

在做用戶畫像時,首先要認識用戶畫像,用戶畫像是根據網絡中海量的用戶信息抽象出的一個標籤化的用戶模型。 從互聯網各大平臺中,通過主動(爬蟲)或者被動(公司留下的客戶歷史足跡)地收集用戶信息,再經過分析和加工,就能形成一系列的用戶個性化標籤。就是下圖這個樣子的:

關於用戶畫像的構建csdn上有很多,但大多是在結構上和業務上做了介紹,有一些有價值的博客做了用戶畫像模型構建方法的深度講解。不同的是,各種競賽kaggle、達觀題目裏做了業務分析和需要的標籤,需要競賽者實現算法。

所以本文找來乾貨博客和競賽者博客結合構成總的用戶畫像的構建。

希望大家能看完再判斷自己需要哪些東西來填充自己用戶畫像使其越來越豐滿。

用戶畫像的構建分爲幾個部分:

一、獲取數據

除了爬蟲是自己主動獲取的,競爭者的題目和公司業務都是已經存在的數據。我做的電影用戶畫像是從豆瓣爬取的,其他含有用戶信息的平臺也可以,比如豆瓣的特點就是用戶之間有交互,可以寫個人日記等等,貓眼的特點就是用戶有購票記錄,當然購票平臺不止一個,用戶也有可能去別的平臺購票。注意分析平臺的數據特徵,想象一下自己需要構建用戶什麼樣的標籤,從而知道自己需要獲取什麼樣的信息,還有,選擇了一個平臺就不要選其他的,平臺之間用戶具有差異性,用戶特性跨平臺不具有穩定性,就是說一個用戶可能在這個平臺喜歡買這個時間段的,因爲座位比較好選,但是另一個平臺可能就喜歡他的放映方式是3D或者熒幕類型比較喜歡等等。

具體得知自己需要什麼樣的標籤可以參照二

 

二、分析數據,建立合適的標籤體系

文章一:http://www.sohu.com/a/207783340_477902  ——你在看電影,做數據的人卻在“畫”你——一文閱盡電影用戶畫像之謎 

介紹了在分析數據時,爲把數據做的貼合我們的需要,可以從哪些方面來考慮,比如:維度交叉分析、本底數據對比、補充口碑數據、加入時間軸。 

實用性 ☆☆☆

文章二:https://blog.csdn.net/SecondLieutenant/article/details/81153565——用戶畫像原理、技術選型及架構實現

介紹了用戶畫像的體系構建和應用場景,具體包括體系分類,體系分層,大數據系統架構等

實用性 ☆☆☆☆

 

三、標籤挖掘

大體分爲文本數據的處理和非文本數據的分類

競賽一:以網上電商購物評論爲例,原始的主題模型主要針對篇幅較大的文檔或者評論句子的集合,學習到的主題主要針對整個產品品牌;而現實情形是,用戶評論大多針圍繞產品的某些特徵或內容主題展開(如口味、服務、環境、性價比、交通、快遞、內存、電池續航能力、原料、保質期等等,這說明相比於對產品的整體評分, 用戶往往更關心產品特徵),而且評論文本往往較短。

       本次大賽提供脫敏後的電商評論數據。參賽隊伍需要通過數據挖掘的技術和機器學習的算法,根據語句中的主題特徵和情感信息來分析用戶對這些主題的偏好,並以<主題,情感詞>序對作爲輸出。

GitHub https://github.com/digfound/CCFCompetition

競賽二:客戶異常用電,線上第4名的代碼。同時,他們還是搜狗比賽的二等獎。
https://github.com/AbnerYang/2016CCF-StateGrid

競賽三:文本數據處理,可以參考搜狗用戶畫像競賽,找排名靠前大神博客和github去了解算法

http://coderskychen.cn/2016/12/28/%E3%80%90%E5%B9%B2%E8%B4%A7%E5%88%86%E4%BA%AB%E3%80%912016CCF%E5%A4%A7%E6%95%B0%E6%8D%AE%E4%B8%8E%E8%AE%A1%E7%AE%97%E6%99%BA%E8%83%BD%E5%A4%A7%E8%B5%9B-%E6%90%9C%E7%8B%97%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F%E6%8C%96%E6%8E%98/#more

——搜狗用戶畫像第五名,文本數據的處理和算法改進

線上第3名的TNT_000,同時也是客戶用電異常行爲分析比賽的二等獎。
https://github.com/AbnerYang/2016CCF-SouGou

線上第5名的The Right隊伍的代碼和決賽答辯PPT,而且他們還給出了數據下載地址,大讚。同一個團隊的幾個人分別開源了,鏈接如下:
https://github.com/dhdsjy/2016_CCFsougou2
https://github.com/dhdsjy/2016_CCFsougou
https://github.com/prozhuchen/2016CCF-sougou
https://github.com/coderSkyChen/2016CCF_BDCI_Sougou

複賽第14名的團隊:
https://github.com/admu/CCF_sougou

 

在進行文本類數據挖掘時,由於在影評集中長文本往往忽略了用戶的很多觀點,所以我採用了句法分析的方法。

對影評長文本做單句的句法分析,先經過主語的提取,句子當中沒有主語則稱爲隱式語句,否則是顯示語句,然後再計算由否定詞、程度副詞、形容詞構成的情感短語的得分。將提取到的主語歸類到前面所分的十大類型的值域中,最終再結合統計學知識得到用戶對於某一類型的觀影偏好。

我參考的論文:https://www.sciencedirect.com/science/article/pii/S1567422315000629?via%3Dihub  ——Discovering Chinese sentence patterns for feature-based opinion summarization

https://www.aclweb.org/anthology/C10-2090.pdf——Opinion Target Extraction in Chinese News Comments

就是語法分析,不知道有沒有更好的方式,這些方式需要手動的地方太多,對於海量文本處理實在是額,望而生畏,壓力山大。。。

歡迎交流

 

四、最後涉及到一個標籤權重的問題

文章一:https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990eb3fdee7622915479093a8f43f61dc8772cc681498f95dbde6960f11c5ed8f75bde29a8e&scene=21#wechat_redirect

——用戶畫像之標籤權重算法——一個用戶的標籤權重:tfidf、時間衰減,多個用戶相關性:相關係數矩陣

文章二:http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html  熵權法:指標之間的權重分析,是所有指標的哦,不針對單個用戶,然後將這種權重加在每個用戶的標籤上,可以作爲用戶標籤全部計算好以後給用戶分類的一個方法。

 

如果大家有標籤挖掘更好的方法,敬請不吝賜教~~~~~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章