個性化推薦系統之用戶畫像研究筆記

構建推薦系統的核心任務之一:準確地分析用戶的興趣特點(用戶畫像)

    什麼是用戶畫像?

     用戶畫像簡單來說是從用戶產生的各種數據中挖掘和抽取用戶在不同屬性上的標籤,如年齡、性別、職業、收入、興趣等。完備且準確的屬性標籤將有力的揭示用戶本質特徵,因而極大地促進精準的個性化推薦。

   用戶畫像研究概況:

   目前,主流用戶畫像方法一般是基於機器學習尤其是有監督學習的技術。這類方法從用戶數據中抽取特徵來作爲用戶的表示向量,並利用有用戶屬性標籤的數據作爲有標註數據來訓練用戶畫像預測模型,從而對更多的沒有標籤的用戶的屬性進行預測。

   用戶畫像研究的挑戰:

    首先,已有的方法大多數都基於手工抽取的離散特徵,這些特徵無法刻畫用戶數據的上下文信息,因此對於用戶的表徵能力較爲有限。

    其次,現有的用戶畫像方法通常基於簡單的線性迴歸或分類模型,無法從用戶數據中自動學習高層次抽象特徵,也無法對特徵之間的交互關係進行建模。另外,已有的用戶畫像方法往往基於單一類型和單一來源的數據,這些數據對於用戶的表徵不夠豐富。而實際上,用戶數據往往是多來源和多類型的。

    最後,已有的用戶畫像方法大都沒有考慮用戶屬性標籤的時效性,因此很難刻畫用戶動態變化的屬性如興趣等。   

用戶畫像研究的機遇:從多源異構用戶數據中構建深度、統一和動態的用戶畫像

1. 構建具有更強表徵能力的用戶表示模型。隨着深度學習技術的發展和成熟,利用深層神經網絡從用戶原始數據中自動抽取深層次的、有信息量的特徵來構建用戶的特徵表示能夠有助於更加充分地利用用戶數據並有效提升用戶畫像的精度。使用基於深層神經網絡的用戶表示模型能夠有效克服目前已有的基於特徵工程和線性模型的用戶畫像方法的不足。我們提出的HURA模型(《Neural Demographic Prediction using Search Query》, WSDM 2019)基於多層注意力機制和神經網絡結構,有效地通過搜索日誌預測了用戶個人屬性

2. 基於多源和異構數據的用戶畫像。用戶產生的數據往往分佈在不同的平臺,並且具有不同的結構(如無結構的社交媒體文本數據和有結構的電商網站購買記錄等)和不同的模態(如文本數據和圖像數據),給用戶畫像帶來了很大的挑戰。如何設計一個深度信息融合模型來利用不同來源、不同結構和不同模態的用戶數據進行用戶建模,是未來用戶畫像領域的一個重要方向。基於深度神經網絡的協同學習和多通道模型可能是值得嘗試的技術。
3. 不同平臺用戶畫像數據的共享和用戶隱私保護。目前很多用戶數據存在於不同的平臺當中,例如搜索引擎擁有用戶的搜索和網頁瀏覽記錄,電商網站擁有用戶的商品瀏覽、購物、收藏和購買信息。這些不同平臺的用戶數據對於用戶畫像都具有重要的價值,互相之間可以提供互補信息,有助於構建更加豐富全面的用戶表示。然而,平臺之間直接共享用戶信息可能會使得用戶的隱私受到泄露和損害。如何在不轉移和不共享用戶數據的情況下,充分利用不同平臺的用戶信息實現協同用戶畫像和建模是值得研究的一個方向。
4. 面向用戶畫像的統一用戶表示模型。已有的用戶畫像方法在實際的應用中往往會涉及大量模型的訓練、存儲和調用,時間和空間的複雜度都比較高,使用起來也比較繁瑣。另外,不同的用戶屬性之間潛在的聯繫也無法充分挖掘。如何基於多源異構的用戶數據構建一個統一的用戶表示模型,使得該模型可以儘可能全面而準確地包含一個用戶在不同屬性和維度的特徵信息並能夠應用於多個用戶畫像任務是一個非常值得研究的方向。基於深層神經網絡的多任務學習技術和類似詞嵌入的用戶嵌入技術有希望能夠應用於這個問題。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章