論文閱讀:知識圖譜的推薦系統綜述

知識圖譜的推薦系統綜述

常亮,張偉濤,古天龍,孫文平,賓辰忠

(桂林電子科技大學廣西可信軟件重點實驗室, 廣西 桂林 541004

摘要:

搜索引擎和推薦系統是解決信息過載的代表技術。傳統的搜索引擎在本質上來講是幫助用戶過濾和篩選信息,這種方式滿足了大多數人的需求,但沒有提供個性化的服務。相對於傳統搜索引擎來說,推薦系統可以兼顧個性化需求和解決信息過載問題。推薦系統是信息過濾系統的一個 子集,目的在於根據用戶的喜好、習慣、個性化需求以及商品的特性來預測用戶對商品的喜好,爲用戶推薦最合適的商品,幫助用戶快速地做出決策,提高用戶滿意度。推薦系統的價值在於能夠提供儘量合適的選擇或者是推薦而不需要用戶明確提供他們所想要的內容。 

2012 年 5 月 17 日谷歌正式提出了“知識圖譜”這個術語。知識圖譜旨在描述真實世界中存在的各種實體或概念,以及他們之間的關聯關係。其中,每個實體或概念用一個全局唯一確定的 ID 來標識,每個屬性-值對用來刻畫實體的內在屬性,而關係用來連接兩個實體,刻畫它們之間的關聯。知識圖譜可以融合多種數據源豐富數據語義信息,並且可以結合推理得到的隱含信息爲用戶提供服務。隨着信息檢索、智慧城市等應用領域的發展要求,將知識圖譜應用於這些領域以提高用戶體驗和系統性能,成爲學術界和工業界關注的熱點。 

該推薦有 3 個組成要素:用戶知識圖譜、項目知識圖譜、推薦方法。在此基礎上,我們給出了基於知識圖譜的一個推薦系統模型,如圖 1 所示。該模型分爲客戶端和服務器端,客戶端收集用戶的原始數據(包括瀏覽數據、上下文數據如時間、用戶狀態等)上傳至服務器端進行處理。服務器端一方面從各個垂直網站及百科網站中進行相關數據蒐集,構建項目知識圖譜;另一方面,對用戶偏好進行獲取,建立用戶知識圖譜;此外,通過分析推理的方法獲取上下文信息,利用 GPS 定位來獲取當前用戶地理位置息等。最後,綜合上述信息,通過推薦產生器向目標用戶推送其感興趣的項目,並基於用戶反饋對推薦性能進行評估,進一步調整推薦產生器,以適應用戶偏好。


依據推薦過程中知識圖譜表現形式,本文將文獻中的基於知識圖譜的推薦方法大致分爲兩大類基於本體的推薦生成、基於開放鏈接數據(linked open data, LOD)的推薦生成。此外,鑑於近年來將知識圖譜嵌入低維向量空間的方法在推薦領域扮演的角色越來越大,本節將基於圖嵌入的推薦生成單獨作爲一類來考察。

本體作爲知識圖譜的一種體現形式,強調的是概念之間的層級關係,有邏輯學和語義學的基礎,支持簡單的自動推理。基於本體的推薦生成的主要思路是利用本體中細粒度的對概念層級關係的描述,通過對概念的細粒度的分類描述來更加精準的對實體特徵進行表示,從而挖掘出事實中蘊含的深層次信息。融入現有的基於內容的推薦、基於協同過濾的推薦方法中。最後結合用戶當前的上下文信息生成推薦。

基於 LOD 的推薦生成技術主要思路是:將鏈接數據庫中豐富的語義信息融入到現有的方法中,着重考慮用戶偏好、項目之間屬性相似度。通過利用LOD 中大量相互關聯的數據,更加精細化的衡量資源之間的相似性,挖掘用戶的偏好,最後結合上下文信息生成推薦結果。因此在引入 LOD 之後,語義相似度的計算成爲關鍵所在。目前,語義相似計算的方法主要包括鏈接數據語義距離(Linked Data Semantic Distance)、基於隱式語義反饋的路徑算法(SPrank)等。

László等較早將圖嵌入技術應用於推薦領域。將 Movielens 中電影與用戶嵌入到同一個向量空間,進而計算用戶與電影的空間距離,生成推薦列表。

雖然近年來國內外研究者在基於知識圖譜的推薦系統取得了許多進展。但總的來說,目前仍然面臨以下重點和難點問題。 

1)對用戶偏好的精準建模問題。知識圖譜可以融合多源異構信息,包括豐富的用戶信息及用戶與項目的交互信息;如何全面考慮用戶與用戶、用戶與項目之間的聯繫,進一步提高推薦的準確度,是未來的研究重點。 

2)對大數據的高效處理問題。由於數據生成速度快,而且多源數據融合過程中引入了更多的噪聲和冗餘,使得傳統推薦算法中採用的精確計算方式越來越難以應對,概率模型統計方法將可能發揮更爲重要的作用[43]。 

3)推薦系統的效用評價問題。對傳統推薦系統的評價指標主要是準確度和效率,通常採用的方法有 MAE、RMSE、關聯度等。這些指標當然也可 以用於基於知識圖譜的推薦系統,例如文獻[16]使用了準確率和召回率來表徵推薦系統的準確度。然而,由於不同領域的推薦系統面臨的實際問題不同,相應地使用了不同的數據集,使得難以形成統一的效用評價標準[44]。 

4)如何通過深度挖掘和相關性知識發現提高推薦效果。由於知識圖譜本身特點,相對於因果關係挖掘,其更適合於相關關係挖掘。通過從知識圖譜中深度挖掘項目之間、用戶之間、以及項目與用戶間的深層次關係,獲得更多的相關性結果,有助於爲用戶進行個性化推薦,在提高推薦結果多樣性的同時保持較高的推薦準確性[45]。 

5)推薦系統的可擴展性。可擴展性一直是推薦系統應用中面臨的難點問題[46]。在傳統推薦系統中,隨着用戶與項目數量的增加,會使得計算量顯著增大。目前主要的解決方法有聚類、數據集縮減、降維等。在知識圖譜中,用戶之間、用戶與項目之間隨時隨地的信息互動會產生大規模的數據集;   


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章