論文筆記:TEM: Tree-enhanced Embedding Model for Explainable Recommendation

一、基本信息

論文題目:《TEM: Tree-enhanced Embedding Model for Explainable Recommendation》

發表時間:WWW 2018

論文作者及單位:

論文地址:https://dl.acm.org/citation.cfm?doid=3178876.3186066

 

二、摘要

        雖然協同過濾是個性化推薦中的主要技術,但它只對用戶-項目交互進行建模,不能提供推薦的具體原因。同時,與用戶-項目交互相關聯的豐富輔助信息(例如,用戶人口統計和項目屬性)提供了爲什麼推薦的物品適合用戶的有價值的證據,但在提供解釋時沒有被充分探索。
        在技術方面,基於嵌入的方法,如寬深度和神經因子分解機,提供了最先進的推薦性能。然而,它們就像一個黑匣子一樣工作,因此預測背後的原因不能明確地呈現出來。另一方面,像決策樹這樣的基於樹的方法通過從數據中推斷決策規則來進行預測。雖然可以解釋,但它們不能推廣到看不見的特徵交互,因此在協同過濾應用中會失敗。
        在這項工作中,我們提出了一種新的解決方案,稱爲樹增強嵌入方法,它結合了基於嵌入和基於樹的模型的優點。我們首先使用一個基於樹的模型來學習明確的決策規則(也就是。交叉特徵)。接下來,我們設計了一個嵌入模型,它可以包含顯式的交叉特徵,並推廣到用戶標識和項目標識上看不見的交叉特徵。我們嵌入方法的核心是一個易於解釋的注意網絡,使推薦過程完全透明和可解釋。我們在旅遊景點和餐館推薦的兩個數據集上進行了實驗,證明了我們的解決方案的優越性能和可解釋性。

 

三、主要內容與工作

1   INTRODUCTION

        個性化推薦是許多面向客戶的在線服務的核心,如電子商務、社交媒體和內容共享網站。從技術上講,推薦問題通常作爲匹配問題來處理,其目的是基於用戶和項目的可用畫像來估計它們之間的相關性分數。不管應用領域如何,用戶的檔案通常由一個身份(識別哪個特定用戶)和一些輔助信息組成,如年齡、性別和收入水平。類似地,一個項目的畫像通常包含一個標識和一些屬性,如類別、標籤和價格。
        協同過濾是建立個性化推薦系統最普遍的技術,[ 21,26 ]。它利用用戶對項目的交互歷史來爲用戶選擇相關項目。從匹配的角度來看,CF僅使用身份信息作爲用戶和項目的畫像,而放棄其他輔助信息。因此,CF可以作爲推薦的通用解決方案,而不需要任何領域知識。然而,缺點是它缺乏對推薦的必要推理或解釋。特別是,解釋機制要麼是因爲您的朋友也喜歡它(即基於用戶的CF [24 ),要麼是因爲該項目與您以前喜歡的項目相似(即基於項目的CF [35 ),這種機制過於粗略,可能不足以說服用戶推薦[ 14、39、45 ]。
        爲了說服用戶對推薦採取行動,我們認爲除了類似的用戶或項目之外,提供更具體的理由是至關重要的。例如,我們向用戶Emine推薦蘋果7玫瑰金,因爲我們發現月收入超過10,000美元(這是Emine的人口統計數據)的20 - 25歲女性通常更喜歡粉色的蘋果產品。爲了給推薦系統提供如此豐富的信息,潛在的推薦引擎應該能夠( I )從用戶和項目的豐富的輔助信息中明確地發現有效的交叉特徵,以及( ii )以可解釋的方式估計用戶-項目匹配分數。此外,我們期望輔助信息的使用將有助於提高推薦的性能。
然而,現有的推薦方法都不能同時滿足上述兩個條件。在文獻中,基於嵌入的方法,如矩陣分解[ 23,26,34 ]是最流行的CF方法,這是因爲嵌入在從稀疏的用戶-項目關係中推廣時具有強大的能力。已經提出了許多變體來結合輔助信息,例如因子分解機(FM) [ 32 ]、神經FM[ 20 ]、Wide&Deep[ 12 ]、Deep Crossing[ 36 ]。雖然這些方法可以從原始數據中學習特徵交互,但我們認爲交叉特徵效應在學習過程中只能以相當隱含的方式被捕獲;最重要的是,交叉特徵不能被明確地呈現出來[ 36 ]。此外,關於使用輔助信息的現有工作主要集中在冷啓動問題[ 5 ],對推薦的解釋相對較少觸及。

        在這項工作中,我們的目標是通過開發一個既準確又可解釋的推薦解決方案來填補研究空白。準確地說,我們期望我們的方法達到與現有的基於嵌入的方法相同的性能水平,[ 32,36 ]。通過解釋,我們希望我們的方法在生成推薦時是透明的,並且能夠識別預測的關鍵交叉特徵。爲此,我們提出了一種新的解決方案,稱爲樹增強嵌入方法,它將基於嵌入的方法和基於決策樹的方法相結合。首先,我們在用戶和項目的邊信息上建立一個梯度提升決策樹,以獲得有效的交叉特徵。然後,我們將交叉特徵輸入一個基於嵌入的模型,這是一個精心設計的神經注意網絡,它根據當前的預測對交叉特徵進行加權。由於GBDTs提取的顯性交叉特徵和易於解釋的注意網絡,整個預測過程是完全透明和可自我解釋的。特別是,爲了產生推薦的理由,我們只需要根據他們的注意力分數選擇最具預測性的交叉特徵。
        作爲一個主要的技術貢獻,這項工作提出了一個新的方案,統一了基於嵌入和基於樹的推薦方法的優勢。衆所周知,基於嵌入的方法具有很強的泛化能力[ 12,20 ],特別是在預測用戶標識和項目標識上的不可見交叉時(即,捕捉CF效應)。然而,當在豐富的邊信息上操作時,基於嵌入的方法失去了可解釋性的重要屬性——對預測貢獻最大的交叉特徵不能被揭示。另一方面,基於樹的方法通過生成顯式的決策規則進行預測,使得生成的交叉特徵可以直接解釋。雖然這種方法非常適合從輔助信息中學習,但是它不能預測看不見的交叉特徵,因此不適合合併用戶標識和項目標識。爲了構建一個可解釋的推薦解決方案,我們以一種自然有效的方式結合了基於嵌入和基於樹的方法的優勢,據我們所知,這是以前從未研究過的。

2  PRELIMINARY

        我們首先回顧了基於嵌入的模型,討論了它在支持可解釋推薦方面的困難。然後介紹了基於樹的模型,並強調了其解釋機制。

2.1 Embedding-based Model

        基於嵌入的模型是表示學習[ 6 ]的典型例子,其目的是從原始數據中學習特徵用於預測。矩陣分解( MF) [26]是一個簡單而有效的基於嵌入的協同過濾模型,其預測模型可以被表述爲:

        除了ID之外,用戶(項目)總是與豐富的輔助信息相關聯,這些輔助信息可能包含用戶對項目偏好的相關信號。由於這些信息大部分是分類變量,它們通常通過單熱編碼[ 20,32 ]轉換成實值特徵向量。讓xu和xi分別表示用戶u和項目I的特徵向量。爲了預測yui,一個典型的解決方案是連接xu和xi,即x = [xu,xi ] ∈ Rn,然後將其輸入預測模型。調FM 5,32 ]是這種預測模型的代表,其表述如下:

其中w0和wt是偏置項,vt ∈ Rk和vj ∈ Rk分別表示特徵t和j的嵌入。我們可以看到FM將每個特徵與嵌入相關聯,通過嵌入的內積來模擬每兩個(非零)特徵的交互。如果僅使用用戶ID和項目ID作爲x的特徵,FM可以準確地恢復MF模型;通過將ID和側面特徵一起饋送到x、FM模型中,所有ID和側面特徵之間成對(即二階)交互。

        隨着深度學習的最新進展,神經網絡方法也被用來建立基於嵌入的模型[ 12,20,36 ]。特別是,Wide&Deep[ 12 ]和Deep Crossing[ 36 ]通過在非零特徵嵌入的拼接之上放置多層感知器來學習特徵交互;MLP聲稱能夠學習任何順序的交叉特徵。 Neural FM[ 20 ]首先應用雙線性特徵嵌入上的交互池,用於學習二階特徵交互,隨後採用MLP,用於學習高階特徵交互。

        儘管現有的基於嵌入的方法在輔助信息建模中具有很強的表示能力,但我們認爲它們不適合提供解釋。調頻僅模擬二階特徵交互,不能捕捉高階交叉特徵效果;此外,它統一考慮所有二階相互作用,並且不能區分哪些相互作用對於預測[ 46 ]更重要。雖然神經嵌入模型能夠捕獲高階交叉特徵,但是它們通常通過特徵嵌入之上的非線性神經網絡來實現。神經網絡堆疊多個非線性層,並且理論上保證擬合任何連續函數[ 25 ],然而,擬合過程是不透明的,並且不能解釋。據我們所知,沒有辦法從神經網絡中提取明確的交叉特徵,並評估它們對預測的貢獻。

2.2 Tree-based Model

        與表示學習方法相反,基於樹的模型不學習用於預測的特徵。相反,他們通過從數據中學習決策規則來進行預測。我們將樹模型的結構表示爲Q = {V,E},其中V和E分別表示節點和邊。V中的節點有三種類型:根節點v0、內部節點(又稱。決策)節點VT和葉節點v1。圖1展示了一個決策樹模型的例子。每個決策節點vt分割具有兩個決策邊的特徵xt :對於數字特徵(例如,時間),它選擇閾值aj並將該特徵分割成[xt < aj ]和[ XT≥aj ];對於二進制特徵(例如,對分類變量進行一次熱編碼後的特徵),它確定該特徵是否等於一個值,即決策邊類似於[xt = aj ]和[xt ̸= aj ]。

        從根節點到葉節點的路徑形成決策規則,該規則也可以被視爲交叉特徵,例如在圖1中,葉節點vL2代表[x0 < a0]&[x3 ≥ a3]&[x2 ̸= a2]。每個葉節點vL具有值wi,表示相應決策規則的預測值。給定特徵向量x,樹模型首先確定哪個葉節點x落在哪個葉節點上,然後將葉節點的值作爲預測: y\u DT ( x ) = Wq ( x ),其中Q基於樹結構將特徵向量映射到葉節點。我們可以看到,在這樣的預測機制下,葉節點可以被視爲預測中最突出的交叉特徵。因此,基於樹的模型本質上是可自我解釋的。
由於一棵樹可能不足以表達數據中的複雜模式,因此更廣泛使用的解決方案是構建一個森林,例如梯度增強決策樹( GBDT ),它通過利用多個加法樹來增強預測:

        其中S表示加法樹的數量,y’DtS表示第S樹的預測模型。我們可以看到,GBDT提取S規則來預測給定特徵向量的目標值,而單個樹模型基於一個規則進行預測。因此,GBDT通常比單樹模型[ 7,18 ]更精確。
        雖然基於樹的模型在從豐富的側面特徵生成可解釋的預測方面是有效的,但是它們在推廣到看不見的特徵交互時會遇到困難。因此,基於樹的模型不能用於需要對用戶和項目的稀疏標識特徵建模的協作過濾。
        我們可以看到,基於嵌入的模型和基於樹的模型在泛化能力和可解釋性方面是相輔相成的。因此,要建立一個有效且可解釋的推薦系統,一個自然的解決方案是將兩種類型的模型結合起來。

3 TREE-ENHANCED EMBEDDING METHOD

        我們首先提出了樹增強嵌入方法(TEM),該方法結合了稀疏數據建模中的MF方法和交叉特徵學習中的GBDTs方法的優點。然後討論了TEM的可解釋性和可檢驗性,並分析了TEM的時間複雜性。

4 EXPERIMENTS

由於這項工作的主要貢獻是產生準確和可解釋的建議,我們進行實驗來回答以下問題:

( 1)    RQ1:與最先進的推薦方法相比,我們的TEM能達到相當的準確度嗎?
( 2)    RQ2:能通過使用交叉特徵和注意力網絡使推薦結果易於理解嗎?
( 3)    RQ3: )不同的超參數設置(例如樹的數量和嵌入大小)如何影響TEM?

5 RELATED WORK

        我們可以大致將解釋風格分爲基於相似性和基於內容的類別。基於相似性的方法[ 1,2 ]以最相似的用戶或項目列表的形式給出解釋。例如,Behnoush等人。[ 1 ]使用受限玻爾茲曼機器計算前K名推薦列表中項目的可解釋性分數。雖然基於相似性的解釋可以作爲解釋CF推薦器的通用解決方案,但缺點是缺乏具體的推理。
        基於內容的工作考慮了各種輔助信息,從項目標籤[ 38,40 ],社會關係[ 31,37 ],用戶[ 13,15,28,31,48 ]撰寫的上下文評論到知識圖表[ 3,8,47 ]。
項目標籤:爲了解釋一個建議,工作[ 40 ]考慮了項目的相關標籤和用戶的優選標籤之間的匹配。
社會關係:考慮到社交網絡中的用戶友誼,[提出了一個生成模型來研究社交解釋對用戶偏好的影響。
背景評論:Zhang等人[ 48 ]開發了一個明確的因素模型,該模型結合了用戶情感、項目方面以及用戶項目評級,以方便生成基於方面的解釋。同樣,He等人。[ 19 ]從用戶評論中提取項目方面,並在混合協作過濾模型中建模用戶-項目-方面關係。最近,仁艾爾。[ 31 ]在潛在因素模型中涉及觀點、用戶情感和項目方面的元組以及可信的社會關係,以提高推薦性能並呈現個性化觀點作爲解釋。
知識圖表:知識圖表在可解釋的推薦上顯示了巨大的潛力。Yu等人[ 47 ]引入了基於元路徑的因素模型,從信息圖中學習的路徑可以增強用戶-項目關係,並進一步提供可解釋的推理。最近,阿拉什卡等人。[ 3 ]用神經推薦方法集成了以邏輯規則表示的領域知識。

        儘管取得了有希望的嘗試,大多數先前的工作將提取的特徵(例如,項目方面、用戶情緒或關係)作爲因素模型中的單個因素,與IDs相同。因此,很少注意明確發現交叉特徵(或特徵組合)的影響。
       就技術而言,現有的工作也考慮結合基於樹和基於嵌入的模型,其中最流行的方法是boosting[ 11,27,49 ]。這些解決方案通常對兩種模型的預測進行後期融合。[ 49 ]中提出的GB-CENT由嵌入組件和樹組件組成,以實現兩種模型的優點。特別是,該中心通過對分類特徵進行中頻處理來達到中頻效果;同時,在數值特徵的支持實例上使用GBDT捕捉非線性特徵交互。Ling等人[ 27 ]表明,用GBDT增強神經網絡在點擊率預測中取得最佳性能。然而,這些增強方法僅融合不同模型的輸出,可能不足以在基於樹的模型和基於嵌入的模型之間充分傳播信息。與以前的工作不同,本文將從GBDT中提取的交叉特徵作爲嵌入模型的輸入,方便了兩個模型之間的信息傳播。更重要的是,項目管理的主要重點是爲推薦提供解釋,而不僅僅是爲了提高績效。

 

四、總結

本文提出了一種樹增強嵌入方法,將嵌入模型的泛化能力和樹模型的解釋能力無縫結合起來。由於從基於樹的部分提取的顯式交叉特徵和易於解釋的注意網絡,我們的解決方案的整個預測過程是完全透明和可自我解釋的。同時,TEM可以達到與最先進的推薦方法相當的性能。
將來,我們將把TEM擴展到三個方向。首先,我們試圖共同學習基於樹和基於嵌入的模型,而不是分別建模兩個組件。這可以促進兩個組件之間的信息傳播。其次,我們考慮其他上下文信息,如時間、位置和用戶情緒,以進一步豐富我們的解釋能力。第三,我們將探索將知識圖和邏輯規則引入邏輯規則的有效性。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章