深度模型(十五):Calibrated Recommendations

原文地址:Calibrated Recommendations

1 簡介

推薦系統在許多不同的應用程序域中提供個性化的用戶體驗,包括在線購物,社交網絡和音樂/視頻流。

在本文中,我們揭示針對準確性(例如,排序指標)進行訓練的推薦系統可以輕鬆生成關注用戶主要興趣領域的推薦項目列表,而用戶的次要興趣領域卻往往未被充分利用甚至消失。隨着時間的推移,這種不平衡的推薦可能會逐漸縮小用戶的興趣範圍。此問題也適用於多個用戶共享同一帳戶的情況,在該情況下,同一帳戶內不太活躍的用戶的興趣可能會在推薦中被排擠。我們將在第2節中的一些思想實驗以及第6節中真實數據的實驗中證明這種效果。

校準是機器學習中的一個通用概念,最近在機器學習算法公平性的背景下經歷了復興。如果分類算法的預測結果的比例與實際可以數據的實際比例一致,則將分類算法稱爲“校準”。類似地,在本文中,校準的目的是在推薦列表中通過適當的比例反映用戶的各種興趣。我們將在第3節中概述量化校準程度的指標。在第4節中,我們提出了一種算法,用於對給定的推薦列表進行後置處理,以使其達到(接近)校準的目的。在第5節中,我們討論了相關概念和文獻,並指出通常推薦多樣性是以最小化推薦項目之間相似或冗餘爲目標的,這點不同於校準。第6節中,通過真實數據的實驗,我們證明了用戶的較小興趣很容易被擠出。然後,我們展示了我們提出的方法在實現(接近)校準推薦方面的有效性。

爲了便於說明,我們將使用“播放電影的用戶”和“流派”,來解釋“與項目互動的用戶”以及“項目類別”。有關進一步的概括,請參見第4節的最後一段。

2 例子

在本節中,我們設計了一個思想實驗,它說明了可能導致推薦項目列表不平衡的核心機制。我們分三步設計它,從最極端的情況開始。

我們考慮典型的離線情況,數據集由歷史交互數據組成,並劃分爲訓練和測試集(基於時間或隨機劃分);模型的目標是預測用戶是否與測試集中項目進行交互,模型評估標準是預測的準確性。此設定的優點是易於實現,並且適用於公共數據的協作過濾。

在我們都例子中,我們假設用戶已在離線訓練數據中播放了70部浪漫電影和30部動作電影:我們的目標是生成例如包含10部推薦電影的列表,最大化測試數據的預測概率。爲了簡化討論,讓我們在本節中還假定兩種類型是互斥的(即,電影要麼是動作類型,要麼是浪漫類型,但不是兩者都具有)。

2.1 類均衡

在第一個也是最極端的情況下,讓我們假設,我們只知道用戶對類型的偏好,但是並不知道對於每個類型中的各個電影的偏好信息。在沒有任何其他信息的情況下,此問題變得類似於監督機器學習中的不平衡分類問題:衆所周知,始終預測多數類別的標籤可以獲得最佳的預測準確率。在二分類問題中,我們僅知道70%的數據點的標籤爲+1,而其餘30%的點標籤爲-1,在沒有任何其他信息的情況下,最好對於所有數據點預測標籤爲+1(這樣我們可以預期70%的數據點的預測標籤都是正確的)。相反,如果我們隨機以70%和30%的概率預測標籤+1和-1(它們出現在數據中),則可以預期預測的標籤僅在0.7·70%+ 0.3·30%=58%的情況下是正確的。

對應我們的推薦場景,在沒有任何其他信息的情況下,如果我們向用戶100%推薦浪漫電影而不推薦任何動作電影,那麼我們可以在測試數據上獲得最佳準確性。

我們在本節中的假設(即我們沒有其他可用信息)顯然是非常極端。在現實世界中,或多或少將有更多可用數據–但是,數據始終是有限的或有噪音的,因此這種問題可能仍會在某種程度上存在。需要注意的是,此問題與特定機器學習模型無關,只要是模型是以準確率爲訓練目標。在第6節中的真實世界數據的實驗中,我們揭示了確實存在推薦不平衡的風險:用戶的次要興趣點會被擠壓,主要興趣點會被放大。

這個問題可以理解爲有偏推薦的問題:即使在最理想情況下,可用數據都沒有偏向新,對有限數據的準確性進行的訓練也會在推薦列表中引入偏向性,即,偏向於推薦用戶的主要興趣。

反過來,這也說明,更加均衡或經過校準的推薦的可能降低推薦的準確性。

2.2 稍負責的例子

本節開發了一個稍微複雜的思想實驗:我用p(ig)p(i|g)表示用戶決定播放gg類型電影時,電影ii被播放的概率。我們知道用戶用戶選擇浪漫電影的概率爲p(gru)=0.7p(g_r|u)=0.7,選擇動作電影的概率p(gau)=0.3。 p(g_a|u)=0.3因此用戶播放電影ii的概率表示爲p(iu)=p(ig)p(gu)p(i|u)=p(i|g)p(g|u)。爲了最大化預測準確性,我們必須找到播放概率p(iu)p(i|u)最大的10部電影。我們來考慮動作電影的第一部電影iga,1i_{g_a},1(動作類型電影裏概率排名第1)和浪漫電影的第10部電影igr,10i_{g_r},10(浪漫類型電影裏排名第10),計算二則的播放概率比例:

p(igr,10u)p(iga,1u)=p(igr,10gr)p(iga,1ga)p(gru)p(gau)=12.10.70.3>1\frac{p(i_{g_r},10|u)}{p(i_{g_a},1|u)}=\frac{p(i_{g_r},10|g_r)}{p(i_{g_a},1|g_a)}\frac{p(g_r|u)}{p(g_a|u)}=\frac{1}{2.1}\frac{0.7}{0.3}\gt 1

其中我們從MovieLens 2000萬數據集[13] .1中確定了2.1的值。如我們所見,在此稍微複雜的例子中,浪漫類第10位電影比最佳動作類電影被用戶播放的可能性更高。因此,就準確性而言,在此示例中推薦的最佳10個電影再次都是浪漫類電影,而沒有任何動作類電影。

2.3 Latent Dirichlet Allocation

以上的示例受到了潛在狄利克雷分配模型(LDA)的啓發[5],該模型描述了用戶通過兩步過程選擇電影:用戶首先選擇流派(或主題),然後選擇電影(或單詞)。我們提到LDA的原因有三個。

首先,如果我們在本節中假設真實世界的用戶確實遵循了上述的選擇電影的兩步過程,則LDA模型是正確的模型。訓練LDA模型後,它就能捕獲每個用戶興趣及其比例。因此,遵循其生成過程時,可以期望獲得平衡的推薦結果:首先,按用戶u的興趣類型分佈p(gu)p(g|u)採樣一個興趣類型g ,然後按類型g的電影分佈p(ig)p(i|g)採樣電影i。採樣的方法,與根據p(iu)=p(ig)p(gu)p(i | u)=p(i|g)p(g|u)對電影進行排名的方法相比,會導致準確性降低。原因是p(iu)p(i|u)較低的電影ii也可能會被採樣進推薦列表,甚至可能排名比較靠前。相比而言,排序方法會嚴格保證p(iu)p(i|u)值較大的進入推薦列表,並且嚴格按p(iu)p(i|u)降序。從而保證了推薦結果的準確性最大。然而排序方法並不能保證推薦結果的均衡。

其次,請注意,推薦不均衡的問題不僅限於使用顯式類別(例如流派)的情況,而且還適用於使用潛在主題或嵌入的情況-LDA是這種模型。

第三,與LDA模型類似,不管電影是屬於單一流派(硬分配)還是部分屬於幾種流派,都可能出現不均衡推薦的問題。

3 校準指標

在本節中,我們概述了根據用戶的電影播放歷史來校準推薦列表的量化指標。爲此,我們考慮兩個分佈,這兩個分佈均基於電影i的流派g分佈,表示爲p(gi)p(g|i),並假定它們爲:

  • p(gu)p(g|u):表示用戶歷史播放數據集HH上流派gg的分佈:

    p(gu)=iHwu,ip(gi)iHwu,i    (2)p(g|u)=\frac{\sum_{i\in H}w_{u,i}p(g|i) }{\sum_{i\in H}w_{u,i}}\space\space\space\space (2)

    其中wu,iw_{u,i}表示電影 i 權重,反應用戶 u 最近播放 i 的程度。

  • q(gu)q(g|u):表示推薦列表的流派 g 的分佈:

q(gu)=iIwr(i)p(gi)]iIwr(i)    (3)q(g|u)=\frac{\sum_{i\in I}w_{r(i)p(g|i)]}}{\sum_{i\in I}w_{r(i)}}\space\space\space\space(3)

其中 I 表示電影推薦集合。wr(i)w_{r(i)}表示電影 i 基於排序 r(i)r(i) 的權重。可能的選擇包括在例如平均互惠等級(MRR)或歸一化貼現累積增益(nDCG)等中的排序指標中使用的加權方案。

有多種方法來確定這兩個分佈 q 和 p 是否相似。考慮到這些分佈是根據用戶的N部推薦電影和M部播放電影這兩個有限數據估算的,因此可以進行統計假設檢驗,其中Null假設這兩個分佈相同。通常進行關於兩個隨機變量的多項式分佈的獨立性測試:流派 g,以及反映兩組電影 I 和 H 的另一個變量。假設N或M實際上可能是非常小的數字,可以進行精確測試,例如多項式測試或Fisher精確測試。但實際情況中這些測試的計算量可能較大導致實際中不可行。一種有效的替代方案是漸進檢驗(如果適用),例如G檢驗或χ2檢驗。

我們建議忽略有限數據大小N和M的影響,直接比較分佈 p 和 q。爲此,本文中,我們使用Kullback-Leibler(KL)散度作爲校準指標CKL(p,q):

CKL(p,q)=KL(pq~)=gp(gu)logp(gu)q~(gu)    (4)C_{KL}(p,q)=KL(p||\tilde{q})=\sum_{g}p(g|u)log\frac{p(g|u)}{\tilde{q}(g|u)}\space\space\space\space(4)

其中p(gu)p(g|u)作爲目標分佈。如果q(gu)q(g|u)p(gu)p(g|u)相似,則CKL(p,q)C_{KL}(p,q)取值較小。由於q(gu)=0,p(gu)>0q(g|u)=0,p(g|u)\gt 0情況下KL散度發散,我們採用:

q~(gu)=(1α)g(gu)+αp(gu)    (5)\tilde{q}(g|u)=(1-\alpha)g(g|u)+\alpha p(g|u)\space\space\space\space(5)

當期appha>0appha\gt 0取值較小時,有qq~q\approx \tilde{q}。 我們的實驗中取α=0.01\alpha = 0.01。在推薦場景下KL散度具有量化校準度所需的幾個特點:

(1)如果p(gu)=q~p(g|u)=\tilde{q},也就是完美校準情況下,則CKL(p,q)=0C_{KL}(p,q)=0.

(2)當 p 較小時,它對 p 和 q 之間的微小差異非常敏感。例如,p=2,q=1p=2%,q=1%的值大於p=50p=50%, q=49%的值。

(3)它傾向於更均勻的分佈,因此不希望出現極端的分佈:如表1所示,如果用戶在30%的時間裏玩過某類型,則認爲具有31%的推薦比29%的推薦更好。

這些特點確保用戶很少玩過的流派也將以其相應比例反映在推薦列表中。除了KL散度之外,通常還可以使用其他 f 散度,例如p和q之間的Hellinger距離,CHpq=Hpq=pq2/2CH(p,q)= H(p,q)= ||\sqrt{p} −\sqrt{q} ||_2/2,其中2|| ·|| _2表示概率向量的2-norm(跨類型)。存在零值時,也可以很好地定義Hellinger距離。正如我們在實驗中發現的那樣,當p很小時,它對p和q之間的小差異也很敏感,但實驗中我們發現程度要小於KL散度。

在這裏插入圖片描述

通過對所有用戶的C(p,q)求平均值,可以獲得總體校準指標C。

4 校準方法

推薦的校準是列表整體的屬性。由於許多推薦系統是pointwise或pairwise方式進行訓練的,因此可能無法將校準納入訓練中。建議在後置處理步驟中重排推薦系統的預測列表,這是校準機器學習結果的常見方法[10,30]。爲了決定包含N個推薦結果的最優集合II^*,我們採用最大邊際相關性[6]:

I=argmaxI,I=N(1λ)s(I)λCKL(p,q(I))    (6)I^*=argmax_{I,|I|=N}(1-\lambda)s(I) - \lambda C_{KL}(p,q(I))\space\space\space\space (6)

其中參數λ\lambda決定兩個指標的權重:(1)s(I)=iIs(i)s(i)s(I)=\sum_{i\in I}s(i),s(i)表示推薦系統對電影 i的預測分數。請注意,也可以對每部電影的得分使用單調變換。(2)校準指標。還要注意,更好的校準需要較低的校準分數,因此在此最大化問題中我們必須使用負值。

找到N部推薦電影的最佳集合I *是一個組合優化問題,通常是NP-難問題。在附錄中,我們概述了此優化問題的貪婪優化等效於替代亞模函數的貪婪優化。衆所周知[17],亞模函數的貪婪優化實現了11/e(1 - 1 / e)最優性保證,其中e是歐拉數。貪婪優化算法從空集合開始,每次添加一個電影,並不斷重複此過程:在某步驟n,In1I_{n-1}表示添加電影 i 之前的最優集合,我們將在集合In1iI_{n-1}\cup i上最大化公式(6)的電影 i 添加到集合中。這種貪婪的方法還有其他好處。首先,它產生的是電影的有序列表,而不是(未排序的)列表。其次,在相同大小的列表中,此貪婪方法的每一步得到的列表都是11/e1-1 / e)最優的。現實中,即使我們可以生成N個電影的排名列表,但用戶可能最初只能看到前n<Nn<N個推薦,其餘電影只有在滾動後纔可以看到。除此之外,用戶可以從上到下掃描N個電影的列表。在這兩種情況下,亞模塊函數的貪婪優化都會自動確保推薦列表的前n部電影(n <N)的每個子列表都是(1/1 / e)最佳。

請注意,因此該方法允許電影i的可能屬於多個流派g。此外,如果您喜歡針對幾種不同類別(例如,流派,子流派,語言,電影與電視節目等)來校準推薦列表,可以使用單獨的校準項CKLC^{類別}_{KL}添加到等式中。對於每個類別,設置權重/重要性λ\lambda^{類別}。幾個子模函數的總和仍然是一個子模函數,因此優化問題仍然有效。

5 相關概念

長期以來,校準一直在機器學習中使用,主要是在分類算法中使用,例如,[10,30]發現簡單的後處理方法是有效的。近年來,校準受到了新的關注,特別是在機器學習算法公平性的背景下。

在推薦系統的文獻中,除準確性外,各種其他的指標同樣引起關注,參靠[21],。其中多樣性最接近於校準。

5.1 多樣性

在本節中,我們首先比較多樣性和校準,然後討論相關工作。

在大多數論文中定義的多樣性,以最小化推薦項目之間的冗餘或相似性爲目標,在我們的示例中有助於避免推薦100%浪漫的電影的情況:在只有兩種類型的電影的世界中,最多樣化的推薦將包含50%的浪漫和50%的動作片。在擁有更多電影流派的世界(用戶僅觀看了70部浪漫情節和30部動作片)中,可以通過推薦用戶尚未觀看的其他流派的名稱(例如兒童電影或紀錄片)來增加多樣性。但是,多樣性不能保證動作類型的比例從0%增加到大約30%,以反映用戶在我們的示例中的興趣程度。只有正確的權衡準確性和多樣性,才能獲得經過良好校準的推薦。然而,這在實踐中可能很難實現,因爲這種折衷對於每個用戶可能是不同的。這說明多樣性的目的並不是直接以適當的比例反映用戶的各種興趣。這也是與校準的主要區別。

第二個主要區別是多樣性可以幫助用戶擺脫可能的過濾泡,因爲它可能包括用戶過去沒有看過的電影類型。而目前描述校準不具有這種特性。這啓發了對校準的擴展,將用戶過去的興趣之外的類型也包括在推薦列表中:

p~(gu)=βp0(g)+(1β)p(gu)    (7)\tilde{p}(g|u)=\beta p_0(g) + (1-\beta)p(g|u)\space\space\space\space(7)

其中p0(g)p_0(g)表示類型g的先驗概率,通過參數β[0,1]\beta \in[0,1]權衡多向性和校準。

在許多論文中,如果推薦項目之間只有很小程度的冗餘或相似性,則該列表被認爲是多樣化的。已經提出了多種方法來生成這類多樣性的推薦,例如[4、15、31、32],包括行列式點處理[8、11]或子模優化,例如[1、2、19]。

研究的第二條線是對用戶在未選擇上面排名/顯示的n-1個項中的任何一個(即瀏覽模型)之後從推薦列表中選擇第n個項的概率進行建模。這個想法導致了被稱爲期望倒數排名(ERR)的排名指標[7],以及產生了更加多樣化的排名列表的方法[20,27]。

只有很少的論文解決了重要的問題,即建議應以正確的比例反映用戶的各種興趣[9、25、26],我們將在下面討論。

相稱性的概念最早是在[9]中針對搜索結果的多樣化提出的。在[9]中,提出的度量稱爲DP,本質上是分佈pgu)p(g|u)qguq(g| u)之間的修正平方差。雖然它滿足了第3節中用於校準指標的特點 1 的要求,但並未顯示其他兩個特點。

5.2 公平性

在機器學習領域中,公平的重要性最近急劇增長,例如,參見[33]和其中的參考以進行回顧。公平性與避免歧視人口中某些人或羣體有關,例如基於性別,種族,年齡等。公平性通常與爲人口中單個人預測的分數或類別標籤有關。

文獻中提出了各種公平性標準,包括校準,均等賠率,機會均等和統計均等[12,16,33]。 [12]使用均等賠率作爲公平性度量標準,提出了一種後處理方法,[28]通過將公平性納入訓練目標中對此進行了改進。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章