KDD Cup 2020 Debiasing比賽冠軍技術方案及在美團廣告的實踐

ACM SIGKDD (國際數據挖掘與知識發現大會,簡稱 KDD)是數據挖掘領域的國際頂級會議。
美團到店廣告平臺搜索廣告算法團隊基於自身的業務場景,一直在不斷進行前沿技術的深入優化與算法創新。團隊的堅強、胡可、漆毅、曲檀、明健、博航、雷軍與中科院大學唐興元共同組建參賽隊伍Aister,參加了Debiasing、AutoGraph、Multimodalities Recall三道賽題,最終在Debiasing賽道中獲得冠軍(1/1895),在AutoGraph賽道中也獲得了冠軍(1/149),並在Multimodalities Recall賽道中獲得了季軍(3/1433)。
本文將介紹Debiasing賽題的技術方案,以及團隊在廣告業務中偏差消除的應用與研究。

背景

KDD Cup比賽是由SIGKDD主辦的數據挖掘研究領域的國際頂級賽事,從1997年開始,每年舉辦一次,是目前數據挖掘領域最具影響力的賽事。該比賽同時面向企業界和學術界,雲集了世界數據挖掘界的頂尖專家、學者、工程師、學生等參加,爲數據挖掘從業者們提供了一個學術交流和研究成果展示的平臺。KDD Cup 2020共設置五道賽題(四個賽道),分別涉及數據偏差問題(Debiasing)、多模態召回問題(Multimodalities Recall)、自動化圖學習(AutoGraph)、對抗學習問題和強化學習問題。

圖1 KDD 2020會議

在廣告系統中,如何對數據偏差進行消除是最具挑戰性的問題之一,也是近年來學術界的研究熱點。隨着產品形態與算法技術的持續演進,系統會不斷積累偏差。搜索廣告算法團隊在數據偏差問題取得了突破,帶來了較顯著的業務效果提升。特別是在Debiasing賽題中,團隊基於偏差消除問題的技術積累,從全球1895支隊伍的激烈角逐中取得第1名,並在最終評測指標(ndcg_half)領先第2名6.0%。下面我們將介紹Debiasing賽題的技術方案,以及團隊在廣告業務中偏差消除的應用與研究,希望對從事相關研究的同學能夠有所幫助或者啓發。

附:技術方案開源代碼

圖2 KDD Cup 2020 Debiasing 比賽TOP 10榜單

賽題介紹與問題分析

偏差消除問題概述

大多數電子商務和零售公司利用海量數據在其網站上實現搜索和推薦系統,從而來促進銷售,隨着這樣的趨勢發展以及流量的大量增加,對推薦系統產生了各式各樣的挑戰。其中一個值得探索的挑戰是推薦系統的人工智能公平性(Fairness)問題[1,2],即如果機器學習系統配備了短期目標(例如短期的點擊、交易),單純朝短期目標進行優化將會導致嚴重的“馬太效應”,即熱門的商品受到更多的關注,冷門商品則愈發的會被遺忘,產生了系統中的流行度偏差[3],並且大多數模型和系統的迭代依賴於頁面瀏覽(Pageview)數據,而曝光數據是實際候選中經過模型選擇的一個子集,不斷地依賴模型選擇的數據與反饋再進行訓練,將形成選擇性偏差[3]。

上述流行度偏差與選擇性偏差不斷積累,就會導致系統中的“馬太效應”越來越嚴重。因此,人工智能公平性問題對於推薦系統的不斷優化至關重要,並且這將對推薦系統的發展以及生態環境產生深遠的影響。

由於不是一個定義充分的優化問題,偏差消除是當前推薦系統非常具有挑戰性的問題,也是當前學術界的一個研究熱點。本次KDD的賽題也是圍繞偏差問題展開,基於電子商務中用戶下一次點擊商品預測(Next-Item Prediction)的問題,進行無偏估計。

賽題官方提供了用戶點擊數據、商品多模態數據、用戶特徵數據。其中用戶點擊數據提供了用戶歷史點擊的商品以及點擊的時間戳,商品多模態數據主要爲商品的文本向量以及圖片向量,用戶特徵數據有用戶的年齡、性別、城市等等。數據涉及超過100萬次點擊,10萬商品和3萬用戶。並根據時間窗口劃分數據階段,一共分爲十個階段,最終評分以最後3個階段爲準。

爲了關注於消除偏差問題,本次賽題提供的評測指標包括NDCG@50_full,NDCG@50_half,hitrate@50_full,hitrate@50_half。採用NDCG@50_full,NDCG@50_half兩項指標進行評估。

  • NDCG@50_full :與常規推薦系統評價指標NDCG一致,在整個評測數據集上評估了每次用戶請求所推薦的前50個商品列表的平均排序效果,該評測集我們稱之爲full評測集。
  • NDCG@50_half :關注於偏差問題,從整個full評測數據集中取出一半歷史曝光少的點擊商品,對這些商品的推薦列表進行NDCG指標評估,該評測集我們稱之爲half評測集。

評分首先通過NDCG@50_full篩選出前10%的隊伍,然後在這些隊伍中使用NDCG@50_half來進行最終排名。在最終的評估中NDCG@50_half將對Top名次的差異,在長尾數據預測更重要的評測方式能夠更好地評估選手們對於數據偏差的優化。不同於傳統的封閉數據集點擊率預估問題(CTR預估),上述數據特點與評測方式側重於偏差的優化。

數據分析與問題理解

數據分析與問題 :用戶特徵數據中一共有35444個用戶,但只有6789個用戶有特徵,故而特徵覆蓋率只有19.15%,由於覆蓋率較低且只有年齡、性別、城市等三個特徵,我們發現這些特徵對我們的整個任務而言是無用的。商品特徵數據中一共有117720個商品,有108916個商品擁有文本向量及圖片向量,覆蓋率高達92.52%,可以根據向量去計算商品間的文本相似度及圖片相似度,由於用戶信息及商品信息的缺少,如何利用好這些商品多模態向量對於整個任務而言是極其重要的。

選擇性偏差分析 :如表1所示,我們對基於i2i(item2item)點擊共現以及基於i2i向量相似度兩種Item-Based協同過濾的方法所召回的商品候選集做對比,由於系統的性能限制,我們將候選集長度最大值限制到1000,我們發現兩種召回方法在評測集上都有一個較低的hitrate,則不管使用哪種方法系統都存在着一個較大的選擇性偏差,即推薦給用戶的樣本是根據系統來選擇的,而不是所有候選集合,真實的候選集合大大超過了推薦給用戶的樣本,導致訓練數據帶有選擇性偏差。

進一步的,我們發現基於i2i點擊共現在full評測集上相對於half評測集有更高的hitrate,說明其更偏好於流行商品,而基於i2i向量相似度在full和half的評測集上hitrate相差不大,說明其對於流行度無偏好,同時兩種方式召回的候選集只有4%的重複率,故而我們需要去結合點擊共現和向量相似度兩種商品關係來生成更大的訓練集,從而緩解選擇性偏差。

表1 i2i點擊共現與i2i向量相似度的召回hitrate

如圖3所示,我們對商品的流行度進行了分析,其中橫座標商品點擊頻數,即商品流行度,縱座標爲商品個數。圖中我們對流行度做了截斷,橫座標最大值本應爲228。可以看出,大部分商品的流行度較低,符合長尾分佈。圖中的兩個箱型圖分別是full評測數據集商品流行度的分佈,以及half評測數據集商品流行度的分佈。從這兩個箱型圖可以看出,流行度偏差存在於數據集中,整個full評測集中有一半評測數據是基於流行度較低的商品,而另一半評測數據商品的流行度較高,直接通過點擊商品去構建樣本,會導致數據中擁有較多流行度高的正例商品,從而形成流行度偏差。

圖3 商品的流行度偏差

問題挑戰

該競賽的主要挑戰是消除推薦系統中的偏差,從上述數據分析中可以看出,主要存在兩種偏差,選擇性偏差(Selection Bias)和流行度偏差(Popularity Bias)。

  • 選擇性偏差:曝光數據是由模型和系統選擇的,與系統中的全部候選集不一致[4,5]。
  • 流行度偏差:商品歷史點擊次數呈現一個長尾分佈,故而流行度偏差存在於頭部商品和尾部商品之間,如何解決流行度偏差也是賽題的核心挑戰之一[6,7]。

基於上述偏差,傳統的利用Pageview(曝光)->Click(點擊)的點擊預估建模思路並不能合理地建模用戶的真實興趣,我們在初步嘗試中也發現採用傳統建模思路效果較差。不同於傳統的用戶興趣建模思路,首先,我們通過u2i2i(user2item2item)建模轉換,採用側重於i2i的建模代替傳統CTR預估方式中的u2i(user2item)的興趣建模。並且,我們採用基於i2i圖的多跳遊走進行候選樣本生成,代替基於Pageview樣本生成思路。同時,在構圖過程、i2i建模過程我們引入了流行度懲罰。最終有效地解決了上面的偏差挑戰。

競賽技術方案

針對選擇性偏差和流行度偏差兩方面挑戰,我們進行了建模設計,有效地優化了上述偏差。已有的CTR建模方法可以理解爲u2i的建模,通常刻畫了用戶在特定請求上下文中對候選商品的偏好,而我們的建模方式是去學習用戶的每個歷史點擊商品和候選商品的關係,可以理解爲u2i2i的建模。這種建模方法更有助於學習多種i2i關係,並且可以容易地將i2i圖中的一跳關係拓展到多跳關係,多種i2i關係可以探索更多無偏數據來增大商品候選集和訓練集,達到了緩解選擇性偏差的目的。

同時,考慮到流行商品引起的流行度偏差,我們在構圖過程中對邊權引入流行度懲罰,使得多跳遊走時更有機會探索到低流行度的商品,同時在建模過程以及後處理過程中我們也引入了流行度懲罰,緩解了流行度偏差。

最終,我們形成了一個基於i2i建模的排序框架,框架圖如圖4所示。在我們的框架中商品推薦過程被分爲三個階段,第一個階段是基於用戶行爲數據和商品多模態數據構建i2i圖,並基於i2i圖進行多跳遊走生成i2i候選樣本;第二個階段是拆分用戶點擊序列,並根據i2i候選樣本構建i2i關係樣本集,基於i2i樣本集進行自動化特徵工程,以及使用流行度加權的損失函數進行消除流行度偏差的建模;第三個階段根據用戶點擊序列將i2i模型生成的i2i打分進行聚合,對打分的商品列表進行消除流行度偏差的後處理,從而對商品列表進行排序推薦。我們將詳細介紹這三個階段的方案。

圖4 基於i2i建模的排序框架

基於多跳遊走的i2i候選樣本生成

爲了探索更多的i2i無偏候選樣本來進行i2i建模,從而緩解選擇性偏差,我們構建了一個具有多種邊關係的i2i圖,並在構邊過程中引入了流行度懲罰來消除流行度偏差。如下圖5所示,i2i圖的構建與多跳遊走i2i候選樣本的生成過程被分爲三個步驟:i2i圖的構建、i2i多跳遊走以及i2i候選樣本的生成。

圖5 基於多跳遊走的i2i候選樣本生成

第一個步驟爲i2i圖的構建,圖中存在一種結點即商品結點,兩種邊關係即點擊共現邊和多模態向量邊。點擊共現邊通過用戶的歷史商品點擊序列所構建,邊的權重通過以下的公式得到,其在兩個商品間的用戶歷史點擊共現頻數的基礎上,考慮了每次點擊共現的時間間隔因子,並加入了用戶活躍度懲罰以及商品流行度懲罰。時間間隔因子考慮到了兩個商品間的共現時間越短則這兩個商品有更大的相似度;用戶活躍度懲罰考慮了活躍用戶與不活躍用戶的公平性,通過用戶歷史商品點擊次數來懲罰活躍用戶;商品流行度懲罰考慮了商品的歷史點擊頻數,對流行商品進行懲罰,緩解了流行度偏差[8]。

多模態向量邊則通過兩個商品間文本向量及圖片向量的餘弦相似度進行構建,對一個商品的向量利用K最近鄰的方法去尋找最鄰近的K個商品,對這個商品與其最近鄰的K個商品分別構建K條邊,向量間的相似度即爲邊權,多模態向量邊與流行度無關,可以緩解流行度偏差。

第二個步驟是通過多跳遊走探索多種i2i關係,我們通過枚舉不同的一跳i2i關係組合構成不同類型的二跳i2i關係,並且在構建好二跳i2i關係之後刪除原本的一跳i2i關係以避免冗餘。i2i關係包括基於點擊一跳鄰居構建i2i,基於向量一跳鄰居構建i2i,基於點擊-點擊二跳遊走構建i2i,基於點擊-向量二跳遊走構建i2i,基於向量-點擊二跳遊走構建i2i,一跳i2i關係得分由一跳邊權得來,多跳i2i關係得分則由以下公式得來,即對每條路徑的邊權相乘得到路徑分,並對所有路徑分求平均。通過不同邊類型多跳遊走的方式,更多的商品有更多的機會和其他商品構建多跳關係,從而擴大了商品候選集,緩解了選擇性偏差。

第三個步驟則基於每種i2i關係根據i2i得分對所有商品的候選商品集合分別進行排序和截斷,每個i2i關係間的相似度熱圖如下圖6所示,相似度是通過兩種i2i關係構造的候選集重複度所計算,我們可以根據不同i2i關係之間的相似度來確定候選商品集合的數量截斷,以得到每種i2i關係中每個商品的i2i候選集,供後續i2i建模使用。

圖6 i2i關係相似度熱圖

基於流行度偏差優化的i2i建模

我們通過u2i2i建模轉換,將傳統的基於u2i的CTR預估建模方式轉換爲i2i建模方式,它可以容易地使用多跳i2i關係,同時我們引入帶流行度懲罰的損失函數,使得i2i模型朝着緩解流行度偏差的方向學習。

如下圖7所示,我們拆分用戶前置點擊行爲序列,將每一個點擊的商品作爲source item,從i2i graph中的多跳遊走候選集中抽取target item,形成i2i樣本集。對於target item集合,我們將用戶下一次點擊的商品與target item是否一致來引入該樣本的標籤。這樣,我們將基於用戶選擇的序列建模[9]轉變爲基於i2i的建模,通過兩個商品點擊的時間差以及點擊次數間隔來從側面引入用戶的序列信息,強調了i2i的學習,從而達到消除選擇性偏差的目的。最終用戶的推薦商品排序列表可以基於用戶下的i2i打分進行target item的排序。

圖7 i2i訓練樣本生成

如圖8所示,我們利用自動化特徵工程的思想去探索高階特徵組合,緩解了偏差問題業務含義抽象的問題。我們通過人工構造一些基礎特徵例如頻數特徵、圖特徵、行爲特徵和時間相關特徵等特徵後,將這些基本的特徵類型劃分爲3種,類別特徵、數值特徵以及時間特徵,基於這些特徵做高階特徵組合,每一次組合形成的特徵都會加入下一次組合的迭代之中,來降低高階組合的複雜度,我們並且基於特徵重要性和NDCG@50_half進行快速的特徵選擇,從而挖掘到了更深層次的模式並節省了大量的人力成本。

圖8 自動化特徵工程

在模型上,我們嘗試了LightGBM、Wide&Deep、時序模型等等,最終由於LightGBM在tabular上的優異表現力,選擇了LightGBM。

在模型訓練中,我們使用商品流行度加權損失去消除流行度偏差[10],損失函數L如下式所示:

其中,參數α與流行度成反比,來削弱流行商品的權重,可以消除流行度偏差。參數β是正樣本權重,用來解決樣本不平衡問題。

用戶偏好排序

最終,用戶的商品偏好排序是通過用戶的歷史點擊商品來引入i2i,繼而對i2i引入的所有商品形成最終的排序問題。在排序過程中,根據圖7所示,target item集合是由每一個source item分別產出的,所以不同的source item以及不同的多跳遊走i2i關係可能會產出相同的target item。我們需要考慮如何將相同用戶的相同target item的模型打分值進行聚合,如果直接進行概率求和會加強流行度偏差,而直接取均值又容易忽略掉一些強信號。最終,我們對一個用戶多個相同的target item採用最大池化聚合的方式,然後對用戶的所有target item進行排序,可以在NDCG@50_half上取得一個不錯的效果。

爲了進一步優化NDCG@50_half指標,我們對所得到的target item打分進行後處理,通過提高低流行度商品的打分權重來進一步打壓高流行度的商品,最終在NDCG@50_half上取得了一個更好的效果,這其實是一個NDCG@50_full與NDCG@50_half的權衡。

評估結果

在基於多跳遊走的i2i候選樣本生成過程中,各種i2i關係的hitrate如表2所示,可以發現,在相同長度爲1000的截斷下對多種方法做混合有更高的hitrate提升,能引入更多無偏數據來增大訓練集和候選集從而緩解系統的選擇性偏差。

表2 不同i2i關係的hitrate

最終,由美團搜索廣告團隊組建的Aister在包括NDCG和hitrate的各項評價指標中都取得了第1名,如表3所示,NDCG@50_half比第二名高了6.0%,而NDCG@50_full比第二名高了4.9%, NDCG@50_half相較於NDCG@50_full有更明顯的優勢,說明我們更好地針對消除偏差問題進行了優化。

表3 不同參賽團隊解決方案的NDCG評估結果

廣告業務應用

搜索廣算法團隊負責美團與點評雙平臺的搜索廣告與篩選列表廣告業務,業務類型涉及餐飲、休閒娛樂、麗人、酒店等,豐富的業務類型爲算法優化帶來很大空間與挑戰。

在搜索廣告業務問題中,數據偏差問題是個重要且具挑戰性的問題。廣告系統中有兩個重要的數據偏差——位置偏差與選擇性偏差,搜索廣告算法團隊也針對這兩個偏差問題進行了較多優化。位置偏差問題,即位置靠前的點擊率天然高於位置靠後的,不同於傳統的作爲偏差的處理方式,我們引入一致性建模的思想,並通過靈活的深度網絡設計達到一致性目標,取得業務效果提升。

在選擇性偏差問題上,整個廣告系統投放過程呈現出了一個漏斗圖,如圖9所示,系統分爲Matching、Creative-Select、Ranking、Auction幾個階段。每一個階段的候選是由上一階段選擇。以排序階段爲例(Ranking),線上系統排序的候選包含了匹配(Matching)階段輸出的所有候選,但是排序模型的訓練數據是根據模型選擇的曝光(Pageview)數據,僅爲線上排序系統候選的一個小的子集,模型線上與線下輸入數據的差異違反了建模分佈一致性假設,上述選擇性偏差會導致兩方面明顯的問題:

  1. 模型預估不準確:從曝光樣本中學習到的模型存在偏差且不準確,會導致線上預估效果較差,尤其對於同歷史曝光樣本分佈差異大的候選樣本。
  2. 反饋鏈路循環影響廣告生態:由於模型選擇的樣本進行曝光,然後進入模型訓練進一步選擇新的曝光樣本,模型基於有偏樣本不斷學習,使得整體反饋環路不斷受到偏差影響,系統選擇面越來越窄形成“馬太效應”。

圖9 廣告系統的漏斗圖

爲了解決上面的預估與生態問題,我們通過樣本生成和多階段訓練兩方面進行算法優化。在樣本生成方面,我們進行三方面的數據生成與樣本選擇。首先,如圖10所示,我們採用基於Beta分佈的Exploration算法,通過歷史點擊率和統計置信度生成Exploration候選,算法背後的假設是置信度越大點擊率的方差越小。

如下圖所示,橫軸代表預估點擊率,縱軸代表概率密度,在黃框中參數的Beta分佈生成的樣本預估點擊率分佈接近於真實的樣本分佈,用於補充僅通過模型選擇的曝光數據;其次,我們結合隨機遊走進行負樣本優化,並通過採樣算法和Label優化來控制精度。最後,訓練樣本大多由系統主流量選擇,而在下一次模型優化全量後選擇的訓練樣本會發生較大變化,上述差異性也會導致在ABTest時小流量模型精度不符合預期,我們也針對上述不同模型挑選的數據分佈差異進行數據選擇。

圖10 不同參數的Beta分佈

並且,結合上述多種樣本分佈的差異性,通過多階段訓練來優化模型,如圖11所示,我們基於樣本強度控制訓練順序與參數,使得訓練數據同線上真實候選分佈更一致。最終不僅在CTR預估模型(Ranking階段)和創意優選模型(Creative-Select階段)兩個模塊均取得較顯著的業務效果提升,並且更一致的建模方式也使得了候選擴量等偏差較重問題的實驗由負向變正向,更紮實的驗證方式也爲未來優化打下了堅實的基礎。

圖11 基於樣本強度的多階段訓練

總結與展望

KDD Cup是同工業界聯接非常緊密的比賽,每年賽題緊扣業界熱點問題與實際問題,其中歷年產出的Winning Solution對工業界也有很大的影響。例如,KDD Cup 2012獲勝方案產出了FFM(Feild-aware Factorization Machine)與XGBoost的原型,在工業界取得廣泛應用。

今年KDD Cup 的Debiasing問題也是當前廣告與推薦領域中最具挑戰性的問題之一,本文介紹了我們在KDD Cup 2020 Debiasing賽題上取得第1名的解決方案,解決方案不同於以往CTR預估方式等u2i的興趣建模方法,我們採用u2i2i方式將u2i建模轉換爲i2i建模,並構建異構圖通過多跳遊走探索更多無偏樣本,從而緩解了選擇性偏差,在建模過程中對圖的構建、模型的損失函數以及預估值後處理等過程都引入了流行度懲罰來緩解流行度偏差,最終克服了選擇性偏差和流行度偏差兩個賽題挑戰。

同時本文也介紹我們在美團搜索廣告上關於數據選擇性偏差問題的業務應用,之前在廣告系統中已經針對偏差問題進行了較多優化,這次比賽也讓我們對偏差問題的研究方向有了更進一步的認知。我們希望在未來的工作中會基於本次比賽取得的偏差優化經驗進一步地去優化廣告系統中的偏差問題,讓廣告系統變得更加公平。

參考文獻

[1] Fairness in Recommender Systems

[2] Singh A, Joachims T. Fairness of exposure in rankings[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2219-2228.

[3] Stinson C. Algorithms are not Neutral: Bias in Recommendation Systems[J]. 2019.

[4] Ovaisi Z, Ahsan R, Zhang Y, et al. Correcting for Selection Bias in Learning-to-rank Systems[C]//Proceedings of The Web Conference 2020. 2020: 1863-1873.

[5] Wang X, Bendersky M, Metzler D, et al. Learning to rank with selection bias in personal search[C]//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. 2016: 115-124.

[6] Abdollahpouri H, Burke R, Mobasher B. Controlling popularity bias in learning-to-rank recommendation[C]//Proceedings of the Eleventh ACM Conference on Recommender Systems. 2017: 42-46.

[7] Abdollahpouri H, Mansoury M, Burke R, et al. The impact of popularity bias on fairness and calibration in recommendation[J]. arXiv preprint arXiv:1910.05755, 2019.

[8] Schafer J B, Frankowski D, Herlocker J, et al. Collaborative filtering recommender systems[M]//The adaptive web. Springer, Berlin, Heidelberg, 2007: 291-324.

[9] Zhang S, Tay Y, Yao L, et al. Next item recommendation with self-attention[J]. arXiv preprint arXiv:1808.06414, 2018.

[10] Yao S, Huang B. Beyond parity: Fairness objectives for collaborative filtering[C]//Advances in Neural Information Processing Systems. 2017: 2921-2930.

作者介紹

堅強,明健,胡可,曲檀,雷軍等,均來自美團廣告平臺搜索廣告算法團隊。

本文轉載自公衆號美團技術團隊(ID:meituantech)。

原文鏈接

KDD Cup 2020 Debiasing比賽冠軍技術方案及在美團廣告的實踐

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章