Twitter從Recsys 2020挑戰中學到了什麼

導語:Twitter 圖學習研究負責人 Michael Bronstein 親述。
譯者:AI研習社(聽風1996

雙語原文鏈接:What Twitter learned from the Recsys 2020 Challenge


ecommender系統是現代社交網絡和電子商務平臺的重要組成部分。它們旨在最大限度地提高用戶滿意度以及其他重要的商業目標。與此同時,在以根據用戶興趣定製內容爲目的來建立新模型基準測試時,缺乏供學界研究使用的大規模的公共社交網絡數據集。而在過去的一年裏,我們努力解決了這個問題。

Twitter與RecSys會議展開合作以支持2020挑戰賽。在兩週的時間裏,我們發佈了一個包含推文和用戶參與度組成的數據集,其中有1.6億條公開推文用於訓練,4000萬條公開推文用於驗證和測試。

在這篇文章中,我們描述了數據集以及Nvidia、Learner和Wantely團隊提交的三個獲獎作品。我們試圖對幫助獲獎者取得成績的選擇做出一般性的結論,特別是:

以最快的實驗速度用於特徵選擇和模型訓練

  • 有利於泛化的對抗驗證[1]

  • 上下文特徵的使用

  • 在神經網絡上使用決策樹

我們希望這些研究結果對更廣泛的研究界有用,並啓發推薦系統的未來研究方向。

挑戰賽的參與者被要求預測用戶參與四種互動中任何一種互動的可能性:贊、回覆、轉發和引用tweet。我們根據以下兩個指標對提交的作品進行評估:相對於我們所提供的簡單基準方法的相對交叉熵(RCE),以及Precision-Recall曲線下的面積(PR-AUC)。

隨時間的變化的訓練、測試和驗證數據集的表示

我們要特別注意(我們所使用的)維持數據集需與Twitter平臺同步。數據集反映了平臺上的變化,例如,當其中的一條推文被刪除,有用戶將其個人資料變爲私有或完全刪除。所以提交的數據就會被重新評估,排行榜也會根據重新計算的指標進行更新[2]。

數據集的特徵表示。它們分爲用戶特徵(針對作者和讀者)、推文特徵和參與度特徵。

今年的挑戰賽競爭尤爲激烈,註冊用戶超過1000人。在整個挑戰過程中,參賽者積極提交解決方案,並在挑戰的第一階段(根據提交指南)修改了他們的團隊組成。最後階段有20個競爭者,平均團隊規模爲4名成員。此外,各隊總計設計了127種不同的方法,來嘗試贏得挑戰比賽。在整個挑戰過程中,參賽者的活躍度很高,在最後幾天,參賽者對提交的作品進行了改進,達到了做最優性能。最終的結果出現在排行榜上。

與之相伴的RecSys Challenge 2020研討會收到了12篇論文,程序委員會對這些論文進行了審閱。其中9篇論文被接受。

數據集的特徵表示。它們分爲用戶特徵(針對作者和讀者)、推文特徵和參與度特徵。

今年的挑戰賽競爭尤爲激烈,註冊用戶超過1000人。在整個挑戰過程中,參賽者積極提交解決方案,並在挑戰的第一階段(根據提交指南)修改了他們的團隊組成。最後階段有20個競爭者,平均團隊規模爲4名成員。此外,各隊總計設計了127種不同的方法,來嘗試贏得挑戰比賽。在整個挑戰過程中,參賽者的活躍度很高,在最後幾天,參賽者對提交的作品進行了改進,達到了做最優性能。最終的結果出現在排行榜上。

與之相伴的RecSys Challenge 2020研討會收到了12篇論文,程序委員會對這些論文進行了審閱。其中9篇論文被接受。

第一名:英偉達

GPU Accelerated Feature Engineering and Training for Recommender Systems.

Nvidia的論文[3]描述了訓練xgboost模型來預測每個交互事件。總體的關注點在於爲該模型生成有用的特徵。文章強調快速提取特徵和模型訓練是該方法成功的關鍵。本文在附錄中提供了4種模型中每種模型的15個最有用的特徵列表。

從數據集中快速提取特徵並進行再訓練是冠軍和亞軍的關鍵區別。特徵工程流程和訓練流程的運行時間都不到一分鐘。除此之外,對不同的分類特徵和特徵組合採用目標編碼(均值編碼+加法平滑),包括這些組合的目標均值。作者還從推文的內容中創建了分類特徵(如最受歡迎的兩個詞和最不受歡迎的兩個詞)。用於特徵重要性評估和選擇的對抗性驗證 通過選擇更通用的特徵來防止過擬合。 採用基於樹模型的集成方法用於生成最終模型。

第二名:Learner

Predicting Twitter Engagement With Deep Language Models.

Learner[4]融合了深度學習與梯度提升決策樹(GBDT),並專注於不同特徵的創建。作者使用啓發式方法設計了467個特徵,並使用BERT和XLM-R生成了推文的文本表示(同時使用了目標Twitter文本以及最近參與的Twitter文本)。

該條目與其他條目的關鍵區別在於使用了預訓練的自然語言處理(NLP)模型BERT和XLM-R,並進行了微調。第一層的微調是以無監督的方式進行的。接下來,將語言模型與其他特徵結合以有監督的方式進行微調。。該模型是一個多層感知機(MLP),有四個頭,每個頭代表一種參與類。本文還引入注意力機制生成了用戶過去十次互動的嵌入向量。以目標推文爲關鍵,利用注意力機制對每個的嵌入向量進行組合。此外,還使用了啓發式特徵,如參與用戶、推文創建者、推文特徵和用戶與創建者交互特徵的不同表示。與其他條目一樣,本文使用xgboost進行特徵工程和選擇,並將Yeo-Johnson transformation應用於分類特徵和非標準化連續特徵。

第三名:Wantely

A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements.

Wantely的投稿[5]提出了一種預測tweet參與度的兩階段方法。第一階段的分類器是輕量級的,只使用在不同目標(Like、Retweet等)中通用的特徵,並且具有相似的訓練/測試精度。第二階段分類器將輕量級分類器的輸出與特定於目標的特徵一起用作特徵。

上游的通用模型生成下游模型所需的特徵。作者認爲,通過這樣的方式,每種參與類型的下游模型都可以從所有其他參與的數據中受益。除此之外,除此之外,如Nvidia條目所示,本文通過對抗性驗證直接評估訓練和測試數據集之間的特徵分佈差異,從而確定了哪些特徵是可通用的。

在所有提交的論文中,有許多相同的見解。我們重點介紹以下主題:

勝出模型中使用的有用特徵—目標編碼是王道。首先,目標編碼(用目標變量的平均值替換分類變量)使問題變得更簡單。它同時用於用戶和作者id,因此編碼了用戶的平均參與率。其次,使用了大量特徵交叉[6]。

快速實驗進行特徵選擇。快速檢驗許多假設的能力一直是數據科學競賽中不可或缺的一部分,並再次證明在這一挑戰中具有決定性作用。Nvidia團隊能夠在GPU上運行整個流程。這讓他們只需2分18秒就能訓練出一個模型(包括特徵工程),而在CPU上則需花費數小時。

通過對抗性驗證來應對過度擬合。比賽選手常用的一種技術是建立一個判別器來預測訓練和測試/驗證集之間的差異。根據模型選擇特徵時使用的重要性分數,通過去除最重要的特徵,可以幫助模型更好地泛化。此技術有助於避免訓練數據過擬合。

上下文特徵的使用。今年的數據集和之前的數據集的一個重要區別是我們提供的上下文特徵。在三篇獲獎論文中,有兩篇對基於上下文特徵的BERT進行了複雜的使用。NLP中的深度學習方法已經證明了它對推薦系統的有用性,儘管我們認爲在這個領域還有更多的改進空間。

決策樹與深度學習。梯度增強決策樹(GBDT)的一個顯著優勢是,無需對單個特徵的尺度進行歸一化和計算。這使得所有勝出論文的迭代速度更快。

在計算機視覺和NLP等領域,深度學習模型已經通過利用CNNs和transfomer展示了令人印象深刻的進展。基於這一挑戰的結果,我們仍然不明白在推薦系統中什麼構成良好的深度學習架構。我們呼籲研究界共同尋找推薦器系統的最佳深度學習架構。

我們也注意到,雖然我們只對提交的模型的性能進行了評估,但在生產系統中還有許多其他限制。對我們來說,延遲是一個大問題:模型需要在毫秒內對推文進行評分。在這種情況下,需要仔細檢查集成方法的使用。集成中每一步的附加延遲都可能會導致它們對我們的目標來說太慢。

我們感謝所有參與者和我們的同事使這得一挑戰成爲可能。我們相信,發佈大規模數據集將有助於解鎖推薦系統領域的新進展。Twitter現在比以往任何時候都致力於幫助外部研究,並且最近爲學術研究人員發佈了新的API端口,以幫助促進進一步的探索和合作。

[1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants.

[2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset.

[3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post.

[4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission.

[5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission.

[6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,爲AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成爲中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章