近日,愛奇藝宣佈聯合數據挖掘頂級會議——網絡搜索和數據挖掘國際會議WSDM 2022(ACM International Conference onWeb Search and Data Mining)發起用戶留存預測挑戰賽。本屆大賽採取線上參與形式,由愛奇藝專家團隊組織舉辦,旨在提供一個通用的數據集與一個公平的測試平臺,對更有效的用戶召回預測算法模型進行研究。
本次大賽基於愛奇藝APP脫敏和採樣後的數據信息,預測用戶的7日留存傾向度。參賽隊伍需要設計相應的算法進行數據分析和預測。
大賽報名以來,已經吸引了來自海內外的300多支隊伍參賽。本週一,挑戰賽排行榜也正式開啓,參賽選手們都在積極備戰,提交作品。
這次比賽的選手有多努力呢?工作日凌晨一點還在提交數據的這位盆友,respect!
不過,相信還是有不少同學對賽題無從下手,愛奇藝賽題組委會也應邀給大家送“參考答案”來了,希望這套baseline,可以幫助大家理清思路,輕鬆上分。
目前,挑戰賽的Baseline已經在愛奇藝官網上線了,大家可以點擊“閱讀原文”或者在以下鏈接獲取👇
http://challenge.ai.iqiyi.com/detailraceId=61600f6cef1b65639cd5eaa6
除了Baseline,我們也整理了大家最關心的一些問題羅列如下,大家可以自行取用啦。
Q: 這個比賽是有發論文的機會嗎?
A: 我們正在與WSDM組委會溝通,會盡快反饋回答
Q: 這個比賽訓練集的label是什麼呀,沒看見label?
A: 請自己思考合適的label構造邏輯。
Q: 用戶啓動app即屬於登陸用戶, 還是需要有播放行爲或互動行爲?
A: 啓動app即可。
Q: 用戶啓動,需要對launchtype做判斷纔算登陸用戶嗎?
A: 不需要,都算登陸。
Q: 有沒有baseline?
A: 爲了讓比賽更公平,Baseline會在A榜開放後一週左右公佈。到時羣裏會通知。
Q: 一個用戶進訓練集的取樣時間範圍是怎麼定的?怎麼判斷一個時間點上,是沒有取樣還是就是用戶這些天沒有登陸呢?
A: 1,爲了脫敏,和避免預測時間點過於集中,每個用戶行爲的取樣開始時間、結束時間、預測時間點(end_date),可能是不同的。
2,雖然每個用戶的取樣時間起始結束點不同,但訓練集保證,每個用戶[date 131, date 160]這1個月的行爲都會取樣到(如果有)。
3,假如1個用戶在訓練集中給出的行爲範圍是[date_min, date_max],那麼這個用戶在[date_min,date_max]的行爲,一定完整地在訓練集中給出了。這個時間範圍外的,不保證取樣到(除非滿足第2點)。
4,如果1個用戶需要在測試集中被預測,那麼會給定end_date。end_date>=該用戶的date_max。如果end_date>date_max,會保證(date_max, end_date]之間用戶沒有登錄行爲。
Q: 每一天的數據也是按照順序排列的麼?
A: 不保證順序。行爲發生時間最小粒度只到天級。
最後,如果你還有問題,或者想找到一起打比賽的盆友,歡迎添加“愛奇藝技術產品團隊小助手(微信id:iqiyixiaozhushou) 備註 wsdm,進入挑戰賽選手溝通羣,與大家一起“捲起來”!
本文分享自微信公衆號 - 愛奇藝技術產品團隊(iQIYI-TP)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。