你關心的問題都在這！愛奇藝用戶留存預測挑戰賽Baseline上線

近日，愛奇藝宣佈聯合數據挖掘頂級會議——網絡搜索和數據挖掘國際會議WSDM 2022（ACM International Conference onWeb Search and Data Mining）發起用戶留存預測挑戰賽。本屆大賽採取線上參與形式，由愛奇藝專家團隊組織舉辦，旨在提供一個通用的數據集與一個公平的測試平臺，對更有效的用戶召回預測算法模型進行研究。

本次大賽基於愛奇藝APP脫敏和採樣後的數據信息，預測用戶的7日留存傾向度。參賽隊伍需要設計相應的算法進行數據分析和預測。

大賽報名以來，已經吸引了來自海內外的300多支隊伍參賽。本週一，挑戰賽排行榜也正式開啓，參賽選手們都在積極備戰，提交作品。

這次比賽的選手有多努力呢？工作日凌晨一點還在提交數據的這位盆友，respect！

不過，相信還是有不少同學對賽題無從下手，愛奇藝賽題組委會也應邀給大家送“參考答案”來了，希望這套baseline，可以幫助大家理清思路，輕鬆上分。

目前，挑戰賽的Baseline已經在愛奇藝官網上線了，大家可以點擊“閱讀原文”或者在以下鏈接獲取👇

http://challenge.ai.iqiyi.com/detailraceId=61600f6cef1b65639cd5eaa6

除了Baseline，我們也整理了大家最關心的一些問題羅列如下，大家可以自行取用啦。

Q: 這個比賽是有發論文的機會嗎？

A: 我們正在與WSDM組委會溝通，會盡快反饋回答

Q: 這個比賽訓練集的label是什麼呀，沒看見label？

A: 請自己思考合適的label構造邏輯。

Q: 用戶啓動app即屬於登陸用戶, 還是需要有播放行爲或互動行爲？

A: 啓動app即可。

Q: 用戶啓動，需要對launchtype做判斷纔算登陸用戶嗎？

A: 不需要，都算登陸。

Q: 有沒有baseline?

A: 爲了讓比賽更公平，Baseline會在A榜開放後一週左右公佈。到時羣裏會通知。

Q: 一個用戶進訓練集的取樣時間範圍是怎麼定的？怎麼判斷一個時間點上，是沒有取樣還是就是用戶這些天沒有登陸呢？

A: 1，爲了脫敏，和避免預測時間點過於集中，每個用戶行爲的取樣開始時間、結束時間、預測時間點(end_date)，可能是不同的。

2，雖然每個用戶的取樣時間起始結束點不同，但訓練集保證，每個用戶[date 131, date 160]這1個月的行爲都會取樣到(如果有)。

3，假如1個用戶在訓練集中給出的行爲範圍是[date_min, date_max]，那麼這個用戶在[date_min,date_max]的行爲，一定完整地在訓練集中給出了。這個時間範圍外的，不保證取樣到（除非滿足第2點）。

4，如果1個用戶需要在測試集中被預測，那麼會給定end_date。end_date>=該用戶的date_max。如果end_date>date_max，會保證(date_max, end_date]之間用戶沒有登錄行爲。

Q: 每一天的數據也是按照順序排列的麼？

A: 不保證順序。行爲發生時間最小粒度只到天級。

最後，如果你還有問題，或者想找到一起打比賽的盆友，歡迎添加“愛奇藝技術產品團隊小助手（微信id：iqiyixiaozhushou) 備註 wsdm，進入挑戰賽選手溝通羣，與大家一起“捲起來”！

看完心動了嗎？

戳👇“ 閱讀原文”直達招聘頁面

即刻加入愛奇藝！

也許你還想看

以AI賦能可持續的用戶增長，愛奇藝聯合WSDM發起用戶留存預測挑戰賽

愛奇藝M2VOC挑戰賽落幕，6篇論文被ICASSP2021收錄

關注我們，更多精彩內容陪伴你！

本文分享自微信公衆號 - 愛奇藝技術產品團隊（iQIYI-TP）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

你關心的問題都在這！愛奇藝用戶留存預測挑戰賽Baseline上線

愛奇藝數據湖實戰 - Hive數倉平滑入湖

ShardingSphere + Database Mesh，愛奇藝的雲上數據治理實踐

是極客，也是大娛樂家！愛奇藝首屆“黑客馬拉松”見證“娛樂，未來已來”

愛奇藝與上海電影學院成立“智能製作聯合實驗室”

以AI賦能可持續的用戶增長，愛奇藝聯合WSDM發起用戶留存預測挑戰賽

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結