比賽推送：ML/NLP/推薦/CV,一大波比賽來襲！

微信大數據挑戰賽

微信視頻號推薦算法比賽鏈接：https://algo.weixin.qq.com/

賽題描述

本次比賽基於脫敏和採樣後的數據信息，對於給定的一定數量到訪過微信視頻號“熱門推薦”的用戶，根據這些用戶在視頻號內的歷史n天的行爲數據，通過算法在測試集上預測出這些用戶對於不同視頻內容的互動行爲（包括點贊、點擊頭像、收藏、轉發等）的發生概率。本次比賽以多個行爲預測結果的加權uAUC值進行評分

比賽提供訓練集用於訓練模型，測試集用於評估模型效果，提交結果demo文件用於展示提交結果的格式。所有數據文件格式都是帶表頭的.csv格式，不同字段列之間用英文逗號分隔。初賽與複賽的數據分佈一致，數據規模不同。初賽提供百萬級訓練數據，複賽提供千萬級訓練數據。

競賽數據

比賽提供訓練集用於訓練模型，測試集用於評估模型效果，提交結果demo文件用於展示提交結果的格式。所有數據文件格式都是帶表頭的.csv格式，不同字段列之間用英文逗號分隔。初賽與複賽的數據分佈一致，數據規模不同。初賽提供百萬級訓練數據，複賽提供千萬級訓練數據。
詳情可見數據描述：https://algo.weixin.qq.com/problem-description

評分標準

本次比賽採用uAUC作爲單個行爲預測結果的評估指標，uAUC定義爲不同用戶下AUC的平均值，計算公式如下：

其中，n爲測試集中的有效用戶數，有效用戶指的是對於某個待預測的行爲，過濾掉測試集中全是正樣本或全是負樣本的用戶後剩下的用戶。AUCi爲第i個有效用戶的預測結果的AUC（Area Under Curve）。AUC的定義和計算方法可參考維基百科。

初賽的最終分數爲4個行爲（查看評論、點贊、點擊頭像、轉發）的uAUC值的加權平均。複賽的最終分數爲7個行爲（查看評論、點贊、點擊頭像、轉發、收藏、評論和關注）的uAUC值的加權平均。分數越高，排名越靠前。

三一數據應用大賽-逾期風控預測

比賽鏈接：https://datazone.sanygroup.com/v2/cmptDetail.html?id=438

競賽背景

與汽車行業，房地產行業類似，在工程機械行業的銷售中，客戶購買產品前往往有融資需求，這給企業創造了一些商機，但同時也會帶來一定的貨款還款風險。要將利益最大化的同時降低自身風險，就需要通過對數據的分析提前認識，分析以及預判出這類風險，篩選出後期有可能逾期還款的客戶，這對於企業的經營風險管理顯得尤爲重要。

任務

（1）賽題任務
大賽將提供客戶基本信息，還款記錄，以及其貸款購買的設備工況信息，鼓勵選手採用先進的機器學習模型來預測某客戶羣體中的每位客戶未來三個月是否會逾期。
在此給定數據的條件下，選手需要進行適當數據預處理（比如對缺失值的合理填充，根據需求進行數據清洗），設計合理的模型框架，結合業務知識或特徵工程創造特徵，並採取一定措施評估模型的魯棒性。

（2）數據使用規則
本賽題不能使用任何外部數據。

（3）排名規則
本賽題一共有兩個測試集納入評分，兩個測試集都以F1分數作爲評判標準。

評分標準

（1）提交次數限制：每支隊伍每天最多提交3次。

（2）評分指標：

Precision = TP/(TP+FP) 
Recall = TP/(TP+FN) 
F1 = TP/[TP+(FN+FP)/2]

最終以F1爲排名標準。

混淆矩陣

注：不要求兩個測試集用同一個模型預測！

三一數據應用大賽-挖掘機工作模式識別

比賽鏈接：https://datazone.sanygroup.com/v2/cmptDetail.html?id=439

競賽背景

挖掘機作爲工程建設中最主要的工程機械之一，承擔着多種作業任務，可進行多種不同形式的作業。

在挖掘機租賃業務中，出租方和客戶會事先對挖掘機能夠進行的作業形式進行明確規定。但目前僅靠現場抽查無法對挖掘機的實際使用情況進行有力且全面的監管。隨着物聯網技術的不斷髮展，挖掘機安裝了數十個傳感器，並將數據回傳至雲端。現在希望利用這些回傳的傳感器數據（C端數據）對挖掘及工作模式進行識別，從而加強對挖掘機使用情況的監管。

產品研發方面，挖掘機工作模式的有效識別，能加深研發部門對挖掘機相關數據的理解，發揮C端數據的價值，爲新產品的研發、故障預測性維護等提供有力支撐。

任務

挖掘機工作模式識別賽題旨在根據C端數據判斷給定時間段內挖掘機的工作模式（模式一/模式二）。預賽、決賽任務均爲進行上述兩種模式的判斷。決賽將在預賽基礎上爲選手補充訓練樣本，以提高模型精度。

此次比賽，爲低資源競賽任務。同時，爲了增強模型泛化能力和模型魯棒性，在測試集中增加一定數量的干擾數據，干擾數據不計入最終得分。

數據

預賽和決賽均在DCLab平臺上進行，選手需要在平臺上進行算法調試。請在作品提交頁面複製token值後前往DCLab提交作品在比賽平臺提交結果。

預賽提供325臺設備數據用於訓練模型，決賽訓練數據基於預賽增加154臺設備。（注：由於每臺設備實際開工率不同，對應的數據量也有所不同。）

數據中不包含標籤字段，需要選手根據數據所在文件夾名稱自行添加標籤，對標籤的約定如下。：

本賽題不能使用任何外部數據。

評分標準

（1）提交次數限制：每支隊伍每天最多提交3次。

（2）評分指標：

Precision = TP/(TP+FP)
Recall = TP/(TP+FN)  
F1 = TP/[TP+(FN+FP)/2]

最終以F1爲排名標準。

SODIC 2021全球開放數據應用創新大賽

算法賽道要求參賽選手圍繞明確需求和固定場景，形成算法模型或結果數據，由大賽官網競賽模塊自動評測，並結合大賽專家委員會意見形成最終評審結果。

起止時間： 2021/04/20 - 2021/08/28

人崗精準匹配模型

比賽鏈接：https://www.sodic.com.cn/competitions/900008

企業招聘需求日益多元化、精細化，招聘服務的開展難度正面臨日益嚴峻的挑戰。本賽題期望選手通過自然語言處理、機器學習等前沿技術手段，建立海量企業、個人用戶畫像，在人才的“選育用留”等方向提供數據挖潛服務，從而提高企業人才招聘效率。

城市需水預測模型

比賽鏈接：https://www.sodic.com.cn/competitions/900009

深圳市是全國嚴重缺水城市之一，全市水資源面臨“淡水資源少、對外依賴嚴重、供求關係緊張”的嚴峻形勢。準確預測未來一段時間內的城市需水量，對全市供水調度計劃制定和供水穩定運行具有重要意義。

基於文本挖掘的企業隱患排查質量分析模型

比賽鏈接：https://www.sodic.com.cn/competitions/900010

企業自主填報安全生產隱患，對於將風險消除在事故萌芽階段具有重要意義，採用大數據手段分析隱患內容，找出不切實履行主體責任的企業，向監管部門進行推送，實現精準執法，能夠提高監管手段的有效性，增強企業安全責任意識。

口腔圖像重要部位實例分割精度提升方案

比賽鏈接：https://www.sodic.com.cn/competitions/900011

口腔重要部位的檢測分割對於咽拭子機器人智能採樣有着至關重要的作用。此外，通過口腔某些部位的圖像檢測，可以實現如扁桃體炎等口腔疾病的檢測和預防，在醫學上有重要的應用價值。

城市風場數據空間降尺度模擬分析

比賽鏈接：https://www.sodic.com.cn/competitions/900012

大風災害會給城市建築、交通運輸、污染物傳播帶來嚴重影響，通過空間降尺度，利用低分辨率網格數據生成高空間精度的風場數據，有利於提升大風災害的監測預警服務質量，減少由大風災害導致的事故風險，提升城市安全。

道路路面病害智能分析算法

比賽鏈接：https://www.sodic.com.cn/competitions/900013

城市道路系統是城市功能正常運轉的重要保障。目前，城市道路日常巡檢主要靠巡查員在路上巡視，該方式存在較強的主觀性，且效率較低。使用技術手段對道路路面病害進行智能分析，具有重要的現實意義。

法律諮詢智能問答

比賽鏈接：https://www.sodic.com.cn/competitions/900022

本賽題提供真實的法律問答數據集，參賽選手需基於該數據集，針對用戶提問，輸出正確、完整、簡潔的參考回答。

比賽推送：ML/NLP/推薦/CV,一大波比賽來襲！

微信大數據挑戰賽

賽題描述

競賽數據

評分標準

三一數據應用大賽-逾期風控預測

競賽背景

任務

評分標準

三一數據應用大賽-挖掘機工作模式識別

競賽背景

任務

數據

評分標準

SODIC 2021全球開放數據應用創新大賽

人崗精準匹配模型

城市需水預測模型

基於文本挖掘的企業隱患排查質量分析模型

口腔圖像重要部位實例分割精度提升方案

城市風場數據空間降尺度模擬分析

道路路面病害智能分析算法

法律諮詢智能問答

自學編程兩個月，現在我月入 4 萬元

STI比賽任務二：【答案檢驗基線方案以及思路分享】

百度搜索首屆技術創新挑戰賽：搜索模型推理優化

文本分類微調技巧實戰2.0

Kaggle 專利匹配比賽賽後總結

【CCF2022】Web攻擊檢測與分類識別 baseline

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結