數據(機器學習/深度學習)競賽平臺——Kaggle

這篇文章適合那些剛接觸Kaggle、想盡快熟悉Kaggle並且瞭解項目情況的朋友。本文分爲兩部分介紹Kaggle,Part One簡單介紹Kaggle,Part Two將簡單介紹正規的競賽的項目,大家可以針對性的解決感興趣的題目。

1、Kaggle簡介

Kaggle是一個數據分析的競賽平臺,網址:https://www.kaggle.com/

企業或者研究者可以將數據、問題描述、期望的指標發佈到Kaggle上,以競賽的形式向廣大的數據科學家徵集解決方案,類似於KDD-CUP(國際知識發現和數據挖掘競賽)。Kaggle上的參賽者將數據下載下來,分析數據,然後運用機器學習、深度學習、數據挖掘等知識,建立算法模型,解決問題得出結果,最後將結果提交,如果提交的結果符合指標要求(比如logloss,mse等)並且在參賽者中排名第一,將獲得比賽豐厚的獎金(都是以美元爲單位哦!)。

下面以圖文的形式介紹Kaggle:

這裏寫圖片描述
Kaggle的正規項目分爲四類,
分別是:FeaturedResearchRecruitmentGetting Started。下面,分別介紹

Featured

Featured譯爲“號召”,召集數據科學高手去參賽,這裏面的競賽平均難度是比較高的,而且項目涉及到的大部分是企業或政府的實際需求。
這裏寫圖片描述
目前這類項目有129個,爲正式的Kaggle項目比例最大的一部分。

Research
香蕉黃對應的是Research,獎金少一點。這個類別的比賽和Featured一樣,是有獎競賽,難度自然不小,作爲入門者,可以先做做練習賽(Getting Started)
這裏寫圖片描述

Recruitment
Recruitment是一些頂尖的公司用於招聘數據科學家來幫助公司解決難題的。這些公司(如Facebook、Airbnb等)會提出一些問題,來考察各路大神的算法和解決方案的可行性,最終給出工作offer。這一塊着重是對於尖端數據科學人才的考驗。
這裏寫圖片描述

Getting Started
Getting Started是入門賽,最典型的是大家應該都聽過的
Titanic: Machine Learning from Disaster泰坦尼克號預測乘客死亡情況
這裏寫圖片描述

2、Kaggle各類項目簡介

本節以最主要的兩類項目爲例進行分析,其他類別(Getting Started,Recruitment等)的項目分析如有需要,可以聯繫我qq。

Featured

Featured以最近兩年的項目(30個)進行分析,大家可以選擇自己感興趣去實際做一下,或者使用別人的kernel來調整。
這裏寫圖片描述
這裏寫圖片描述

Zillow Prize: Zillow’s Home Value Prediction (Zestimate)

這裏寫圖片描述
問題目標:預測加州三郡(LA Orange Ventura)未來某個時間段內的房屋價格
問題類型:迴歸問題(Regression);時間序列分析;特徵工程
問題特點:考慮影響房價的因素,並根據時間段做時間序列分析;可以使用Xgboost或LightGBM框架來做。

Passenger Screening Algorithm Challenge

這裏寫圖片描述
問題目標:提升美國國土安全部(DHS)的威脅評估算法
問題類型:分類問題(Classification);監督學習
問題特點:機場安檢的威脅評估算法,考慮的數據量很大,而且要求保證算法的速度。

Carvana Image Masking Challenge
這裏寫圖片描述
問題目標:自動識別圖片中汽車的邊界
問題類型:計算機視覺(CV)
問題特點:邊界處理,模型提取。

Instacart Market Basket Analysis
這裏寫圖片描述
問題目標:預測Instacart的客戶將會再次購買的產品
問題類型:推薦系統 (Recommendation System)
問題特點:根據用戶行爲建模,預測出跟用戶相性好的產品。

Planet: Understanding the Amazon from Space
這裏寫圖片描述
問題目標:根據衛星數據預測人類在亞馬遜雨林的足跡
問題類型:計算機視覺(CV);時間序列分析(Time-Series Analysis);動態規劃(DP)
問題特點:非常綜合的問題,即涉及到圖像處理,又與圖算法有關。

Mercedes-Benz Greener Manufacturing
這裏寫圖片描述
問題目標:優化奔馳車在測試時的時間
問題類型:迴歸問題(Regression);模式識別(Pattern Recognition)
問題特點:維度災難(curse of dimensionality)

Sberbank Russian Housing Market
這裏寫圖片描述
問題目標:預測俄羅斯的房地產市場波動情況
問題類型:迴歸問題(Regression)
問題特點:多層次的特徵,不僅限於房屋狀況,還與國內經濟狀況有關的特徵,綜合分析。

NOAA Fisheries Steller Sea Lion Population Count
這裏寫圖片描述
問題目標:根據航拍圖像內容,研究算法分析圖片中有幾個海獅
問題類型:計算機視覺(CV);模式識別(Pattern Recognition)
問題特點:典型的計算機視覺和邊界識別的綜合問題。

Intel & MobileODT Cervical Cancer Screening
這裏寫圖片描述
問題目標:預測女性宮頸癌類別
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:圖像識別,確定宮頸癌類別。

Quora Question Pairs
這裏寫圖片描述

問題目標:根據問題內容,定位已經被回答過的類似問題
問題類型:聚類(Cluster);自然語言處理(NLP)
問題特點:避免用戶問重複的問題,也節省答題人的時間。

Google Cloud & YouTube-8M Video Understanding Challenge
這裏寫圖片描述
問題目標:訓練一個分類器,爲視頻做標籤
問題類型:分類問題(Classification);深度學習(DL)
問題特點:噪聲數據;主特徵提取

The Nature Conservancy Fisheries Monitoring

這裏寫圖片描述
問題目標:根據視頻內容,識別魚的種類
問題類型: 計算機視覺(CV);分類問題(Classification);深度學習(DL)
問題特點:模式識別加上Deep Learning的內容。

Data Science Bowl 2017

這裏寫圖片描述
問題目標:提高肺癌預測的準確性
問題類型: 計算機視覺(CV);模型識別(Pattern Recognition);分類問題(Classification)
問題特點:根據高分辨率的肺部掃描精準判斷病變是否爲癌變。

Dstl Satellite Imagery Feature Detection

這裏寫圖片描述
問題目標:從高空圖像中準確辨別各種特徵
問題類型:計算機視覺(CV);深度學習(DL)
問題特點:根據衛星圖像對地球上的物體進行識別。

Two Sigma Financial Modeling Challenge

這裏寫圖片描述
問題目標:預測未來經濟走勢(只要算法)
問題類型: 算法(Algorithms)
問題特點: 根據世界的不確定性,科學預測未來的經濟發展和機會。

Outbrain Click Prediction

這裏寫圖片描述
問題目標: 預測文章的哪部分是全球讀者更喜歡的(有意願點擊的)
問題類型: 推薦系統(Recommendation System);自然語言處理(NLP)
問題特點: 文本相似度分析,新聞熱度分析。

Santander Product Recommendation

這裏寫圖片描述
問題目標:爲Santander用戶推薦產品
問題類型:推薦系統(Recommendation System)
問題特點:個性化的產品推薦,依據用戶行爲建模。

Bosch Production Line Performance

這裏寫圖片描述
問題目標:預測Bosch的內部失敗率
問題類型:分類問題(Classification)
問題特點:根據上千種檢測手段,預測某批產品失敗的可能性。

Predicting Red Hat Business Value

這裏寫圖片描述
問題目標:根據用戶的特點和活動情況,分析其對RedHat的商業價值
問題類型:分類問題(Classification)
問題特點:用戶價值分析

TalkingData Mobile User Demographics

這裏寫圖片描述
問題目標:根據用戶的手機使用情況,地理位置等信息對用戶做畫像
問題類型:用戶畫像(User portrait);聚類(Cluster)
問題特點:特徵維數多且不同尺度;聚類分析。

Grupo Bimbo Inventory Demand

這裏寫圖片描述
問題目標:賓寶希望最大化銷量的同時,減少從烘焙店返還過期未銷售的食品
問題類型:動態規劃(DP)
問題特點:根據商店的銷量情況和返還率,設計每家店的供貨分配算法。

Ultrasound Nerve Segmentation

這裏寫圖片描述
問題目標:根據頸部超聲圖像識別神經結構
問題類型:計算機視覺(CV);分類問題(Classification)
問題特點:根據超聲圖像自動識別神經結構

State Farm Distracted Driver Detection

這裏寫圖片描述
問題目標:計算機視覺能否發現駕駛員分心?
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:利用視頻實時追蹤駕駛員,判斷駕駛員是否出現注意力不集中的現象。

Avito Duplicate Ads Detection

這裏寫圖片描述
問題目標: 欺騙性、重複性的廣告檢測
問題類型: 分類問題(Classification);計算機視覺(CV)
問題特點: 相似度分析。

Draper Satellite Image Chronology

這裏寫圖片描述
問題目標: 根據五天的衛星圖片,預測衛星圖片拍攝的時間順序
問題類型: 計算機視覺(CV)
問題特點: 需要額外的特徵,比如白天和晚上,圖片的變化情況等等。

Expedia Hotel Recommendations

這裏寫圖片描述
問題目標: 在用戶數據不全的情況下,根據用戶的搜索情況,預測用戶可以預定的酒店類型(100種)
問題類型: 分類問題(Classification)
問題特點: 數據不全;日誌數據分析。

Santander Customer Satisfaction

這裏寫圖片描述
問題目標: 預測銀行客戶對交易體驗的感覺(好/壞)
問題類型: 情感分析;分類問題(Classification)
問題特點: 根據上百維未知的特徵,來預測客戶的體驗,篩選特徵的重要程度。
Home Depot Product Search Relevance

這裏寫圖片描述
問題目標: 預測Home Depot網站相關的搜索結果
問題類型: 推薦系統(Recommendation System);聚類(Cluster)
問題特點: 產品相似度分析。

BNP Paribas Cardif Claims Management

這裏寫圖片描述
問題目標: 加速BNP Paribas Cardif公司的出險賠付流程
問題類型: 優化問題
問題特點: 1、什麼樣的索賠更容易得到賠付?2、索賠所需要的額外信息?

Prudential Life Insurance Assessment

這裏寫圖片描述
問題目標: 簡化個人購買保險業務的難度
問題類型: 聚類(Clsuter);非監督學習;NLP
問題特點: 噪聲數據;把相似的保險方案歸併成一套,供消費者選擇,以免消費者懵掉。

Research
這裏寫圖片描述
這裏寫圖片描述

Research的項目進行分析,大家可以選擇自己感興趣去實際做一下,或者使用別人的kernel來調整。

Personalized Medicine: Redefining Cancer Treatment

這裏寫圖片描述
問題目標:根據給定數據,預測基因變種屬於哪一類
問題類型:分類問題(Classification);NLP;監督學習
問題特點:對臨牀數據的處理甚至對專家來說也是複雜和費時的,所以,依據臨牀數據建立的模型是非常重要的。

Create an image classifier that is robust to adversarial attacksHouse Prices: Advanced Regression Techniques

這裏寫圖片描述
問題目標:針對廣告圖片稍微變化,就導致分類器分類錯誤的情況。訓練一個魯棒性強的圖片分類器
問題類型:分類問題(Classification);監督學習
問題特點: 避免在線學習中,被人用差不多的圖片進行攻擊(作爲input訓練),從而導致分類器性能嚴重下降的情況。

Imperceptibly transform images in ways that fool classification models

這裏寫圖片描述
問題目標:將圖片的內容轉換,爭取迷惑分類模型(跟②是一個系列的問題)
問題類型:分類問題(Classification)
問題特點: 避免在線學習中,被人用差不多的圖片進行攻擊(作爲input訓練),從而導致分類器性能嚴重下降的情況。

Develop an adversarial attack that causes image classifiers to predict a specific target class

這裏寫圖片描述
問題目標:開發一個廣告圖片攻擊工具,目標是使分類器的效果下降
問題類型:分類問題(Classification)
問題特點: 避免在線學習中,被人用差不多的圖片進行攻擊(作爲input訓練),從而導致分類器性能嚴重下降的情況。

Web Traffic Time Series Forecasting

這裏寫圖片描述
問題目標:預測維基百科(Wikipedia)的頁面未來的訪問情況
問題類型:迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點:典型的時間序列分析問題,需要先驗知識。

Fine-grained classification challenge spanning 5,000 species.

這裏寫圖片描述
問題目標:相似生物分類識別
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:大型分類問題;深度學習。

Can you assign accurate description labels to images of apparel products?

這裏寫圖片描述
問題目標:準確的爲圖片中的明顯物品做標註(Label)
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:深度學習的重要應用;標籤相似性處理;照片背景不同處理。

Predict seizures in long-term human intracranial EEG recordings

這裏寫圖片描述
問題目標:根據癲癇患者的腦電圖,預測其癲癇發作的情況
問題類型:時間序列分析(Time-Series Analysis)
問題特點:典型的時間序列分析問題,推薦對每個癲癇患者的癲癇模式進行建模,從而有針對性的安排人照顧。

How Much Did It Rain? II

這裏寫圖片描述
問題目標:跟How Much Did It Rain?一樣,預測降雨量
問題類型:分類問題(Classification);時間序列分析(Time-Series Analysis)
問題特點:將降雨量限定在一定範圍內,滿足一個範圍的話,對應的類設爲1。

Right Whale Recognition

這裏寫圖片描述
問題目標:根據航拍照片,預測圖片中是否有瀕危動物脊美鯨(right whales)
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:類似於物體檢測的情況。

Grasp-and-Lift EEG Detection

這裏寫圖片描述
問題目標:根據EFG信號進行手勢識別
問題類型:分類問題(Classification)
問題特點:噪聲數據

ECML/PKDD 15: Taxi Trajectory Predictiont’s Cooking?(Ⅰ)

這裏寫圖片描述
問題目標:根據出租車當前運行軌跡,預測其目的地
問題類型: 計算機視覺(CV);動態規劃(DP)
問題特點:涉及到圖運算和拓撲學的內容

ECML/PKDD 15: Taxi Trip Time Prediction(Ⅱ)

這裏寫圖片描述
問題目標:根據出租車當前運行軌跡,預測本次行程時間
問題類型: 計算機視覺(CV);動態規劃(DP);迴歸問題(Regression)
問題特點:涉及到圖運算和拓撲學的內容

15.071x - The Analytics Edge (Spring 2015)

這裏寫圖片描述
問題目標:預測紐約時報哪篇博文最受歡迎
問題類型: 分類問題(Classification)
問題特點:多維度分析

Microsoft Malware Classification Challenge (BIG 2015)

這裏寫圖片描述
問題目標:基於文件內容和特點對惡意軟件進行分類
問題類型: 分類問題(Classification)
問題特點:神經網絡(NN)

BCI Challenge @ NER 2015

這裏寫圖片描述
問題目標:根據腦波數據預測對應的單詞和圖像是否對應
問題類型: 分類問題(Classification);FFT(Fast-Fourier analysis)
問題特點:對頻域數據進行分析

American Epilepsy Society Seizure Prediction Challenge

這裏寫圖片描述
問題目標:根據顱內EFG信號預測狗的癲癇症狀發生情況
問題類型:時間序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
問題特點:典型的時間序列分析問題,推薦對每隻癲癇狗的癲癇模式進行建模,從而有針對性的安排人照顧;頻域分析。

Display Advertising Challenge

這裏寫圖片描述
問題目標:預測廣告的點擊轉化率(CTR)
問題類型: 迴歸問題(Regression)
問題特點:FFM(field-aware factorization machines),即考慮全局情況的分解機技術。效果特別好。

Click-Through Rate Prediction

這裏寫圖片描述
問題目標:預測廣告的點擊轉化率(CTR)
問題類型: 迴歸問題(Regression)
問題特點:FFM(field-aware factorization machines),即考慮全局情況的分解機技術。效果特別好。

Africa Soil Property Prediction Challenge

這裏寫圖片描述
問題目標:預測土壤的物理化學成分
問題類型: 迴歸問題(Regression)
問題特點:特徵維數多;官方示例是用貝葉斯加性模型做的。

UPenn and Mayo Clinic’s Seizure Detection Challenge

這裏寫圖片描述
問題目標:根據顱內EFG信號預測癲癇症狀發生情況
問題類型:時間序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
問題特點:典型的時間序列分析問題,推薦對每隻癲癇狗的癲癇模式進行建模,從而有針對性的安排人照顧;頻域分析。

DecMeg2014 - Decoding the Human Brain

這裏寫圖片描述
問題目標:預測視覺刺激對人腦活動的影響
問題類型:時間序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis);計算機視覺(CV);二分類問題(Binary Classification)
問題特點:問題㉑的升級版

MLSP 2014 Schizophrenia Classification Challenge

這裏寫圖片描述
問題目標:通過MRI掃描預測是否患有精神分裂症(schizophrenia)
問題類型: 分類問題(Classification);計算機視覺(CV)
問題特點: 利用不同切面的核磁共振圖像來進行診斷;多模態分析。

KDD Cup 2014 - Predicting Excitement at DonorsChoose.org

這裏寫圖片描述
問題目標:對慈善項目進行評級,決定是否捐贈
問題類型: 分類問題(Classification)
問題特點: 多維度分析,類似信用評級問題。

Greek Media Monitoring Multilabel Classification (WISE 2014)

這裏寫圖片描述
問題目標:對項目評級,決定是否捐贈
問題類型: 分類問題(Classification);NLP
問題特點: 噪聲數據;希臘語。

CONNECTOMICS

這裏寫圖片描述
問題目標:根據1000個神經元的活動情況,判斷神經元之前是否有突觸連接。
問題類型: 時間序列分析(Time-Series Analysis);計算機視覺(CV)
問題特點: 神經元;樹突軸突。

Large Scale Hierarchical Text Classification

這裏寫圖片描述
問題目標: 大規模文本(維基百科)分類問題
問題類型: NLP
問題特點: 可以用LSTM來做。

Galaxy Zoo - The Galaxy Challenge

這裏寫圖片描述
問題目標: 對宇宙中的不同距離的星系的形態進行分類
問題類型: 分類問題(Classification);計算機視覺(CV)
問題特點: 宇宙。

PAKDD 2014 - ASUS Malfunctional Components Prediction

這裏寫圖片描述
問題目標: 預測Asus筆記本未來可能發生故障的部位
問題類型: 分類問題(Classification);
問題特點: 多維度分析(銷售時間、銷量和修理次數等等)

Loan Default Prediction - Imperial College London

這裏寫圖片描述
問題目標: 構造最優貸款組合(optimal portfolio of loans)
問題類型: 貸款組合;
問題特點: 噪聲數據;降維。

Multi-label Bird Species Classification - NIPS 2013

這裏寫圖片描述
問題目標: 根據風聲記錄預測87類動物(鳥/兩棲動物)
問題類型: 語音識別;分類問題(Classification)
問題特點: 聲音識別。

Accelerometer Biometric Competition

這裏寫圖片描述
問題目標: 根據加速度記錄儀的數據預測其是否屬於特定的手機
問題類型: 分類問題(Classification)
問題特點: 手機加速度計數據分析。

AMS 2013-2014 Solar Energy Prediction Contest

這裏寫圖片描述
問題目標: 預測奧克拉荷馬每日的太陽能情況
問題類型: 迴歸問題(Regression)
問題特點: 空間;先驗知識。

The Big Data Combine Engineered by BattleFin

這裏寫圖片描述
問題目標: 根據新聞和情感數據分析來預測短期股價的變化
問題類型: 迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點: 情感分析;金融數據。

RecSys2013: Yelp Business Rating Prediction

這裏寫圖片描述
問題目標: Yelp商業評分預測
問題類型: 迴歸問題(Regression);NLP
問題特點: 情感分析;多維度分析。

Multi-modal Gesture Recognition

這裏寫圖片描述
問題目標: 多模態手勢識別(2D/3D)
問題類型: 計算機視覺(CV)
問題特點: 卷積神經網絡;RGB;降維。

The ICML 2013 Bird Challenge

這裏寫圖片描述
問題目標: 根據語音記錄識別鳥的類別
問題類型: 語音識別
問題特點: 頻域分析。

Challenges in Representation Learning: Multi-modal Learning

這裏寫圖片描述
問題目標: 爲圖像做Label
問題類型: 計算機視覺(CV);自然語言處理(NLP)
問題特點: 多模態分析(圖片/文字);標註。

Challenges in Representation Learning: Facial Expression Recognition Challenge

這裏寫圖片描述
問題目標: 識別圖像中人臉表情
問題類型: 計算機視覺(CV);分類問題(Classification)
問題特點: 面部表情分類器;灰度圖片。

Challenges in Representation Learning: The Black Box Learning Challenge

這裏寫圖片描述
問題目標: 黑箱預測問題
問題類型: 分類問題(Classification)
問題特點: 數據沒有實際意義;降維。

ICDAR2013 - Handwriting Stroke Recovery from Offline Data

這裏寫圖片描述
問題目標: 預測手寫簽名的軌跡
問題類型: 動態規劃(DP);計算機視覺(CV)
問題特點: 筆畫方向;左/右撇子。

ICDAR2013 - Gender Prediction from Handwriting

這裏寫圖片描述
問題目標: 預測手寫筆記的作者是男還是女
問題類型: 計算機視覺(CV);分類問題(Classification)
問題特點: 性別特徵對字體形態的影響;神經網絡

Predicting Parkinson’s Disease Progression with Smartphone Data

這裏寫圖片描述
問題目標: 根據用戶的手機信息評估帕金斯綜合症患者是否有症狀發作的跡象/情況
問題類型: 時間序列分析(Time-Series Analysis);語音處理(Speech Processing)
問題特點: 多尺度數據;語音數據處理。

Visualize the State of Public Education in Colorado

這裏寫圖片描述
問題目標: 根據科羅拉多州各學校3年的成績數據,預測每個學校可能升到好學校的可能性
問題類型: 特徵工程(Feature Engineering );迴歸問題(Regression)
問題特點: 多指標考覈;評分標準。

Global Energy Forecasting Competition 2012 - Load Forecasting

這裏寫圖片描述
問題目標: 預測美國20個地區的小時用電量(功率)
問題類型: 迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點: 多維度分析。

Global Energy Forecasting Competition 2012 - Wind Forecasting

這裏寫圖片描述
問題目標: 預測7個風力發電廠的現在——未來48小時每小時產生的電量
問題類型: 迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點: 多維度分析。

Data Mining Hackathon on (20 mb) Best Buy mobile web site - ACM SF Bay Area Chapter

這裏寫圖片描述
問題目標: 基於用戶的查詢記錄預測其最感興趣的Xbox遊戲類別
問題類型: 推薦系統(Recommendation system)
問題特點: 詞雲;關鍵詞分析。

Data Mining Hackathon on BIG DATA (7GB) Best Buy mobile web site

這裏寫圖片描述
問題目標: 基於用戶的查詢記錄預測其最感興趣的BestBuy產品類別
問題類型: 推薦系統(Recommendation system)
問題特點: 大數據分析;關鍵詞分析。

CPROD1: Consumer PRODucts contest #1

這裏寫圖片描述
問題目標: 自動分辨消費者提到的產品並正確的識別產品的類別
問題類型: 分類問題(Classification);NLP
問題特點: 大數據分析;自然語言處理。

Practice Fusion Diabetes Classification

這裏寫圖片描述
問題目標: 診斷病人是否患有二型糖尿病
問題類型: 分類問題(Classification)
問題特點: 非線性邊界。

剩餘的項目分析可以聯繫我的qq獲取。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章