這篇文章適合那些剛接觸Kaggle、想盡快熟悉Kaggle並且瞭解項目情況的朋友。本文分爲兩部分介紹Kaggle,Part One簡單介紹Kaggle,Part Two將簡單介紹正規的競賽的項目,大家可以針對性的解決感興趣的題目。
1、Kaggle簡介
Kaggle是一個數據分析的競賽平臺,網址:https://www.kaggle.com/
企業或者研究者可以將數據、問題描述、期望的指標發佈到Kaggle上,以競賽的形式向廣大的數據科學家徵集解決方案,類似於KDD-CUP(國際知識發現和數據挖掘競賽)。Kaggle上的參賽者將數據下載下來,分析數據,然後運用機器學習、深度學習、數據挖掘等知識,建立算法模型,解決問題得出結果,最後將結果提交,如果提交的結果符合指標要求(比如logloss,mse等)並且在參賽者中排名第一,將獲得比賽豐厚的獎金(都是以美元爲單位哦!)。
下面以圖文的形式介紹Kaggle:
Kaggle的正規項目分爲四類,
分別是:Featured,Research,Recruitment,Getting Started。下面,分別介紹
① Featured
Featured譯爲“號召”,召集數據科學高手去參賽,這裏面的競賽平均難度是比較高的,而且項目涉及到的大部分是企業或政府的實際需求。
目前這類項目有129個,爲正式的Kaggle項目比例最大的一部分。
② Research
香蕉黃對應的是Research,獎金少一點。這個類別的比賽和Featured一樣,是有獎競賽,難度自然不小,作爲入門者,可以先做做練習賽(Getting Started)
③ Recruitment
Recruitment是一些頂尖的公司用於招聘數據科學家來幫助公司解決難題的。這些公司(如Facebook、Airbnb等)會提出一些問題,來考察各路大神的算法和解決方案的可行性,最終給出工作offer。這一塊着重是對於尖端數據科學人才的考驗。
④ Getting Started
Getting Started是入門賽,最典型的是大家應該都聽過的
Titanic: Machine Learning from Disaster(泰坦尼克號預測乘客死亡情況)
2、Kaggle各類項目簡介
本節以最主要的兩類項目爲例進行分析,其他類別(Getting Started,Recruitment等)的項目分析如有需要,可以聯繫我qq。
① Featured
Featured以最近兩年的項目(30個)進行分析,大家可以選擇自己感興趣去實際做一下,或者使用別人的kernel來調整。
① Zillow Prize: Zillow’s Home Value Prediction (Zestimate)
問題目標:預測加州三郡(LA Orange Ventura)未來某個時間段內的房屋價格
問題類型:迴歸問題(Regression);時間序列分析;特徵工程
問題特點:考慮影響房價的因素,並根據時間段做時間序列分析;可以使用Xgboost或LightGBM框架來做。
② Passenger Screening Algorithm Challenge
問題目標:提升美國國土安全部(DHS)的威脅評估算法
問題類型:分類問題(Classification);監督學習
問題特點:機場安檢的威脅評估算法,考慮的數據量很大,而且要求保證算法的速度。
③ Carvana Image Masking Challenge
問題目標:自動識別圖片中汽車的邊界
問題類型:計算機視覺(CV)
問題特點:邊界處理,模型提取。
④ Instacart Market Basket Analysis
問題目標:預測Instacart的客戶將會再次購買的產品
問題類型:推薦系統 (Recommendation System)
問題特點:根據用戶行爲建模,預測出跟用戶相性好的產品。
⑤ Planet: Understanding the Amazon from Space
問題目標:根據衛星數據預測人類在亞馬遜雨林的足跡
問題類型:計算機視覺(CV);時間序列分析(Time-Series Analysis);動態規劃(DP)
問題特點:非常綜合的問題,即涉及到圖像處理,又與圖算法有關。
⑥ Mercedes-Benz Greener Manufacturing
問題目標:優化奔馳車在測試時的時間
問題類型:迴歸問題(Regression);模式識別(Pattern Recognition)
問題特點:維度災難(curse of dimensionality)
⑦ Sberbank Russian Housing Market
問題目標:預測俄羅斯的房地產市場波動情況
問題類型:迴歸問題(Regression)
問題特點:多層次的特徵,不僅限於房屋狀況,還與國內經濟狀況有關的特徵,綜合分析。
⑧ NOAA Fisheries Steller Sea Lion Population Count
問題目標:根據航拍圖像內容,研究算法分析圖片中有幾個海獅
問題類型:計算機視覺(CV);模式識別(Pattern Recognition)
問題特點:典型的計算機視覺和邊界識別的綜合問題。
⑨ Intel & MobileODT Cervical Cancer Screening
問題目標:預測女性宮頸癌類別
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:圖像識別,確定宮頸癌類別。
問題目標:根據問題內容,定位已經被回答過的類似問題
問題類型:聚類(Cluster);自然語言處理(NLP)
問題特點:避免用戶問重複的問題,也節省答題人的時間。
⑪ Google Cloud & YouTube-8M Video Understanding Challenge
問題目標:訓練一個分類器,爲視頻做標籤
問題類型:分類問題(Classification);深度學習(DL)
問題特點:噪聲數據;主特徵提取
⑫ The Nature Conservancy Fisheries Monitoring
問題目標:根據視頻內容,識別魚的種類
問題類型: 計算機視覺(CV);分類問題(Classification);深度學習(DL)
問題特點:模式識別加上Deep Learning的內容。
問題目標:提高肺癌預測的準確性
問題類型: 計算機視覺(CV);模型識別(Pattern Recognition);分類問題(Classification)
問題特點:根據高分辨率的肺部掃描精準判斷病變是否爲癌變。
⑭ Dstl Satellite Imagery Feature Detection
問題目標:從高空圖像中準確辨別各種特徵
問題類型:計算機視覺(CV);深度學習(DL)
問題特點:根據衛星圖像對地球上的物體進行識別。
⑮ Two Sigma Financial Modeling Challenge
問題目標:預測未來經濟走勢(只要算法)
問題類型: 算法(Algorithms)
問題特點: 根據世界的不確定性,科學預測未來的經濟發展和機會。
問題目標: 預測文章的哪部分是全球讀者更喜歡的(有意願點擊的)
問題類型: 推薦系統(Recommendation System);自然語言處理(NLP)
問題特點: 文本相似度分析,新聞熱度分析。
⑰ Santander Product Recommendation
問題目標:爲Santander用戶推薦產品
問題類型:推薦系統(Recommendation System)
問題特點:個性化的產品推薦,依據用戶行爲建模。
⑱ Bosch Production Line Performance
問題目標:預測Bosch的內部失敗率
問題類型:分類問題(Classification)
問題特點:根據上千種檢測手段,預測某批產品失敗的可能性。
⑲ Predicting Red Hat Business Value
問題目標:根據用戶的特點和活動情況,分析其對RedHat的商業價值
問題類型:分類問題(Classification)
問題特點:用戶價值分析
⑳ TalkingData Mobile User Demographics
問題目標:根據用戶的手機使用情況,地理位置等信息對用戶做畫像
問題類型:用戶畫像(User portrait);聚類(Cluster)
問題特點:特徵維數多且不同尺度;聚類分析。
㉑ Grupo Bimbo Inventory Demand
問題目標:賓寶希望最大化銷量的同時,減少從烘焙店返還過期未銷售的食品
問題類型:動態規劃(DP)
問題特點:根據商店的銷量情況和返還率,設計每家店的供貨分配算法。
㉒ Ultrasound Nerve Segmentation
問題目標:根據頸部超聲圖像識別神經結構
問題類型:計算機視覺(CV);分類問題(Classification)
問題特點:根據超聲圖像自動識別神經結構
㉓ State Farm Distracted Driver Detection
問題目標:計算機視覺能否發現駕駛員分心?
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:利用視頻實時追蹤駕駛員,判斷駕駛員是否出現注意力不集中的現象。
㉔ Avito Duplicate Ads Detection
問題目標: 欺騙性、重複性的廣告檢測
問題類型: 分類問題(Classification);計算機視覺(CV)
問題特點: 相似度分析。
㉕ Draper Satellite Image Chronology
問題目標: 根據五天的衛星圖片,預測衛星圖片拍攝的時間順序
問題類型: 計算機視覺(CV)
問題特點: 需要額外的特徵,比如白天和晚上,圖片的變化情況等等。
㉖ Expedia Hotel Recommendations
問題目標: 在用戶數據不全的情況下,根據用戶的搜索情況,預測用戶可以預定的酒店類型(100種)
問題類型: 分類問題(Classification)
問題特點: 數據不全;日誌數據分析。
㉗ Santander Customer Satisfaction
問題目標: 預測銀行客戶對交易體驗的感覺(好/壞)
問題類型: 情感分析;分類問題(Classification)
問題特點: 根據上百維未知的特徵,來預測客戶的體驗,篩選特徵的重要程度。
㉘ Home Depot Product Search Relevance
問題目標: 預測Home Depot網站相關的搜索結果
問題類型: 推薦系統(Recommendation System);聚類(Cluster)
問題特點: 產品相似度分析。
㉙ BNP Paribas Cardif Claims Management
問題目標: 加速BNP Paribas Cardif公司的出險賠付流程
問題類型: 優化問題
問題特點: 1、什麼樣的索賠更容易得到賠付?2、索賠所需要的額外信息?
㉚ Prudential Life Insurance Assessment
問題目標: 簡化個人購買保險業務的難度
問題類型: 聚類(Clsuter);非監督學習;NLP
問題特點: 噪聲數據;把相似的保險方案歸併成一套,供消費者選擇,以免消費者懵掉。
② Research
對Research的項目進行分析,大家可以選擇自己感興趣去實際做一下,或者使用別人的kernel來調整。
① Personalized Medicine: Redefining Cancer Treatment
問題目標:根據給定數據,預測基因變種屬於哪一類
問題類型:分類問題(Classification);NLP;監督學習
問題特點:對臨牀數據的處理甚至對專家來說也是複雜和費時的,所以,依據臨牀數據建立的模型是非常重要的。
問題目標:針對廣告圖片稍微變化,就導致分類器分類錯誤的情況。訓練一個魯棒性強的圖片分類器
問題類型:分類問題(Classification);監督學習
問題特點: 避免在線學習中,被人用差不多的圖片進行攻擊(作爲input訓練),從而導致分類器性能嚴重下降的情況。
③ Imperceptibly transform images in ways that fool classification models
問題目標:將圖片的內容轉換,爭取迷惑分類模型(跟②是一個系列的問題)
問題類型:分類問題(Classification)
問題特點: 避免在線學習中,被人用差不多的圖片進行攻擊(作爲input訓練),從而導致分類器性能嚴重下降的情況。
④ Develop an adversarial attack that causes image classifiers to predict a specific target class
問題目標:開發一個廣告圖片攻擊工具,目標是使分類器的效果下降
問題類型:分類問題(Classification)
問題特點: 避免在線學習中,被人用差不多的圖片進行攻擊(作爲input訓練),從而導致分類器性能嚴重下降的情況。
⑤ Web Traffic Time Series Forecasting
問題目標:預測維基百科(Wikipedia)的頁面未來的訪問情況
問題類型:迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點:典型的時間序列分析問題,需要先驗知識。
⑥ Fine-grained classification challenge spanning 5,000 species.
問題目標:相似生物分類識別
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:大型分類問題;深度學習。
⑦ Can you assign accurate description labels to images of apparel products?
問題目標:準確的爲圖片中的明顯物品做標註(Label)
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:深度學習的重要應用;標籤相似性處理;照片背景不同處理。
⑧ Predict seizures in long-term human intracranial EEG recordings
問題目標:根據癲癇患者的腦電圖,預測其癲癇發作的情況
問題類型:時間序列分析(Time-Series Analysis)
問題特點:典型的時間序列分析問題,推薦對每個癲癇患者的癲癇模式進行建模,從而有針對性的安排人照顧。
問題目標:跟How Much Did It Rain?一樣,預測降雨量
問題類型:分類問題(Classification);時間序列分析(Time-Series Analysis)
問題特點:將降雨量限定在一定範圍內,滿足一個範圍的話,對應的類設爲1。
問題目標:根據航拍照片,預測圖片中是否有瀕危動物脊美鯨(right whales)
問題類型:分類問題(Classification);計算機視覺(CV)
問題特點:類似於物體檢測的情況。
⑪ Grasp-and-Lift EEG Detection
問題目標:根據EFG信號進行手勢識別
問題類型:分類問題(Classification)
問題特點:噪聲數據
⑫ ECML/PKDD 15: Taxi Trajectory Predictiont’s Cooking?(Ⅰ)
問題目標:根據出租車當前運行軌跡,預測其目的地
問題類型: 計算機視覺(CV);動態規劃(DP)
問題特點:涉及到圖運算和拓撲學的內容
⑬ ECML/PKDD 15: Taxi Trip Time Prediction(Ⅱ)
問題目標:根據出租車當前運行軌跡,預測本次行程時間
問題類型: 計算機視覺(CV);動態規劃(DP);迴歸問題(Regression)
問題特點:涉及到圖運算和拓撲學的內容
⑭ 15.071x - The Analytics Edge (Spring 2015)
問題目標:預測紐約時報哪篇博文最受歡迎
問題類型: 分類問題(Classification)
問題特點:多維度分析
⑮ Microsoft Malware Classification Challenge (BIG 2015)
問題目標:基於文件內容和特點對惡意軟件進行分類
問題類型: 分類問題(Classification)
問題特點:神經網絡(NN)
問題目標:根據腦波數據預測對應的單詞和圖像是否對應
問題類型: 分類問題(Classification);FFT(Fast-Fourier analysis)
問題特點:對頻域數據進行分析
⑰ American Epilepsy Society Seizure Prediction Challenge
問題目標:根據顱內EFG信號預測狗的癲癇症狀發生情況
問題類型:時間序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
問題特點:典型的時間序列分析問題,推薦對每隻癲癇狗的癲癇模式進行建模,從而有針對性的安排人照顧;頻域分析。
⑱ Display Advertising Challenge
問題目標:預測廣告的點擊轉化率(CTR)
問題類型: 迴歸問題(Regression)
問題特點:FFM(field-aware factorization machines),即考慮全局情況的分解機技術。效果特別好。
⑲ Click-Through Rate Prediction
問題目標:預測廣告的點擊轉化率(CTR)
問題類型: 迴歸問題(Regression)
問題特點:FFM(field-aware factorization machines),即考慮全局情況的分解機技術。效果特別好。
⑳ Africa Soil Property Prediction Challenge
問題目標:預測土壤的物理化學成分
問題類型: 迴歸問題(Regression)
問題特點:特徵維數多;官方示例是用貝葉斯加性模型做的。
㉑ UPenn and Mayo Clinic’s Seizure Detection Challenge
問題目標:根據顱內EFG信號預測癲癇症狀發生情況
問題類型:時間序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
問題特點:典型的時間序列分析問題,推薦對每隻癲癇狗的癲癇模式進行建模,從而有針對性的安排人照顧;頻域分析。
㉒ DecMeg2014 - Decoding the Human Brain
問題目標:預測視覺刺激對人腦活動的影響
問題類型:時間序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis);計算機視覺(CV);二分類問題(Binary Classification)
問題特點:問題㉑的升級版
㉓ MLSP 2014 Schizophrenia Classification Challenge
問題目標:通過MRI掃描預測是否患有精神分裂症(schizophrenia)
問題類型: 分類問題(Classification);計算機視覺(CV)
問題特點: 利用不同切面的核磁共振圖像來進行診斷;多模態分析。
㉔ KDD Cup 2014 - Predicting Excitement at DonorsChoose.org
問題目標:對慈善項目進行評級,決定是否捐贈
問題類型: 分類問題(Classification)
問題特點: 多維度分析,類似信用評級問題。
㉕ Greek Media Monitoring Multilabel Classification (WISE 2014)
問題目標:對項目評級,決定是否捐贈
問題類型: 分類問題(Classification);NLP
問題特點: 噪聲數據;希臘語。
問題目標:根據1000個神經元的活動情況,判斷神經元之前是否有突觸連接。
問題類型: 時間序列分析(Time-Series Analysis);計算機視覺(CV)
問題特點: 神經元;樹突軸突。
㉗ Large Scale Hierarchical Text Classification
問題目標: 大規模文本(維基百科)分類問題
問題類型: NLP
問題特點: 可以用LSTM來做。
㉘ Galaxy Zoo - The Galaxy Challenge
問題目標: 對宇宙中的不同距離的星系的形態進行分類
問題類型: 分類問題(Classification);計算機視覺(CV)
問題特點: 宇宙。
㉙ PAKDD 2014 - ASUS Malfunctional Components Prediction
問題目標: 預測Asus筆記本未來可能發生故障的部位
問題類型: 分類問題(Classification);
問題特點: 多維度分析(銷售時間、銷量和修理次數等等)
㉚ Loan Default Prediction - Imperial College London
問題目標: 構造最優貸款組合(optimal portfolio of loans)
問題類型: 貸款組合;
問題特點: 噪聲數據;降維。
㉛ Multi-label Bird Species Classification - NIPS 2013
問題目標: 根據風聲記錄預測87類動物(鳥/兩棲動物)
問題類型: 語音識別;分類問題(Classification)
問題特點: 聲音識別。
㉜ Accelerometer Biometric Competition
問題目標: 根據加速度記錄儀的數據預測其是否屬於特定的手機
問題類型: 分類問題(Classification)
問題特點: 手機加速度計數據分析。
㉝ AMS 2013-2014 Solar Energy Prediction Contest
問題目標: 預測奧克拉荷馬每日的太陽能情況
問題類型: 迴歸問題(Regression)
問題特點: 空間;先驗知識。
㉞ The Big Data Combine Engineered by BattleFin
問題目標: 根據新聞和情感數據分析來預測短期股價的變化
問題類型: 迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點: 情感分析;金融數據。
㉟ RecSys2013: Yelp Business Rating Prediction
問題目標: Yelp商業評分預測
問題類型: 迴歸問題(Regression);NLP
問題特點: 情感分析;多維度分析。
㊱ Multi-modal Gesture Recognition
問題目標: 多模態手勢識別(2D/3D)
問題類型: 計算機視覺(CV)
問題特點: 卷積神經網絡;RGB;降維。
㊲ The ICML 2013 Bird Challenge
問題目標: 根據語音記錄識別鳥的類別
問題類型: 語音識別
問題特點: 頻域分析。
㊳ Challenges in Representation Learning: Multi-modal Learning
問題目標: 爲圖像做Label
問題類型: 計算機視覺(CV);自然語言處理(NLP)
問題特點: 多模態分析(圖片/文字);標註。
㊴ Challenges in Representation Learning: Facial Expression Recognition Challenge
問題目標: 識別圖像中人臉表情
問題類型: 計算機視覺(CV);分類問題(Classification)
問題特點: 面部表情分類器;灰度圖片。
㊵ Challenges in Representation Learning: The Black Box Learning Challenge
問題目標: 黑箱預測問題
問題類型: 分類問題(Classification)
問題特點: 數據沒有實際意義;降維。
㊶ ICDAR2013 - Handwriting Stroke Recovery from Offline Data
問題目標: 預測手寫簽名的軌跡
問題類型: 動態規劃(DP);計算機視覺(CV)
問題特點: 筆畫方向;左/右撇子。
㊷ ICDAR2013 - Gender Prediction from Handwriting
問題目標: 預測手寫筆記的作者是男還是女
問題類型: 計算機視覺(CV);分類問題(Classification)
問題特點: 性別特徵對字體形態的影響;神經網絡
㊸ Predicting Parkinson’s Disease Progression with Smartphone Data
問題目標: 根據用戶的手機信息評估帕金斯綜合症患者是否有症狀發作的跡象/情況
問題類型: 時間序列分析(Time-Series Analysis);語音處理(Speech Processing)
問題特點: 多尺度數據;語音數據處理。
㊹ Visualize the State of Public Education in Colorado
問題目標: 根據科羅拉多州各學校3年的成績數據,預測每個學校可能升到好學校的可能性
問題類型: 特徵工程(Feature Engineering );迴歸問題(Regression)
問題特點: 多指標考覈;評分標準。
㊺ Global Energy Forecasting Competition 2012 - Load Forecasting
問題目標: 預測美國20個地區的小時用電量(功率)
問題類型: 迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點: 多維度分析。
㊻ Global Energy Forecasting Competition 2012 - Wind Forecasting
問題目標: 預測7個風力發電廠的現在——未來48小時每小時產生的電量
問題類型: 迴歸問題(Regression);時間序列分析(Time-Series Analysis)
問題特點: 多維度分析。
㊼ Data Mining Hackathon on (20 mb) Best Buy mobile web site - ACM SF Bay Area Chapter
問題目標: 基於用戶的查詢記錄預測其最感興趣的Xbox遊戲類別
問題類型: 推薦系統(Recommendation system)
問題特點: 詞雲;關鍵詞分析。
㊽ Data Mining Hackathon on BIG DATA (7GB) Best Buy mobile web site
問題目標: 基於用戶的查詢記錄預測其最感興趣的BestBuy產品類別
問題類型: 推薦系統(Recommendation system)
問題特點: 大數據分析;關鍵詞分析。
㊾ CPROD1: Consumer PRODucts contest #1
問題目標: 自動分辨消費者提到的產品並正確的識別產品的類別
問題類型: 分類問題(Classification);NLP
問題特點: 大數據分析;自然語言處理。
㊿ Practice Fusion Diabetes Classification
問題目標: 診斷病人是否患有二型糖尿病
問題類型: 分類問題(Classification)
問題特點: 非線性邊界。
剩餘的項目分析可以聯繫我的qq獲取。