進軍Kaggle(一)

Kaggle

Kaggle是一個爲機器學習提供數據集以及在線測評的網站。學算法時我們知道在OJ上面做題會很有幫助,那麼同樣的道理,學習機器學習的相關知識,刷相關的數據集,與大家進行交流,就顯得很重要。
Kaggle的好處有以下幾點:
1. 提供許多數據集,各種題材、各種格式、各種類型的數據集都有涉獵
2. 提供討論區,大家可以在網站上面針對題目進行有針對性的討論
3. 提供相關的代碼分享,以及可視化分享區,幫助用戶更好的理解數據,理解算法

好處

在Kaggle上面分析數據的好處是:
1. 可以避免閉門造車的境地。在同一個數據集上面,可以明確的看到自己所處的位置,自己的方法與標準方法相比、與其他人的方法相比,有多大的差距以及有哪些區別。
2. 可以比較不同的方法在同一個數據集上面的表現
3. 模型取得的成績能夠在很大程度上得到他人的認可

興趣點

我在Kaggle上面的興趣點在於兩個方面,一個是社交網絡分析,一個是機器視覺。
最近已經嘗試過兩個數據集,一個是MNIST手寫數字識別,一個是Influencers in Social Networks。這兩個都是相對較爲基礎的數據集,學界以及業界都有非常成熟的解決方案,取得了很好的效果。其中,MNIST數據集中去年有人在Kaggle上面得到了驚人的1.00的評測值,在這個數據的意義上來說已經登峯造極。做這兩個數據集的目的在於考察自己掌握的機器學習方法的真實能力。如果讀者有興趣,也可以從這兩個數據集開始做起。其中MNIST數據集本人採用SVM做Baseline,達到了0.982的評分,而使用CNN,達到了0.992的評分。Influencers數據集使用Baseline LogisticRegression達到了0.856的評分。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章