kaggle 入門一些問題

前言

最近研究一下kaggle機器學習平臺,這個憑條最大可提供16G的內存,還有CPU等資源使用,非常不錯,想着來學習一下。

讀取數據集

kaggle支持多種數據集,你可以自己上傳數據集,也可以用別人上傳的數據集,也可以用平臺提供的數據集,非常多的選擇,而且如果你上傳的數據集跟別人是一樣的,平臺還會提示你,讓你用已有的數據集,避免重複的數據集。

如何在kaggle上pip 庫

In the kernel:

1) Setting (at the right bottom of the kernel):
Turn the internet "ON"

2) In the kernel:
!pip install yourpackage

其實就是說:

  • 1、第一步,internet 打開,打開網絡
    這一步可能需要你驗證手機號

  • 2、第二步:在你的代碼裏 直接 輸入 pip 命令來下載這些數據。

kaggle 比賽類型

目前Kaggle上的比賽類型分爲以下幾種,對參賽選手的門檻有不同層級的要求

1. 面向初學者:

★.Getting Started

項目難度低,非常適合入門級的參賽者用來練手,但沒有獎牌或獎金,只能看到自己的排名。常年進行中的比賽有3個:

(1) Titanic
(2) House prices
(3) Digits Recognizer

這三個比賽由於常年掛在Kaggle上,數據集也未做任何更新,已經有很多baseline可以借鑑,很多參賽隊伍拿到了滿分或接近滿分的成績。

★.Playground

項目難度比Getting Started稍難,主要是一些趣味性的比賽,看創意而不是解決具體的研究問題,獎勵可能是獎金、榮譽,不能獲得獎牌。

2. 面向競賽者:

★.Featured

是Kaggle上主要的競賽類型,爲解決商業問題而設立的比賽,獎金高競爭激烈,有金銀銅牌獎勵,對參賽選手的能力有一定的要求。

★.Research

致力於解決科研界學術界的前沿問題,偏向於實驗性質,較難;競爭沒那麼激烈,通常也有獎金和金銀銅牌,但有的比賽只給榮譽獎勵,或者是提供參加頂會的機會。

3. 面向求職者:

★.Recruitment

贊助商爲招聘數據科學家而設立的比賽,獎勵就是贊助商提供的工作機會

4. 其他比較冷門的比賽類型:

★.Annual

不是嚴格意義上的比賽,每年兩次,一次是美國大學籃球錦標賽期間的三月機器學習比賽,一次是聖誕節期間的聖誕主題優化比賽

★.Limited participation
通常是私人賽或邀請賽,例如只有master級別及以上才能參加的Master’s Competition。目前總共也就五場比賽。

有針對性地選擇比賽題目。Kaggle上的比賽題目主要有這幾種:data mining(數據挖掘),computer vision(計算機視覺), natural language process(自然語言處理), optimization(優化)。通過kaggle上的標籤可以快速識別:

  • 數據挖掘類的競賽,其便籤往往是tabular data。
  • 對於NLP領域的競賽,其往往含有text data或nlp的標籤。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章