前言
最近研究一下kaggle機器學習平臺,這個憑條最大可提供16G的內存,還有CPU等資源使用,非常不錯,想着來學習一下。
讀取數據集
kaggle支持多種數據集,你可以自己上傳數據集,也可以用別人上傳的數據集,也可以用平臺提供的數據集,非常多的選擇,而且如果你上傳的數據集跟別人是一樣的,平臺還會提示你,讓你用已有的數據集,避免重複的數據集。
如何在kaggle上pip 庫
In the kernel:
1) Setting (at the right bottom of the kernel):
Turn the internet "ON"
2) In the kernel:
!pip install yourpackage
其實就是說:
-
1、第一步,internet 打開,打開網絡
這一步可能需要你驗證手機號 -
2、第二步:在你的代碼裏 直接 輸入 pip 命令來下載這些數據。
kaggle 比賽類型
目前Kaggle上的比賽類型分爲以下幾種,對參賽選手的門檻有不同層級的要求
1. 面向初學者:
★.Getting Started
項目難度低,非常適合入門級的參賽者用來練手,但沒有獎牌或獎金,只能看到自己的排名。常年進行中的比賽有3個:
(1) Titanic
(2) House prices
(3) Digits Recognizer
這三個比賽由於常年掛在Kaggle上,數據集也未做任何更新,已經有很多baseline可以借鑑,很多參賽隊伍拿到了滿分或接近滿分的成績。
★.Playground
項目難度比Getting Started稍難,主要是一些趣味性的比賽,看創意而不是解決具體的研究問題,獎勵可能是獎金、榮譽,不能獲得獎牌。
2. 面向競賽者:
★.Featured
是Kaggle上主要的競賽類型,爲解決商業問題而設立的比賽,獎金高競爭激烈,有金銀銅牌獎勵,對參賽選手的能力有一定的要求。
★.Research
致力於解決科研界學術界的前沿問題,偏向於實驗性質,較難;競爭沒那麼激烈,通常也有獎金和金銀銅牌,但有的比賽只給榮譽獎勵,或者是提供參加頂會的機會。
3. 面向求職者:
★.Recruitment
贊助商爲招聘數據科學家而設立的比賽,獎勵就是贊助商提供的工作機會
4. 其他比較冷門的比賽類型:
★.Annual
不是嚴格意義上的比賽,每年兩次,一次是美國大學籃球錦標賽期間的三月機器學習比賽,一次是聖誕節期間的聖誕主題優化比賽
★.Limited participation
通常是私人賽或邀請賽,例如只有master級別及以上才能參加的Master’s Competition。目前總共也就五場比賽。
有針對性地選擇比賽題目。Kaggle上的比賽題目主要有這幾種:data mining(數據挖掘),computer vision(計算機視覺), natural language process(自然語言處理), optimization(優化)。通過kaggle上的標籤可以快速識別:
- 數據挖掘類的競賽,其便籤往往是tabular data。
- 對於NLP領域的競賽,其往往含有text data或nlp的標籤。