Python學習十大公開免費數據集介紹

↑ 點擊上方 一行數據” 關注 + 星標 ~ 

每週送書,絕不錯過


很多行友說,想做項目學習和練手沒有數據怎麼辦。又想給行哥投稿賺錢,沒有數據拿頭分析啊。先別急,這裏行哥給大家推薦一些數據來源,足夠你去好好分析數據,這些數據用來學習和找工作都不是問題

  • 1.公司學校

  • 2.爬蟲

  • 3.白嫖

1.公司學校

對於公司和學校內部的數據,一般都是比較機密,但是你想主動去幫助他們處理,問老師或老大要些數據來練習,他們還是很願意的(畢竟多了一個人肉數據清洗機)。

即幫助了老師們的工作,又學到了技術,一舉兩得的事情我是最喜歡的

2.爬蟲

任何數據,只要你在網上能用肉眼看到,理論上都是可以爬取下來的,小到使用爬取個百度圖片,大到把一個網站數據庫連鍋端了完全了沒有問題。所以自己做項目分析來練手的數據(除非是得自己生產),都可以用爬蟲的方式進行爬取

但是理論歸理論,理想很豐滿,實際上只能動手複製粘貼

3.白嫖

爬蟲不如白嫖,網上的數據源特別多,但是也特別分散或者還收費(例如某覺中國),所以行哥這裏給大家精選十大數據網站,讓你白嫖到裝滿電腦爲止

  • 3.1 Kaggle數據集:https://www.kesci.com/home/dataset 這是一個集競賽、數據和學習爲一體的網站,之前爛大街的泰坦尼克號數據分析就是這個網站提供的數據源頭。當然也有各種算法競賽,拿錢學習兩不誤

  • 3.2 阿里雲天池數據集 https://tianchi.aliyun.com/ 如果英語不好的話,可以使用國內的阿里雲天池數據集。這裏不僅提供公共數據集,還有免費系統的AI課程可以學,還用你再找那些七零八落的課程資料嗎

  • 3.3 股票數據:http://tushare.waditu.com/ 想學量化交易的同學肯定不能錯過這個網站,之前行哥交流羣裏的同學@Jason在問有沒有那種運行代碼就能賺錢的技術,你看這個量化領域就是(不過技術不精可能最後褲衩都了)

  • 3.4 谷歌開源數據集:https://datasetsearch.research.google.com/ 想找官方數據的話得一個個去統計局找,也可以來這個谷歌開源數據集來。比如中國曆年平均工資的分佈,平均年工資爲90501 元,快看看你有沒有拖後腿

  • 3.5 微軟數據集:https://msropendata.com/datasets?domain=PHYSICS 微軟數據集提供了生物,計算機科學,地球科學,健康護理,數學,物理,社會科學等,想找一些偏僻的數據可以來這裏找找

  • 3.6 Github網站:

https://github.com/awesomedata/awesome-public-datasets 整個Github有很多項目大家可以學習,但是上面這個網址整理很多awesome的數據集,一共有32個類別。看完足夠你awesome

  • 3.7 計算機視覺數據集:https://www.visualdata.io/discovery 昨天還有小老弟跟行哥嘮,說那麼多圖像怎麼一個個標註啊,那不得標成傻子了。這不,今天它來了,直接提供標註好的圖像數據,圖像識別還不趕緊學起

  • 3.8 衛星數據集:google earth 衛星數據動輒幾個G,上百個G。總不能一臺電腦全保存上衛星數據,就算保存上了,隨便調用運算,家用電腦估計就夠嗆了。所以這個谷歌地球引擎直接提供平臺,可以在這個平臺裏隨意調用上百G衛星數據,並在谷歌提供的服務器裏運算,這樣上手不就更快了

  • 3.9 數據世界 https://data.world/ 這個網站號稱數據界的github,GitHub分享的是代碼項目,這裏分享的便是純數據了,想進入數據社區可以來這個網站看看哦

  • 3.10 行哥數據集:只要微信不倒,行哥的後臺回覆就是你源源不斷的數據集,快星標行哥不錯過任何一次數據集的更新吧(其實是每週抽書活動)

後臺回覆【pubg】獲得行哥專門爲你採集的【絕地求生數據集】讓你喫雞遊戲裏永不迷路

——— / 往期精選 / ————

【人臉檢測】50行Python代碼實現顏值檢測

   【Python爬蟲】批量爬取抖音/快手/b站視頻

【Python分析】貧窮的原因

【Python可視化】5000億資產的展示

後臺回覆「進羣」可以加入我們的社羣哦~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章