↑ 點擊上方 “一行數據” 關注 + 星標 ~
每週送書,絕不錯過
很多行友說,想做項目學習和練手沒有數據怎麼辦。又想給行哥投稿賺錢,沒有數據拿頭分析啊。先別急,這裏行哥給大家推薦一些數據來源,足夠你去好好分析數據,這些數據用來學習和找工作都不是問題
1.公司學校
2.爬蟲
3.白嫖
1.公司學校
對於公司和學校內部的數據,一般都是比較機密,但是你想主動去幫助他們處理,問老師或老大要些數據來練習,他們還是很願意的(畢竟多了一個人肉數據清洗機)。
即幫助了老師們的工作,又學到了技術,一舉兩得的事情我是最喜歡的
2.爬蟲
任何數據,只要你在網上能用肉眼看到,理論上都是可以爬取下來的,小到使用爬取個百度圖片,大到把一個網站數據庫連鍋端了完全了沒有問題。所以自己做項目分析來練手的數據(除非是得自己生產),都可以用爬蟲的方式進行爬取
但是理論歸理論,理想很豐滿,實際上只能動手複製粘貼
3.白嫖
爬蟲不如白嫖,網上的數據源特別多,但是也特別分散或者還收費(例如某覺中國),所以行哥這裏給大家精選十大數據網站,讓你白嫖到裝滿電腦爲止
3.1 Kaggle數據集:https://www.kesci.com/home/dataset 這是一個集競賽、數據和學習爲一體的網站,之前爛大街的泰坦尼克號數據分析就是這個網站提供的數據源頭。當然也有各種算法競賽,拿錢學習兩不誤
3.2 阿里雲天池數據集 https://tianchi.aliyun.com/ 如果英語不好的話,可以使用國內的阿里雲天池數據集。這裏不僅提供公共數據集,還有免費系統的AI課程可以學,還用你再找那些七零八落的課程資料嗎
3.3 股票數據:http://tushare.waditu.com/ 想學量化交易的同學肯定不能錯過這個網站,之前行哥交流羣裏的同學@Jason在問有沒有那種運行代碼就能賺錢的技術,你看這個量化領域就是(不過技術不精可能最後褲衩都了)
3.4 谷歌開源數據集:https://datasetsearch.research.google.com/ 想找官方數據的話得一個個去統計局找,也可以來這個谷歌開源數據集來。比如中國曆年平均工資的分佈,平均年工資爲90501 元,快看看你有沒有拖後腿
3.5 微軟數據集:https://msropendata.com/datasets?domain=PHYSICS 微軟數據集提供了生物,計算機科學,地球科學,健康護理,數學,物理,社會科學等,想找一些偏僻的數據可以來這裏找找
3.6 Github網站:
https://github.com/awesomedata/awesome-public-datasets 整個Github有很多項目大家可以學習,但是上面這個網址整理很多awesome的數據集,一共有32個類別。看完足夠你awesome
3.7 計算機視覺數據集:https://www.visualdata.io/discovery 昨天還有小老弟跟行哥嘮,說那麼多圖像怎麼一個個標註啊,那不得標成傻子了。這不,今天它來了,直接提供標註好的圖像數據,圖像識別還不趕緊學起
3.8 衛星數據集:google earth 衛星數據動輒幾個G,上百個G。總不能一臺電腦全保存上衛星數據,就算保存上了,隨便調用運算,家用電腦估計就夠嗆了。所以這個谷歌地球引擎直接提供平臺,可以在這個平臺裏隨意調用上百G衛星數據,並在谷歌提供的服務器裏運算,這樣上手不就更快了
3.9 數據世界 https://data.world/ 這個網站號稱數據界的github,GitHub分享的是代碼項目,這裏分享的便是純數據了,想進入數據社區可以來這個網站看看哦
3.10 行哥數據集:只要微信不倒,行哥的後臺回覆就是你源源不斷的數據集,快星標行哥不錯過任何一次數據集的更新吧(其實是每週抽書活動)
後臺回覆【pubg】獲得行哥專門爲你採集的【絕地求生數據集】讓你喫雞遊戲裏永不迷路
——— / 往期精選 / ————
後臺回覆「進羣」可以加入我們的社羣哦~