免費的大的數據平臺或資源彙總(持續整理驗證.....)

1. 相關國外的資源:

資料來源(http://baijiahao.baidu.com/s?id=1603615793355935673&wfr=spider&for=pc

從文本處理到自動駕駛:機器學習最常用的50大免費數據集

機器之心

18-06-1821:11

 

 

機器學習領域裏有哪些開放數據集?Gengo 近日發佈了一份高質量免費數據集列表,其搜索範圍不僅包含內容廣泛(如 Kaggle),也包括高度特化的(如自動駕駛汽車專用數據集)數據集種類。

 

首先,在選擇數據集時要記住幾個重要標準:

數據集不能是混亂的,因爲你不希望花費大量時間整理數據。數據集不應該有過多的行或者列,這樣才能容易處理。數據越乾淨越好——清理大型數據集可能會非常耗時。該數據集可以用於回答一些有趣的問題。

這樣的話,讓我們看看能找到點什麼?

查找數據集

Kaggle:一個數據科學競賽網站,其中包含大量外部貢獻的有趣數據集。你可以在它長長的列表中(https://www.kaggle.com/datasets)找到各種小衆數據集,從拉麪的評分、籃球數據,到西雅圖的寵物牌照。

UCI Machine Learning Repository:它是網絡中最古老的數據集源之一,是尋找各種有趣數據集的第一選擇。在這裏,儘管數據集都是用戶自行貢獻的,但清潔程度仍然很高。此外,你可以直接從 UCI Machine Learning Repository 上下載數據,無需註冊。

通用數據集

公共政府數據集

Data.gov:這個網站可以從多個美國政府機構下載數據,從政府預算到學校成績。不過要注意:其中的大部分數據需要進一步研究。

鏈接:https://www.data.gov/

Food Environment Atlas:包含有關本地食物選擇如何影響美國飲食習慣的數據。

鏈接:https://catalog.data.gov/dataset/food-environment-atlas-f4a22

School system finances:美國學校系統財務狀況調查。

鏈接:https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

Chronic disease data:美國各地慢性病指標數據。

鏈接:https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

The US National Center for Education Statistics:美國和世界各地教育機構和教育人口統計數據。

鏈接:https://nces.ed.gov/

The UK Data Centre:英國最大的社會、經濟和人口數據收集。

鏈接:https://www.ukdataservice.ac.uk/

Data USA:美國公共數據的全面可視化。

鏈接:http://datausa.io/

金融類

Quandl:很好的財經數據來源——有助於建立預測經濟指標或股票價格的模型。

鏈接:https://www.quandl.com/

World Bank Open Data:涵蓋人口統計和世界各地大量經濟和發展指標的數據集。

鏈接:https://data.worldbank.org/

IMF Data:國際貨幣基金組織公佈有關國際金融、債務利率、外匯儲備、商品價格和投資的數據。

鏈接:https://www.imf.org/en/Data

Financial Times Market Data:世界金融市場的最新信息,包括股票價格指數、商品和外匯。

鏈接:https://markets.ft.com/data/

Google Trends:觀察和分析有關互聯網搜索活動和世界各地新聞故事趨勢的數據。

鏈接:http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

AmericanEconomic Association (AEA):尋找美國宏觀經濟數據的來源。

鏈接:https://www.aeaweb.org/resources/data/us-macro-regional

機器學習數據集

圖像

Labelme:註釋圖像的大數據集。

鏈接:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet:著名的 ImageNet,由斯坦福大學教授李飛飛等人發起,它是面向新算法的真實圖像數據集。根據 WordNet 層次結構來組織,其中層次結構的每個節點都由成百上千個圖像來描述。

鏈接:http://image-net.org/

LSUN:場景理解和許多輔助任務(房間佈局估計、顯著性預測等)。

鏈接:http://lsun.cs.princeton.edu/2016/

MS COCO:ImageNet 之外另一個常用的圖像數據集,包含通用圖像理解和註釋。

鏈接:http://cocodataset.org/

COIL100:100 個不同的物體在 360°旋轉中以每個角度成像。

鏈接:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

Visual Genome:非常詳細的視覺知識庫,配有約 100K 個圖像的註釋。

鏈接:http://visualgenome.org/

Google's Open Images:Creative Commons 下的 900 萬個圖片的網址集合,「已經標註了跨越 6000 多個類別的標籤」。

鏈接:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

Labelled Faces in the Wild:13000 張貼有標籤的人臉圖像,用於開發涉及人臉識別的應用。

鏈接:http://vis-www.cs.umass.edu/lfw/

Stanford Dogs Dataset:包含 20580 個圖像和 120 個不同品種的狗類別。

鏈接:http://vision.stanford.edu/aditya86/ImageNetDogs/

Indoor Scene Recognition:非常具體的數據集,適用於大多數場景識別模型,因爲後者在「外部」表現更好。包含 67 個室內類別,總共 15620 個圖像。

鏈接:http://web.mit.edu/torralba/www/indoor.html

情感分析

Multidomain Sentiment analysis dataset:有點舊的一個數據集,以亞馬遜的產品評論爲特色。

鏈接:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB reviews:用於二進制情感分類的較舊的、相對較小的數據集,具有 25000 個電影評論。

鏈接:http://ai.stanford.edu/~amaas/data/sentiment/

Stanford Sentiment Treebank:帶有情感註釋的標準情感數據集。

鏈接:https://nlp.stanford.edu/sentiment/code.html

Sentiment140:一個流行的數據集,使用 16 萬條預先刪除表情符號的推文

鏈接:http://help.sentiment140.com/for-students/

Twitter US Airline Sentiment:2015 年 2 月以來美國航空公司的推特數據,分爲正面、負面和中性。

鏈接:https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然語言處理

Enron Dataset:Enron 公司高層管理人員的電子郵件數據,整理成文件夾。

鏈接:https://www.cs.cmu.edu/~./enron/

Amazon Reviews:包含來自亞馬遜長達 18 年的約 3500 萬條評論。數據包括產品和用戶信息、評級和明文審查。

鏈接:https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngrams:Google 書籍中的詞彙集合。

鏈接:https://aws.amazon.com/cn/datasets/google-books-ngrams/

Blogger Corpus:從 blogger . com 收集的 681288 篇博客文章。每個博客至少包含 200 個常用英語單詞。

鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

Wikipedia Links data:維基百科全文。數據集包含 400 多萬篇文章中的近 19 億字。你可以根據單詞、短語或段落本身的一部分進行搜索。

鏈接:https://code.google.com/p/wiki-links/downloads/list

Gutenberg eBooks List:古騰堡計劃電子書註釋清單。

鏈接:http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

Hansards text chunks of Canadian Parliament:加拿大第 36 屆國會記錄 130 萬對文本。

鏈接:https://www.isi.edu/natural-language/download/hansard/

Jeopardy:機智問答節目 Jeopardy 中存檔的 20 多萬個問題。

鏈接:https://www.reddit.com/r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/

SMS Spam Collection in English:由 5574 條英文短信垃圾郵件組成的數據集

鏈接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Yelp Reviews:Yelp 發佈的開放數據集包含 500 多萬條評論。

鏈接:https://www.yelp.com/dataset

UCI's Spambase:大型垃圾郵件數據集,可用於垃圾郵件過濾。

鏈接:https://archive.ics.uci.edu/ml/datasets/Spamb (https://archive.ics.uci.edu/ml/datasets/Spambase)

自動駕駛

Berkeley DeepDrive BDD100k:目前最大的自動駕駛人工智能數據集。包含 100000 多段視頻,內容涉及一天中不同時間和天氣條件下 1100 多小時的駕駛體驗。註釋圖像來自紐約和舊金山地區。

鏈接:http://bdd-data.berkeley.edu/

Baidu Apolloscapes:百度 Apollo 計劃開放的大規模自動駕駛數據集。它定義了 26 個不同語義項目,如汽車、自行車、行人、建築物、路燈等。

鏈接:http://apolloscape.auto/

Comma.ai:7 小時以上的公路行駛體驗。詳細信息包括車速、加速度、轉向角和 GPS 座標。

鏈接:https://archive.org/details/comma-dataset

Oxford's Robotic Car:一年內在英國牛津同一條路線重複 100 多次的行駛。數據集捕捉天氣、交通和行人的不同組合,以及建築和道路工程等長期變化。

鏈接:http://robotcar-dataset.robots.ox.ac.uk/

Cityscape Dataset:記錄 50 個不同城市街道場景的大型數據集。

鏈接:https://www.cityscapes-dataset.com/

CSSAD Dataset:該數據集可用於自主車輛的感知和導航。數據集在發達國家的道路上出現嚴重偏差。

鏈接:http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

KUL Belgium Traffic Sign Dataset:比利時佛蘭德區數以千計截然不同的超過 10000 個的交通標誌標註。

鏈接:http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

MIT AGE Lab:在 AgeLab 收集的 1000 多個小時的多傳感器驅動數據集樣本。

鏈接:http://lexfridman.com/carsync/

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此數據集包括交通標誌、車輛檢測、交通燈和軌跡模式。

鏈接:http://cvrr.ucsd.edu/LISA/datasets.html

如果你知道本文中有哪些漏掉的重要數據集,歡迎留言補充。

 

2. 有哪些好的數據來源或者大數據平臺

資料來源:https://blog.csdn.net/zhangbdaxia/article/details/78995920

分享下我自己平時收集的..共100多個O_O

網站分析類:

百度指數 - 以百度海量網民行爲數據爲基礎的數據分享平臺
Google趨勢 - 瞭解 Google中熱度上升的搜索
360指數  - 基於360搜索的大數據分享平臺
Alexa - 網站排名
Google Analytics - Google出品,可以對目標網站進行訪問數據統計和分析
百度統計 - 百度推出的一款免費的專業網站流量分析工具
騰訊雲分析 - 是騰訊數據雲,騰訊大數據戰略的核心產品

移動應用分析類:

友盟指數 - 以友盟海量數據爲基礎的觀察移動互聯網行業趨勢的數據平臺
移動觀象臺 - 20億獨立智能設備爲依據,提供應用排行榜
ASOU趨勢 - 每日跟蹤超過 100萬款應用,分析超過6億條數據
蟬大師 - App數據分析與ASO優化專家,應用與遊戲推廣平臺
百度移動統計 - 基於移動APP統計的分析工具
QuestMobile - 國內知名的移動大數據服務提供商
應用雷達 - 專業的APP排行歷史跟蹤軟件實時榜單排名分析
Appannie - 移動應用和數字內容時代數據分析和市場數據的行業領導者
CQASO - 國內最專業的APP數據分析平臺

媒體傳播類:

微博指數
優酷指數
微票兒票房分析
BOM票房數據
愛奇藝指數
數說傳播
百度風雲榜
微博風雲榜
愛奇藝風雲榜
豆瓣電影排行榜
新媒體排行榜
品牌微信排行榜
清博指數
易贊 - 公衆號畫像

電商數據類:

阿里價格指數
淘寶魔方
京東智圈
淘寶排行榜

投資數據類:

Crunchbase - 一個免費的科技公司、技術行業知名人物和投資者相關信息的數據庫
清科投資界 - 風險投資,私募股權,創業者相關投資,私募,併購,上市的研究
IT桔子 - 關注TMT領域創業與投資的數據庫
創投庫 - 提供最全的投資公司信息
Angel - 美國創業項目大全
Next - 36kr子站,每天更新新產品介紹
Beta List - 介紹初創公司

金融數據類:

積木盒子 - 全線上網絡借貸信息中介平臺
網貸中心 - 告網貸行業危機,公正透明地披露網貸平臺數據
網貸之家 - P2P網貸平臺排名
網貸數據 - 網貸天下 - 行業過去30天詳細交易數據,網貸天下統計、發佈,每天6點更新
中國P2P網貸指數
零壹數據-專業互聯網金融數據中心
大公金融數據
全球股票指數
愛股說-基金經理分析找股平臺
私募基金管理人綜合查詢
中財網數據引擎

遊戲數據:

百度網遊風雲榜
360手機遊戲排行榜
360手遊指數
CGWR排行榜
App Annie遊戲指數
小米應用商店遊戲排名
TalkingData遊戲指數
遊戲玩家排名&賽事數據

國家社會數據:

中國綜合社會調查
中國人口普查數據
中國國家數據中心
中國家庭收入項目
中國健康和營養調查
中國統計數據
全國企業信息查詢
北京宏觀經濟數據庫
中國金融信息網

其它數據:

螞蟻金服研究院 - 網消指數&互金指數
二手市場行情
中國網絡騙子地圖
春運遷徙地圖
房價指數
中國城市擁堵指數
百度研究院PC平臺
百度城市熱力圖

數據分析機構:

艾瑞iResearch
艾媒iimedia
易觀國際
企鵝智酷_騰訊網
手遊那點 - 全事球互聯網市場研究
dataeye - 專注於泛娛樂領域的大數據分析和挖掘
Accenture(埃森哲)
Analysys
Asymco
Canalys
CTR
CNNIC
CB Insights
Deloitte(德勤)
Digi-Capita
Forrester(弗雷斯特)
Gartner(高德納)
GfK(捷孚凱)
IDC(國際數據)
KPCB(凱鵬華盈)
MMD研究所
Nielsen(尼爾森)
NPD(恩帛源)
Ofcom
Piper Jaffray & Co
Strategy Analytics
UBS(瑞銀)
pewresearchcenter

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章