https://zhuanlan.zhihu.com/p/25138563
分門別類整理了一些網上的免費數據集,這是分類下載地址,希望能節約大家找數據的時間。歡迎數據達人加入QQ羣 565136792 交流。
金融
- 美國勞工部統計局官方發佈數據
-
上證A股日線數據,1999.12.09
至 2016.06.08,前復權,1095支股票
-
深證A股日線數據,1999.12.09
至 2016.06.08,前復權,1766支股票
- 深證創業板日線數據,1999.12.09 至 2016.06.08,前復權,510支股票
-
MT4平臺外匯交易歷史數據
- Forex平臺外匯交易歷史數據
- 幾組外匯交易逐筆(Ticks)數據
-
美國股票新聞數據【Kaggle數據】
-
美國醫療保險市場數據【Kaggle數據】
- 美國金融客戶投訴數據【Kaggle數據】
- Lending Club 網貸違約數據【Kaggle數據】
- 信用卡欺詐數據【Kaggle 數據】
- 某個金融產品實時交易數據【Kaggle數據】
- 美國股票數據XBRL【Kaggle數據】
-
紐約股票交易所數據【Kaggle數據】
交通
- 2013年紐約出租車行駛數據
- Udacity自動駕駛數據
-
紐約
Uber 接客數據 【Kaggle數據】
- 英國車禍數據(2005-2015)【Kaagle數據】
- 芝加哥汽車超速數據【Kaggle數據】
- KITTI 自動駕駛任務數據【數據太大僅有一部分】
- Cityscapes 場景標註數據【數據太大僅有介紹】
商業
-
Amazon
食品評論數據【Kaggle數據】
-
Amazon
無鎖手機評論數據【Kaggle數據】
- 美國視頻遊戲銷售和評價數據【Kaggle數據】
-
Kaggle
各項競賽情況數據【Kaggle數據】
- Airbnb 開放的民宿信息和住客評論數據
推薦系統
- Netflix 電影評價數據
-
MovieLens
20m 電影推薦數據集
- WikiLens
- Jester
- HetRec2011
- Book Crossing
- Large Movie Review
-
Retailrocket
商品評論和推薦數據
醫療健康
-
人識別物體時大腦核磁共振影像數據
-
人理解單詞時大腦核磁共振影像數據
- 心臟病心房圖像及標註數據
- 細胞病理識別
-
FIRE
視網膜眼底病變圖像數據
-
食物營養成分數據
【Kaggle數據】
-
EGG
大腦電波形狀數據【Kaggle數據】
- 某人基因序列數據【Kaggle數據】
- 癌症CT影像數據【Kaggle數據】
- 軟組織肉瘤CT圖像數據【Kaggle數據】
- 美國國家健康與服務部-國家癌症研究所發起的癌症數據倉庫介紹【僅有介紹】
-
Data
Science Bowl 2017 肺癌識別競賽數據【數據太大僅有介紹】
- TCGA-LUAD 肺癌CT圖像數據
- RAID 肺癌CT圖像數據
圖像數據
綜合圖像
- Visual Genome 圖像數據
- Visual7w 圖像數據
- COCO 圖像數據
- SUFR 圖像數據
-
ILSVRC
2014 訓練數據(ImageNet的一部分)
-
PASCAL
Visual Object Classes 2012 圖像數據
-
PASCAL
Visual Object Classes 2011 圖像數據
- PASCAL Visual Object Classes 2010 圖像數據
- 80 Million Tiny Image 圖像數據【數據太大僅有介紹】
- ImageNet【數據太大僅有介紹】
- Google Open Images【數據太大僅有介紹】
場景圖像
- Street Scences 圖像數據
- Places2 場景圖像數據
- UCF Google Street View 圖像數據
- SUN 場景圖像數據
-
The
Celebrity in Places 圖像數據
Web標籤圖像
人形輪廓圖像
視覺文字識別圖像
- Street View House Number 門牌號圖像數據
- MNIST 手寫數字識別圖像數據
- 3D MNIST 數字識別圖像數據【Kaggle數據】
- MediaTeam Document 文檔影印和內容數據
- Text Recognition 文字圖像數據
- NIST Handprinted Forms and Characters 手寫英文字符數據
- NIST Structured Forms Reference Set of Binary Images (SFRS) 圖像數據
- NIST Structured Forms Reference Set of Binary Images (SFRS) II 圖像數據
特定一類事物圖像
-
著名的貓圖像標註數據
-
Caltech-UCSD
Birds200 鳥類圖像數據
- Stanford Car 汽車圖像數據
- Cars 汽車圖像數據
- MIT Cars 汽車圖像數據
- Stanford Cars 汽車圖像數據
- Food-101 美食圖像數據
-
17_Category_Flower
圖像數據
- 102_Category_Flower 圖像數據
- UCI Folio Leaf 圖像數據
- Labeled Fishes in the Wild 魚類圖像
- 美國 Yelp 點評網站酒店照片
-
CMU-Oxford
Sculpture 塑像雕像圖像
-
Oxford-IIIT
Pet 寵物圖像數據
-
Nature
Conservancy Fisheries Monitoring 過度捕撈監控圖像數據【Kaggle數據】
材質紋理圖像
物體分類圖像
- COIL-20 圖像數據
- COIL-100 圖像數據
- Caltech-101 圖像數據
-
Caltech-256
圖像數據
- CIFAR-10 圖像數據
- CIFAR-100 圖像數據
- STL-10 圖像數據
- LabelMe_12_50k圖像數據
-
NORB
v1.0 圖像數據
-
NEC
Toy Animal 圖像數據
- iCubWorld 圖像分類數據
- Multi-class 圖像分類數據
- GRAZ 圖像分類數據
人臉圖像
-
IMDB-WIKI
500k+ 人臉圖像、年齡性別數據
- Labeled Faces in the Wild 人臉數據
-
Extended
Yale Face Database B 人臉數據
-
Bao
Face 人臉數據
-
DC-IGN
論文人臉數據
-
300
Face in Wild 圖像數據
-
BioID
Face 人臉數據
-
CMU
Frontal Face Images
- FDDB_Face Detection Data Set and Benchmark
- NIST Mugshot Identification Database
-
Faces
in the Wild 人臉數據
- CelebA 名人人臉圖像數據
- VGG Face 人臉圖像數據
-
Caltech
10k Web Faces 人臉圖像數據
姿勢動作圖像
-
HMDB_a
large human motion database
- Human Actions and Scenes Dataset
- Buffy Stickmen V3 人體輪廓識別圖像數據
- Human Pose Evaluator 人體輪廓識別圖像數據
- Buffy pose 人類姿勢圖像數據
- VGG Human Pose Estimation 姿勢圖像標註數據
指紋識別
-
NIST
FIGS 指紋識別數據
- NIST Supplemental Fingerprint Card Data (SFCD) 指紋識別數據
- NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指紋識別數據
- NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指紋識別數據
其它圖像數據
視頻數據
綜合視頻
人類動作視頻
- Microsoft Research Action 人類動作視頻數據
-
UCF50
Action Recognition 動作識別數據
-
UCF101
Action Recognition 動作識別數據
-
UT-Interaction
人類動作視頻數據
-
UCF
iPhone 運動中傳感器數據
-
UCF
YouTube 人類動作視頻數據
- UCF Sport 人類動作視頻數據
- UCF-ARG 人類動作視頻數據
- HMDB 人類動作視頻
- HOLLYWOOD2 人類行爲動作視頻數據
- Recognition of human actions 動作視頻數據
- Motion Capture 動作捕捉視頻數據
-
SBU
Kinect Interaction 肢體動作視頻數據
目標檢測視頻
-
UCSD
Pedestrian 行人視頻數據
-
Caltech
Pedestrian 行人視頻數據
-
ETH
行人視頻數據
-
INRIA
行人視頻數據
- TudBrussels 行人視頻數據
-
Daimler
行人視頻數據
- ALOV++ 物體追蹤視頻數據
密集人羣視頻
其它視頻
音頻數據
綜合音頻
語音識別
-
Sinhala
TTS 英語語音識別
-
TIMIT
美式英語語音識別數據
- LibriSpeech ASR corpus 語音數據
- Room Impulse Response and Noise 語音數據
- ALFFA 非洲語音數據
- THUYG-20 維吾爾語語音數據
- AMI Corpus 語音識別
自然語言處理
- RCV1英語新聞數據
-
20news
英語新聞數據
- First Quora Release Question Pairs 問答數據
-
JRC
Names各國語言專有實體名稱
- Multi-Domain Sentiment V2.0
-
LETOR
信息檢索數據
- Yale Youtube Vedio Text
-
斯坦福問答數據【Kaggle數據】
-
美國假新聞數據【Kaggle數據】
-
NIPS會議文章信息數據(1987-2016)【Kaggle數據】
-
2016年美國總統選舉辯論數據【Kaggle數據】
-
WikiLinks
跨文檔指代語料
- European Parliament Proceedings Parallel Corpus 機器翻譯數據
- WikiText 英語語義詞庫數據
- WMT 2011 News Crawl 機器翻譯數據
- Stanford Sentiment Treebank 詞彙數據
社會數據
- 希拉里郵件門泄露郵件
- 波士頓 Airbnb 公開數據【Kaggle數據】
-
世界各國經濟發展數據【Kaagle數據】
- 世界大學排名芝加哥犯罪數據(2001-2017)【Kaagle數據】
- 世界範圍顯著地震數據(1965-2016)【Kaagle數據】
-
美國嬰兒姓名數據【Kaagle數據】
-
全世界鯊魚襲擊人類數據【Kaagle數據】
-
1908年以來空難數據【Kaagle數據】
-
2016年美國總統大選數據【Kaagle數據】
-
2013年美國社區統計數據【Kaagle數據】
-
2014年美國社區統計數據【Kaagle數據】
-
2015年美國社區統計數據【Kaagle數據】
-
歐洲足球運動員賽事表現數據【Kaagle數據】
- 美國環境污染數據【Kaagle數據】
- 美國H1-B簽證申請數據【Kaggle數據】
- IMDB五千部電影數據【Kaggle數據】
-
2015年航班延誤和取消數據【Kaggle數據】
- 兇殺案報告數據【Kaggle數據】
- 人力資源分析數據【Kaggle數據】
- 美國費城犯罪數據【Kaggle數據】
- 安然公司郵件數據【Kaggle數據】
- 歷史棒球數據【Kaggle數據】
- 美聯航 Twitter 用戶評論數據【Kaggle數據】
- 波士頓 Airbnb 公開數據【Kaggle數據】
處理後的科研和競賽數據