一份超全面的機器學習公共數據集


在機器學習中,設計的算法需要通過數據集來驗證。此外,對於標註的數據,在一定程度上驅動着一個個新的算法研究出來,逼近人的識別能力。

本文是用於機器學習的開放數據集的清單。覆蓋範圍包括財經,計算機視覺,自然語言處理,語音文本處理,情感分析,自動駕駛,人臉識別等領域。

1. 數據集查找器

學習機器學習的最好方法是在不同的項目中練習。你可以使用這些主要的數據集查找器在線搜索和下載免費的數據集。

  1. 一個數據科學站點,其中包含各種外部貢獻的有趣數據集。 您可以在其主列表中找到各種小衆數據集,從拉麪等級到籃球數據,甚至到西雅圖寵物許可證。
    Kaggle: https://www.kaggle.com/

  2. 網絡上最古老的數據集來源之一,也是尋找有趣的數據集的絕佳起點。 儘管數據集是用戶提供的,因此具有不同的清潔度,但是絕大多數是清潔的。 您可以直接從UCI機器學習存儲庫下載數據,而無需註冊。
    UCI Machine Learning Repository: http://mlr.cs.umass.edu/ml/

2. 財經類數據集

事實證明,機器學習對於金融行業來說是千載難逢的機會,記錄了數十年的量化金融數據形成了一個非常大的數據集,因此它非常適合於機器學習。實際上,機器學習現在已經開始慢慢改變金融和銀行投資業務,包括股市預測,投資分析與決策等。在經濟學中,機器學習可以用來建立經濟學模型和預測客戶行爲。

  1. 一個有助於建立預測經濟指標或股票價格模型的數據集
    https://www.quandl.com/

  2. 涵蓋全球人口統計數據和大量經濟與發展指標的數據集。
    https://data.worldbank.org/

  3. 國際貨幣基金組織發佈有關國際金融,債務利率,外匯儲備,商品價格和投資的數據。
    https://www.imf.org/en/Data

  4. 來自世界各地的金融市場的最新信息,包括股票價格指數,商品和外匯。
    https://markets.ft.com/data/

  5. 檢查和分析有關互聯網搜索活動和全球趨勢新聞的數據。
    https://trends.google.com/trends/?q=google&ctab=0&geo=all&date=all&sort=0

  6. 查找美國宏觀經濟數據的良好來源
    https://www.aeaweb.org/resources/data/us-macro-regional

  7. 深證創業板日線數據,1999.12.09 至2016.06.08,前復權,510支股票
    http://dataju.cn/Dataju/web/datasetInstanceDetail/39

  8. 深證A股日線數據,1999.12.09至 2016.06.08,前復權,1766支股票
    http://dataju.cn/Dataju/web/datasetInstanceDetail/38

  9. 上證A股日線數據,1999.12.09至 2016.06.08,前復權,1095支股票
    http://dataju.cn/Dataju/web/datasetInstanceDetail/37

  10. 深證創業板日線數據,截止 2017.05.05,原始價、前復權價、後復權價,636支股票
    http://dataju.cn/Dataju/web/datasetInstanceDetail/343

  11. 滬深股票除權除息、配股增發全量數據,截止 2016.12.31
    http://dataju.cn/Dataju/web/datasetInstanceDetail/344

  12. 房地產公司 Zillow 公開美國房地產歷史數據
    http://dataju.cn/Dataju/web/datasetInstanceDetail/380

  13. 美國勞工部統計局官方發佈數據
    http://dataju.cn/Dataju/web/datasetInstanceDetail/139

  14. Forex平臺外匯交易歷史數據
    http://dataju.cn/Dataju/web/datasetInstanceDetail/67

  15. Airbnb 開放的民宿信息和住客評論數據
    http://dataju.cn/Dataju/web/datasetInstanceDetail/309

3. 用於計算機視覺的圖像數據集

圖像數據集可用於訓練各種計算機視覺應用,例如醫學成像技術,自動駕駛汽車和麪部識別。

  1. 大量帶註釋的圖片
    http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

  2. 用於新算法的實際圖像數據集。根據WordNet層次結構進行組織,其中層次結構的每個節點由成千上萬的圖像描繪。
    http://image-net.org/

  3. 多輔助場景理解(房間佈局估計,顯着性預測等)
    http://lsun.cs.princeton.edu/2016/

  4. 一般圖像理解和字幕。
    http://cocodataset.org/#home

  5. 以360度旋轉的每個角度拍攝100個不同的物體。
    COIL100:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

  6. 非常詳細的視覺知識庫,包含約100K幅圖像的字幕
    Visual Genome: http://visualgenome.org/

  7. 共有900萬個圖片的url,這些圖片在Creative Commons下被標註了超過6000個類別的標籤
    Google’s Open Images: https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

  8. 13000張有標籤的人臉圖像,用於開發涉及面部識別的應用程序
    Labelled Faces in the Wild: http://vis-www.cs.umass.edu/lfw/

  9. 包含20580張圖片和120種不同的狗品種。
    Stanford Dogs Dataset: http://vision.stanford.edu/aditya86/ImageNetDogs/

  10. 包含67個室內類別,共15620個圖像
    Indoor Scene Recognition: http://web.mit.edu/torralba/www/indoor.html

  11. Fashion-MNIST風格服飾圖像數據集
    https://github.com/zalandoresearch/fashion-mnist

  12. 大型(50萬)LOGO標誌數據集
    https://data.vision.ee.ethz.ch/cvl/lld/

  13. YouTube MV視頻數據集添加鏈接描述
    https://github.com/keunwoochoi/YouTube-music-video-5M

  14. 計算機視覺合成數據集/工具大列表
    https://github.com/unrealcv/synthetic-computer-vision

  15. Pixiv(着色)圖片數據集
    https://github.com/jerryli27/pixiv_dataset

  16. 簡筆畫塗鴉數據集
    https://github.com/hardmaru/sketch-rnn-datasets

  17. 大規模日語圖片描述數據集
    https://github.com/STAIR-Lab-CIT/STAIR-captions

  18. PyTorch實現的VOC2012數據集Pixel-wise目標分割
    https://github.com/bodokaiser/piwise

  19. Cityscapes街景語義分割數據集
    https://github.com/mcordts/cityscapesScripts

  20. COCO像素級標註數據集
    https://github.com/nightrome/cocostuff

  21. 13000 張貼有標籤的人臉圖像,用於開發涉及人臉識別的應用。
    Labelled Faces in the Wild:http://vis-www.cs.umass.edu/lfw/

  22. MNIST:手寫數字圖像。最常用的可用性檢查。格式 25x25、居中、黑白手寫數字。這是一項簡單的任務——僅某部分適用於 MNIST,不意味着它有效
    http://yann.lecun.com/exdb/mnist

  23. CIFAR10 / CIFAR100:32x32 彩色圖像,10/100 類。雖然仍有趣卻不再常用的可用性檢查
    http://www.cs.utoronto.ca/~kriz/cifar.htm

  24. Caltech 101:101 類物體的圖片
    http://www.vision.caltech.edu/Image_Datasets/Caltech101

  25. Caltech 256:256 類物體的圖片
    http://www.vision.caltech.edu/Image_Datasets/Caltech256

  26. STL-10 數據集:用於開發無監督特徵學習、深度學習、自學習算法的圖像識別數據集。像修改過的 CIFAR-10
    http://cs.stanford.edu/~acoates/stl10

  27. The Street View House Numbers (SVHN):Google 街景中的門牌號碼。可以把它想象成復現的戶外 MNIST
    http://ufldl.stanford.edu/housenumbers

  28. NORB:玩具擺件在各種照明和姿勢下的雙目圖像
    http://www.cs.nyu.edu/~ylclab/data/norb-v1.0

  29. Pascal VOC:通用圖像分割 / 分類——對於構建真實世界圖像註釋不是非常有用,但對基線很有用
    http://pascallin.ecs.soton.ac.uk/challenges/VOC

  30. Labelme:帶註釋圖像的大型數據集
    http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.ph

  31. ImageNet:新算法的客觀圖像數據集(de-facto image dataset)。許多圖像 API 公司都有來自其 REST 接口的標籤,這些標籤近 1000 類;WordNet; ImageNet 的層次結構
    http://image-net.org

  32. LSUN:具有很多輔助任務的場景理解(房間佈局估計,顯著性預測(saliency * prediction)等),有關聯競賽。(associated competition)
    地址:http://lsun.cs.princeton.edu/2016
    MS COCO:通用圖像理解 / 說明,有關聯競賽
    http://mscoco.org

  33. COIL 20:不同物體在 360 度旋轉中以每個角度成像
    地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.ph
    COIL100:不同物體在 360 度旋轉中以每個角度成像
    http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.ph

  34. Google 開源圖像:有 900 萬張圖像的網址集合,這些圖像通過知識共享(Creative Commons)被標註成 6000 多個類別
    https://research.googleblog.com/2016/09/introducing-open-images-dataset.htm

4. 情感分析數據集

情感分析模型需要龐大的專業數據集纔能有效學習,以下所列數據集提供了用於情感分析的一些數據。

  1. 亞馬遜商品評價數據集
    Multidomain sentiment analysis dataset: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

  2. 二元情感分類數據集,包含25000條電影評論
    IMDB Reviews: http://ai.stanford.edu/~amaas/data/sentiment/

  3. 帶有情緒註釋的標準情緒數據集
    Stanford Sentiment Treebank: https://nlp.stanford.edu/sentiment/code.html

  4. 2015年2月美國航空公司推特數據,分爲正面、負面和中性推特
    Twitter US Airline Sentiment: https://www.kaggle.com/crowdflower/twitter-airline-sentiment

  5. 跨域(Amazon商品評論)情感數據集
    http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

5. 地理空間數據

  1. OpenStreetMap:免費提供整個星球的矢量數據。它包含(舊版)美國人口普查局的數據
    http://wiki.openstreetmap.org/wiki/Planet.os

  2. Landsat8:整個地球表面的衛星視角圖,每隔幾周更新一次
    https://landsat.usgs.gov/landsat-

  3. NEXRAD:美國大氣層的多普勒雷達掃描圖
    https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

6. 人工數據集

  1. Arcade Universe:一個人工數據集生成器,圖像包含街機遊戲 sprite,如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 數據集生成器
    https://github.com/caglar/Arcade-Univers

  2. 以 Baby AI School 爲靈感的數據集集合
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchoo

  3. Baby AI Shapes Dataset:區分 3 種簡單形狀
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDataset

  4. Baby AI Image And Question Dataset:一個問題 - 圖像 - 答案數據集
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDataset

  5. Deep Vs Shallow Comparison ICML2007:爲實證評估深層架構而生成的數據集
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML200

  6. MnistVariations:在 MNIST 中引入受控變化
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariation

  7. RectanglesData:區分寬矩形和垂直矩形
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesDat

  8. ConvexNonConvex:區分凸形和非凸形狀
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConve

  9. BackgroundCorrelation:嘈雜 MNIST 背景下相關度的控
    http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

7. 人臉數據集

  1. Labelled Faces in the Wild:13000 個經過裁剪的人臉區域(使用已經用名稱標識符標記過的 Viola-Jones)。數據集中每個人員的子集裏包含兩個圖像——人們常用此數據集訓練面部匹配系統
    http://vis-www.cs.umass.edu/lfw

  2. UMD Faces:有 8501 個主題的 367,920 個面孔的帶註釋數據集
    http://www.umdfaces.io

  3. CASIA WebFace:超過 10,575 個人經面部檢測的 453,453 張圖像的面部數據集。需要一些質量過濾
    http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.htm

  4. MS-Celeb-1M:100 萬張全世界的名人圖片。需要一些過濾才能在深層網絡上獲得最佳結果
    https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world

  5. Olivetti:一些人類的不同圖像
    http://www.cs.nyu.edu/~roweis/data.htm

  6. Multi-Pie:The CMU Multi-PIE Face 數據庫
    http://www.multipie.org

  7. Face-in-Action:http://www.flintbox.com/public/project/5486
    JACFEE:日本和白種人面部情緒表達的圖像
    http://www.humintell.com/jacfee

  8. FERET:面部識別技術數據庫
    http://www.itl.nist.gov/iad/humanid/feret/feret_master.htm
    mmifacedb:MMI 面部表情數據庫
    http://www.mmifacedb.com

  9. IndianFaceDatabase:http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase
    耶魯人臉數據庫:http://vision.ucsd.edu/content/yale-face-databas

  10. Mut1ny 頭部 / 面部分割數據集:像素超過 16K 的面部 / 頭部分割圖
    http://www.mut1ny.com/face-headsegmentation-dataset

8. 自然語言處理數據集

自然語言處理是一個廣泛的研究領域,以下包括用於不同自然語言處理任務(例如語音識別和聊天機器人)的廣泛數據集。

  1. 來自Enron公司高級管理人員的郵件數據
    Enron Dataset: https://www.cs.cmu.edu/~./enron/

  2. 包含來自亞馬遜18年來的3500萬條評論。數據包括產品和用戶信息,評級以及明文評論。
    Amazon Reviews: https://snap.stanford.edu/data/web-Amazon.html

  3. Google圖書中的單詞數據集
    Google Books Ngrams: https://aws.amazon.com/cn/datasets/google-books-ngrams/

  4. 從blogger.com收集的681,288個博客帖子集合。每個博客至少包含200個常用英語單詞
    Blogger Corpus: http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

  5. 維基百科的全文數據集,包含來自超過400萬篇文章的近19億個單詞。 可以按單詞,短語或段落本身的一部分進行搜索。
    Wikipedia Links data: https://code.google.com/archive/p/wiki-links/downloads

  6. Groject Gutenberg 中帶註釋的電子書清單。
    Gutenberg eBooks List: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

  7. 130萬對加拿大第36屆國會記錄中的文字。
    Hansards text chunks of Canadian Parliament: https://www.isi.edu/natural-language/download/hansard/

  8. 測驗節目Jeopardy存檔了超過20萬個問題。
    Jeopardy: http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

  9. 由5,574條英文SMS垃圾郵件組成的數據集
    SMS Spam Collection in English: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

  10. Yelp發佈的開放數據集包含超過500萬條評論。
    Yelp Reviews: https://www.yelp.com/dataset

  11. 大型垃圾郵件電子郵件數據集,可用於垃圾郵件過濾。
    UCI’s Spambase: https://archive.ics.uci.edu/ml/datasets/Spambase

  12. 機器學習保險行業問答開放數據集
    https://github.com/shuzi/insuranceQA

  13. 保險行業問答(QA)數據集
    https://github.com/shuzi/insuranceQA

  14. 文本簡化數據集
    http://www.cs.pomona.edu/~dkauchak/simplification/

  15. 英語詞/句/語義框架框架標註數據集
    https://framenet.icsi.berkeley.edu/fndrupal/

  16. Quora數據集:400000行潛在重複問題
    http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

  17. 文本分類數據集
    http://disi.unitn.it/moschitti/corpora.htm

  18. 20 newsgroups:分類任務,將出現的單詞映射到新聞組 ID。用於文本分類的經典數據集之一,通常可用作純分類的基準或任何 IR / 索引算法的驗證
    http://qwone.com/~jason/20Newsgroups

  19. 路透社新聞數據集:(較舊)純粹基於分類的數據集,包含來自新聞專線的文本。常用於教程
    https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collectio

  20. 賓州樹庫:用於下一個單詞或字符預測
    http://www.cis.upenn.edu/~treebank

  21. UCI‘s Spambase:來自著名的 UCI 機器學習庫的(舊版)經典垃圾郵件數據集。根據數據集的組織細節,可以將它作爲學習私人垃圾郵件過濾的基線
    https://archive.ics.uci.edu/ml/datasets/Spambas

  22. Broadcast News:大型文本數據集,通常用於下一個單詞預測
    http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S4

  23. 文本分類數據集:來自 Zhang et al., 2015。用於文本分類的八個數據集合集。這些是用於新文本分類基線的基準。樣本大小從 120K 至 3.6M 不等,範圍從二進制到 14 個分類問題。數據集來自 DBPedia、亞馬遜、Yelp、Yahoo!和 AG
    https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2

  24. WikiText:來自維基百科高質量文章的大型語言建模語料庫,由 Salesforce MetaMind 策劃
    http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset

  25. SQuAD:斯坦福問答數據集——應用廣泛的問答和閱讀理解數據集,其中每個問題的答案都以文本形式呈現
    https://rajpurkar.github.io/SQuAD-explorer

  26. Billion Words 數據集:一種大型通用語言建模數據集。通常用於訓練分佈式單詞表徵,如 word2vec
    http://www.statmt.org/lm-benchmark

  27. Common Crawl:網絡的字節級抓取——最常用於學習單詞嵌入。可從 Amazon S3 上免費獲取。也可以用作網絡數據集,因爲它可在萬維網進行抓取
    http://commoncrawl.org/the-data

  28. Google Books Ngrams:來自 Google book 的連續字符。當單詞首次被廣泛使用時,提供一種簡單的方法來探索
    https://aws.amazon.com/datasets/google-books-ngrams

  29. Yelp 開源數據集:Yelp 數據集是用於 NLP 的 Yelp 業務、評論和用戶數據的子集
    https://www.yelp.com/dataset

9. 推薦和排名系統

  1. Movielens:來自 Movielens 網站的電影評分數據集,各類大小都有
    https://grouplens.org/datasets/movielens

  2. Million Song 數據集:Kaggle 上元數據豐富的大型開源數據集,可以幫助人們使用混合推薦系統
    https://www.kaggle.com/c/msdchalleng

  3. Last.fm:音樂推薦數據集,可訪問深層社交網絡和其它可用於混合系統的元數據
    http://grouplens.org/datasets/hetrec-2011

  4. Book-Crossing 數據集:來自 Book-Crossing 社區。包含 278,858 位用戶提供的約 271,379 本書的 1,149,780 個評分
    http://www.informatik.uni-freiburg.de/~cziegler/BX

  5. Jester:來自 73,421 名用戶對 100 個笑話的 410 萬個連續評分(分數從 -10 至 10)
    http://www.ieor.berkeley.edu/~goldberg/jester-data

  6. Netflix Prize:Netflix 發佈了他們的電影評級數據集的匿名版;包含 480,000 名用戶對 17,770 部電影的 1 億個評分。首個主要的 Kaggle 風格數據挑戰。隨着隱私問題的出現,只能提供非正式版
    http://www.netflixprize.com/

10. 語音和音樂數據集

  1. 2000 HUB5 English:最近在 Deep Speech 論文中使用的英語語音數據,從百度獲取
    https://catalog.ldc.upenn.edu/LDC2002T4

  2. LibriSpeech:包含文本和語音的有聲讀物數據集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成,包含帶有文本和語音的章節
    http://www.openslr.org/12

  3. VoxForge:帶口音的清晰英語語音數據集。適用於提升不同口音或語調魯棒性的案例
    http://www.voxforge.org

  4. TIMIT:英語語音識別數據集
    https://catalog.ldc.upenn.edu/LDC93S

  5. CHIME:嘈雜的語音識別挑戰數據集。數據集包含真實、仿真和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成,仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成
    http://spandh.dcs.shef.ac.uk/chime_challenge/data.htm

  6. TED-LIUM:TED 演講的音頻轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄
    http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

  7. Piano-midi.de: 古典鋼琴
    http://www.piano-midi.de

  8. Nottingham : 超過 1000 首民
    http://abc.sourceforge.net/NMD

  9. MuseData: 古典音樂評分的電子圖書
    http://musedata.stanford.edu

  10. JSB Chorales: 四部協奏
    http://www.jsbchorales.net/index.shtml

11. 自動駕駛數據集

自動駕駛汽車需要使用大量高質量的數據集進行訓練,以便他們可以準確地感知其環境和周圍物體。

  1. 當前自動駕駛+AI的最大數據集。 包含超過100,000個視頻,這些視頻在一天中的不同時間和天氣情況下提供1,100個小時以上的駕駛體驗。 帶註釋的圖像來自紐約和舊金山地區。
    Berkeley DeepDrive BDD100k: https://bdd-data.berkeley.edu/

  2. 大型圖像數據集,定義了26種不同的語義項,例如汽車,自行車,行人,建築物,路燈等。
    Baidu Apolloscapes: http://apolloscape.auto/

  3. 超過7個小時的高速公路行駛。詳細信息包括汽車的速度,加速度,轉向角和GPS座標。
    Comma.ai: https://archive.org/details/comma-dataset

  4. 在一年的時間內,通過英國牛津的同一條路線的100多次重複。數據集捕獲天氣,交通和行人的不同組合,以及諸如建築和道路工程等長期變化。
    Oxford’s Robotic Car: https://robotcar-dataset.robots.ox.ac.uk/

  5. 記錄了50個不同城市中的城市街道場景的大型數據集。
    Cityscape Dataset: https://www.cityscapes-dataset.com/

  6. 該數據集對於自動駕駛車輛的感知和導航很有用。數據集在發達國家發現的道路上嚴重傾斜。
    CSSAD Dataset: http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

  7. 來自比利時佛蘭德地區數千個物理上不同的交通標誌的10000多個交通標誌註釋。
    KUL Belgium Traffic Sign Dataset: http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

  8. 在AgeLab收集的1,000多個小時的多傳感器駕駛數據集的樣本。
    MIT AGE Lab: https://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

  9. 該數據集包括交通標誌,車輛檢測,交通信號燈和軌跡模式。
    LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: http://cvrr.ucsd.edu/LISA/datasets.html

  10. 使用Python自動駕駛俠盜獵車手
    https://github.com/sentdex/pygta5

12. 用於機器學習的政府公共數據集

人口統計數據是重大經濟決策的基礎,是改善政府和社會的有力工具。 使用公共政府數據進行訓練的機器學習模型可以幫助決策者識別趨勢,併爲與人口減少或增長,老齡化和移民有關的問題做好準備。

  1. 該站點可以從多個美國政府機構下載數據。數據範圍從政府預算到學校成績。 請注意:許多數據需要進一步研究。
    Data.gov: https://www.data.gov/

  2. 包含有關當地食物選擇如何影響美國飲食的數據。
    Food Environment Atlas: https://catalog.data.gov/dataset/food-environment-atlas-f4a22

  3. 美國學校系統財務狀況的調查。
    School system finances: https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

  4. Data on chronic disease indicators in areas across the US.
    Chronic disease data: https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

  5. 美國和世界各地有關教育機構和教育人口統計數據。
    The US National Center for Education Statistics: https://nces.ed.gov/

  6. 英國最大的社會,經濟和人口數據收集。
    The UK Data Service: https://www.ukdataservice.ac.uk/

  7. 美國公共數據的全面可視化。
    Data USA: https://datausa.io/

更多精彩內容請關注微信公衆號 “優化與算法”
更多精彩內容請關注微信公衆號 “優化與算法”和QQ討論羣1032493483

發佈了11 篇原創文章 · 獲贊 4 · 訪問量 2041
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章