【機器學習python教程】【2】數據加載

2.0 介紹

這一章我們將學習如何讀入原始數據,它有可能存儲在日誌文件、數據文件或者數據庫中,我們將着重講解數據載入方式,例如對於csv、SQL文件的讀入。雖然在Python生態系統中有許多加載數據的方法,但我們將重點使用panda庫的大量方法來加載外部數據,並使用scikit-learn (Python中的一個開源機器學習庫)來生成模擬數據。

2.1 讀入樣本數據集

from sklearn import datasets
digits = datasets.load_digits().data[0]
digits
array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

在我們真正學習機器學習算法之前,我們應該避免真實世界中的複雜數據,sklearn爲我們提供了簡單清晰的數據集:

  • load_boston
    包含503個關於波士頓房價的觀察,它是研究迴歸算法的一個很好的數據集。
  • load_iris
    包含150個關於鳶尾花測量的觀察結果,它是研究分類算法的良好數據集。
  • load_digits
    包含1797個來自手寫數字圖像的觀察結果,爲圖像分類教學提供了良好的數據集。

2.2 創建模擬數據集

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章