2.0 介紹
這一章我們將學習如何讀入原始數據,它有可能存儲在日誌文件、數據文件或者數據庫中,我們將着重講解數據載入方式,例如對於csv、SQL文件的讀入。雖然在Python生態系統中有許多加載數據的方法,但我們將重點使用panda庫的大量方法來加載外部數據,並使用scikit-learn (Python中的一個開源機器學習庫)來生成模擬數據。
2.1 讀入樣本數據集
from sklearn import datasets
digits = datasets.load_digits().data[0]
digits
array([ 0., 0., 5., 13., 9., 1., 0., 0., 0., 0., 13., 15., 10.,
15., 5., 0., 0., 3., 15., 2., 0., 11., 8., 0., 0., 4.,
12., 0., 0., 8., 8., 0., 0., 5., 8., 0., 0., 9., 8.,
0., 0., 4., 11., 0., 1., 12., 7., 0., 0., 2., 14., 5.,
10., 12., 0., 0., 0., 0., 6., 13., 10., 0., 0., 0.])
在我們真正學習機器學習算法之前,我們應該避免真實世界中的複雜數據,sklearn爲我們提供了簡單清晰的數據集:
- load_boston
包含503個關於波士頓房價的觀察,它是研究迴歸算法的一個很好的數據集。 - load_iris
包含150個關於鳶尾花測量的觀察結果,它是研究分類算法的良好數據集。 - load_digits
包含1797個來自手寫數字圖像的觀察結果,爲圖像分類教學提供了良好的數據集。