2.0 介绍
这一章我们将学习如何读入原始数据,它有可能存储在日志文件、数据文件或者数据库中,我们将着重讲解数据载入方式,例如对于csv、SQL文件的读入。虽然在Python生态系统中有许多加载数据的方法,但我们将重点使用panda库的大量方法来加载外部数据,并使用scikit-learn (Python中的一个开源机器学习库)来生成模拟数据。
2.1 读入样本数据集
from sklearn import datasets
digits = datasets.load_digits().data[0]
digits
array([ 0., 0., 5., 13., 9., 1., 0., 0., 0., 0., 13., 15., 10.,
15., 5., 0., 0., 3., 15., 2., 0., 11., 8., 0., 0., 4.,
12., 0., 0., 8., 8., 0., 0., 5., 8., 0., 0., 9., 8.,
0., 0., 4., 11., 0., 1., 12., 7., 0., 0., 2., 14., 5.,
10., 12., 0., 0., 0., 0., 6., 13., 10., 0., 0., 0.])
在我们真正学习机器学习算法之前,我们应该避免真实世界中的复杂数据,sklearn为我们提供了简单清晰的数据集:
- load_boston
包含503个关于波士顿房价的观察,它是研究回归算法的一个很好的数据集。 - load_iris
包含150个关于鸢尾花测量的观察结果,它是研究分类算法的良好数据集。 - load_digits
包含1797个来自手写数字图像的观察结果,为图像分类教学提供了良好的数据集。