【机器学习python教程】【2】数据加载

2.0 介绍

这一章我们将学习如何读入原始数据,它有可能存储在日志文件、数据文件或者数据库中,我们将着重讲解数据载入方式,例如对于csv、SQL文件的读入。虽然在Python生态系统中有许多加载数据的方法,但我们将重点使用panda库的大量方法来加载外部数据,并使用scikit-learn (Python中的一个开源机器学习库)来生成模拟数据。

2.1 读入样本数据集

from sklearn import datasets
digits = datasets.load_digits().data[0]
digits
array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

在我们真正学习机器学习算法之前,我们应该避免真实世界中的复杂数据,sklearn为我们提供了简单清晰的数据集:

  • load_boston
    包含503个关于波士顿房价的观察,它是研究回归算法的一个很好的数据集。
  • load_iris
    包含150个关于鸢尾花测量的观察结果,它是研究分类算法的良好数据集。
  • load_digits
    包含1797个来自手写数字图像的观察结果,为图像分类教学提供了良好的数据集。

2.2 创建模拟数据集

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章