【机器学习python教程】【2】数据加载

原創

2020-06-20 22:45

文章目录

2.0 介绍

这一章我们将学习如何读入原始数据，它有可能存储在日志文件、数据文件或者数据库中，我们将着重讲解数据载入方式，例如对于csv、SQL文件的读入。虽然在Python生态系统中有许多加载数据的方法，但我们将重点使用panda库的大量方法来加载外部数据，并使用scikit-learn (Python中的一个开源机器学习库)来生成模拟数据。

2.1 读入样本数据集

from sklearn import datasets
digits = datasets.load_digits().data[0]
digits
array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

在我们真正学习机器学习算法之前，我们应该避免真实世界中的复杂数据，sklearn为我们提供了简单清晰的数据集：

load_boston
包含503个关于波士顿房价的观察,它是研究回归算法的一个很好的数据集。
load_iris
包含150个关于鸢尾花测量的观察结果,它是研究分类算法的良好数据集。
load_digits
包含1797个来自手写数字图像的观察结果,为图像分类教学提供了良好的数据集。

2.2 创建模拟数据集

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Flask】before_first_request与processes

有小夥伴反饋代碼運行服務概率性出現返回None的問題併發執行併發執行一個簡單腳本 def ok(t): return "ok" 併發執行均可正常返回ok，無任何異常日誌信息查看出現錯誤的日誌信息 Tracebac

2020-07-07 06:51:33

一次解决You should consider upgrading via the 'pip install --upgrade pip' command.

在執行pip install --upgrade pip 或 python -m pip install --upgrade pip 升級pip時報錯： You should consider upgrading via the 'pip

2020-07-07 03:29:32

a python 目录

技術相關 log 深淺拷貝多進程和多線程單元測試 debug & ipdb 配置相關 vscode環境配置 sphinx文檔生成整理有點亂 @staticmethod和@classmethod 全局變量

2020-07-05 00:51:14

非常全面Python库整理--转载备忘

庫名稱簡介 Chardet 字符編碼探測器，可以自動檢測文本、網頁、xml的編碼。 colorama 主要用來給文本添加各種顏色，並且非常簡單易用。 Prettytable 主要用於在終端或瀏覽器端構建格式化的輸出。 difflib，[

2020-07-03 02:46:23

python -m的含义

1.簡單說就是：執行某個模塊下的文件 2.python -m後面參數的形式是模塊名.文件名可以將模塊以腳本的方式運行。和python file.py的運行方式區別來看。使用這個命令會在library path中搜索執行py文件

2020-07-02 15:43:36

python五函数

函數在數學中函數就是完成了數字的某項變換，輸入參數，它就可以輸出一個結果。在編程中，函數同樣也有類似的作用。它的作用也是爲了完成某個功能，當有大量重複代碼時，就可以使用函數來解決，當需要精簡代碼邏輯時也可以使用函數。定義函數

奋斗的周周

2020-06-30 09:25:40

python四 list tuple set dict(列表，元组，集合，字典)

目錄 list tuple set dict(列表，元組，集合，字典) 列表(List) 列表的創建列表索引，切片列表操作 Python 元組字典：dict 字典定義字典操作 list tuple set dict(列表，元組，集

奋斗的周周

2020-06-30 09:25:39

python 基础一 python的安装与基础语法

Python是一種解釋型、面向對象、動態數據類型的高級程序設計語言。 Python由Guido van Rossum於1989年底發明，第一個公開發行版發行於1991年。像Perl語言一樣, Python 源代碼同樣遵循 GPL(GNU

奋斗的周周

2020-06-30 09:25:39

python 基础二基本的数据类型，字符串，字符编码

Python有五個標準的數據類型： Numbers（數字） int（整型）在混合計算時，Python會把整型轉換成爲浮點數。 float（浮點型） co

奋斗的周周

2020-06-30 09:25:39

python五文件操作

#文件的操作流程爲打開-->操作--->關閉 #file = open(filename, mode, encoding) # filename：file_name變量是一個包含了你要訪問的文件路徑的字符串值。 # mode：

奋斗的周周

2020-06-30 09:25:27

python 基础三 python支持的运算

支持的運算

奋斗的周周

2020-06-30 09:25:27

python 基础十五时间操作

奋斗的周周

2020-06-30 09:25:27

pycharm 批量修改变量名

背景：當代碼已經寫得差不多，需要修改某個變量名時，挨個修改太麻煩了，可通過下述方法進行批量修改，如下介紹：方法一： rename方法 1 把光標移動到要修改的變量名稱上 2 右鍵-refactor - rename- 確定 3

2020-06-29 23:44:59

python常用函数解析

enumerate() 函數函數：enumerate(sequence, [start=0]) #第二個參數爲指定索引功能：enumerate()函數用於將一個可遍歷的數據對象(如列表、元組或字符串)組合爲一個索引序列，

2020-06-29 23:44:59

学习python: 单例设计模式

簡介：本文主要講兩個問題： pyhton創建一個對象的過程。單例設計模式的一種實現方式。 python 創建一個對象的過程當我們實例化一個對象的時候，基本上可以分爲如下步驟：調用__new__(cls)方法

张王李刘赵孙杨

2020-06-29 11:25:40

24小時熱門文章

SQL优化-20231016

最新文章

最新評論文章