【機器學習python教程】【2】數據加載

原創

2020-06-20 22:45

文章目錄

2.0 介紹

這一章我們將學習如何讀入原始數據，它有可能存儲在日誌文件、數據文件或者數據庫中，我們將着重講解數據載入方式，例如對於csv、SQL文件的讀入。雖然在Python生態系統中有許多加載數據的方法，但我們將重點使用panda庫的大量方法來加載外部數據，並使用scikit-learn (Python中的一個開源機器學習庫)來生成模擬數據。

2.1 讀入樣本數據集

from sklearn import datasets
digits = datasets.load_digits().data[0]
digits
array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

在我們真正學習機器學習算法之前，我們應該避免真實世界中的複雜數據，sklearn爲我們提供了簡單清晰的數據集：

load_boston
包含503個關於波士頓房價的觀察,它是研究迴歸算法的一個很好的數據集。
load_iris
包含150個關於鳶尾花測量的觀察結果,它是研究分類算法的良好數據集。
load_digits
包含1797個來自手寫數字圖像的觀察結果,爲圖像分類教學提供了良好的數據集。

2.2 創建模擬數據集

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Flask】before_first_request與processes

有小夥伴反饋代碼運行服務概率性出現返回None的問題併發執行併發執行一個簡單腳本 def ok(t): return "ok" 併發執行均可正常返回ok，無任何異常日誌信息查看出現錯誤的日誌信息 Tracebac

2020-07-07 06:51:33

一次解決You should consider upgrading via the 'pip install --upgrade pip' command.

在執行pip install --upgrade pip 或 python -m pip install --upgrade pip 升級pip時報錯： You should consider upgrading via the 'pip

2020-07-07 03:29:32

a python 目錄

技術相關 log 深淺拷貝多進程和多線程單元測試 debug & ipdb 配置相關 vscode環境配置 sphinx文檔生成整理有點亂 @staticmethod和@classmethod 全局變量

2020-07-05 00:51:14

非常全面Python庫整理--轉載備忘

庫名稱簡介 Chardet 字符編碼探測器，可以自動檢測文本、網頁、xml的編碼。 colorama 主要用來給文本添加各種顏色，並且非常簡單易用。 Prettytable 主要用於在終端或瀏覽器端構建格式化的輸出。 difflib，[

2020-07-03 02:46:23

python -m的含義

1.簡單說就是：執行某個模塊下的文件 2.python -m後面參數的形式是模塊名.文件名可以將模塊以腳本的方式運行。和python file.py的運行方式區別來看。使用這個命令會在library path中搜索執行py文件

2020-07-02 15:43:36

python五函數

函數在數學中函數就是完成了數字的某項變換，輸入參數，它就可以輸出一個結果。在編程中，函數同樣也有類似的作用。它的作用也是爲了完成某個功能，當有大量重複代碼時，就可以使用函數來解決，當需要精簡代碼邏輯時也可以使用函數。定義函數

奋斗的周周

2020-06-30 09:25:40

python四 list tuple set dict(列表，元組，集合，字典)

目錄 list tuple set dict(列表，元組，集合，字典) 列表(List) 列表的創建列表索引，切片列表操作 Python 元組字典：dict 字典定義字典操作 list tuple set dict(列表，元組，集

奋斗的周周

2020-06-30 09:25:39

python 基礎一 python的安裝與基礎語法

Python是一種解釋型、面向對象、動態數據類型的高級程序設計語言。 Python由Guido van Rossum於1989年底發明，第一個公開發行版發行於1991年。像Perl語言一樣, Python 源代碼同樣遵循 GPL(GNU

奋斗的周周

2020-06-30 09:25:39

python 基礎二基本的數據類型，字符串，字符編碼

Python有五個標準的數據類型： Numbers（數字） int（整型）在混合計算時，Python會把整型轉換成爲浮點數。 float（浮點型） co

奋斗的周周

2020-06-30 09:25:39

python五文件操作

#文件的操作流程爲打開-->操作--->關閉 #file = open(filename, mode, encoding) # filename：file_name變量是一個包含了你要訪問的文件路徑的字符串值。 # mode：

奋斗的周周

2020-06-30 09:25:27

python 基礎三 python支持的運算

支持的運算

奋斗的周周

2020-06-30 09:25:27

python 基礎十五時間操作

奋斗的周周

2020-06-30 09:25:27

pycharm 批量修改變量名

背景：當代碼已經寫得差不多，需要修改某個變量名時，挨個修改太麻煩了，可通過下述方法進行批量修改，如下介紹：方法一： rename方法 1 把光標移動到要修改的變量名稱上 2 右鍵-refactor - rename- 確定 3

2020-06-29 23:44:59

python常用函數解析

enumerate() 函數函數：enumerate(sequence, [start=0]) #第二個參數爲指定索引功能：enumerate()函數用於將一個可遍歷的數據對象(如列表、元組或字符串)組合爲一個索引序列，

2020-06-29 23:44:59

學習python: 單例設計模式

簡介：本文主要講兩個問題： pyhton創建一個對象的過程。單例設計模式的一種實現方式。 python 創建一個對象的過程當我們實例化一個對象的時候，基本上可以分爲如下步驟：調用__new__(cls)方法

张王李刘赵孙杨

2020-06-29 11:25:40

24小時熱門文章

最新文章

最新評論文章