sklearn-導入數據(第1講)

原創

2020-06-16 13:52

導入數據     2020/5/27
================================================================================= 
1.1.sklearn中導入數據方法有:pandas.read_csv,np.loadtxt,python csv.reader
1.2.sklearn中數據多爲numpy 2D,1D,pd.Series,pd.DataFrame,list
1.3.數據類型多爲np.float64,int64

=================================================================================
2.實例：
import csv,pandas as pd,numpy as np

# 使用numpy導入CSV數據
filename = 'pima_data.csv'
with open(filename, 'rt') as raw_data:
    data = np.loadtxt(raw_data, delimiter=',')
    print(data.shape)

# 使用Pandas導入CSV數據
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
print(data.shape)

# 使用標準的Python類庫導入CSV數據
filename = 'pima_data.csv'
with open(filename, 'rt') as raw_data:
    readers = csv.reader(raw_data, delimiter=',')
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)

==================================================================================

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ImportError: cannot import name ‘__check_build‘ from partially initialized module ‘sklearn‘

同事的本子上用pip install scikit-learn 安裝時報錯說: sklearn\\datasets\\tests\\data\\openml\\1119\\api-v1-json-data-list-data_name

2020-07-04 10:50:57

KNN算法第二章 Pandas & sklearn 機器學習實戰 Machine Learning in action

本專欄計劃藉助Pandas與sklearn重新實現書中的實戰案例。 k-近鄰算法1. KNN算法流程2. KNN改進約會網站的配對效果2.1 數據準備：從文本中解析數據2.2 數據可視化：散點圖2.3 數據處理：歸一化數值2.4

2020-07-08 11:09:44

社區發現之譜聚類算法的實現

#譜聚類算法實現 #1、計算距離矩陣(歐氏距離，作爲相似度矩陣) #2、利用KNN計算鄰接矩陣A #3、由鄰接矩陣計算都矩陣D和拉普拉斯矩陣L #4、標準化拉普拉斯矩陣 #5、對拉普拉斯矩陣進行特徵值分解得到特徵向量 #6、對特徵向量

2020-07-07 23:51:53

scikit-learn學習

scikit-learn是python中常見的機器學習庫，簡寫爲sklearn sklearn包含很多機器學習方式 Classification 分類 Regression 迴歸 Clustering 非監督分類 Dimensionali

2020-07-07 07:29:13

更新索引和離散特徵值的處理 pd.get_dummies(X)

我們這裏爲了演示, 直接刪除含有空值的行, 這是會會出現索引不連續的情況, 如圖, 索引少了888, 這是我們需要更新索引這時我們看到所有數據從891條變成了712條, 但是原始的所以竟然變成了新的特徵列, 這不是我們想要的,

透明的红萝卜221

2020-07-07 06:38:55

數據挖掘——sklearn瞭解

數據挖掘——sklearn瞭解sklearn庫的大概sklearn官方文檔的內容sklearn官方文檔結構使用sklearn進行簡單的數據挖掘數據挖掘的步驟參考文獻 sklearn庫的大概網上有很多關於sklearn的學習教程，

2020-07-05 23:54:46

kaggle波士頓房價預測，score=0.12986

作爲一個機器學習小白，之前拿titanic數據集練過手，遇到波士頓房價數據集（81個特徵）剛開始是有點懵，主要就懵在不知道如何下手處理數據，參考一些資料後，勉強跑通了流程，在此記錄一下。大神請自動繞過。 1、加載數據集數據集可以到kag

2020-07-05 22:50:38

機器學習-簡單線性迴歸分析（Python）

前言機器學習常用來解決相關分析和迴歸分析的問題，有時候大家會混淆兩者之間的差異，這裏通過對比分析來說明兩者的區別和聯繫，最後會以調用sklearn包中LinearRegression方法進行簡單線性迴歸分析爲例，說明如何使用

2020-07-05 17:43:16

Python-sklearn包中StratifiedKFold和KFold生成交叉驗證數據集的區別

一、StratifiedKFold及KFold主要區別及函數參數 KFold交叉採樣：將訓練/測試數據集劃分n_splits個互斥子集，每次只用其中一個子集當做測試集，剩下的（n_splits-1）作爲訓練集，進行n_splits

2020-07-05 17:43:06

sklearn 算法調參決策樹調參

scikit-learn決策樹算法類庫介紹 scikit-learn決策樹算法類庫內部實現是使用了調優過的CART樹算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier，而回歸決

2020-07-05 17:30:37

Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升樹

GBDT類庫概述GBDT有很多簡稱，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting）， GBRT（Gradient Boosting Regression Tree）

2020-07-05 12:30:42

Sklearn簡單學習筆記

下面是學習了莫煩大佬 sklearn 教程的筆記，是供我自己查閱的，不是很詳細，介意的勿看~ 莫煩大佬的教程鏈接在最後一點學習資料裏面。這是目錄一、下載與安裝二、選擇合適的機器學習方法三、通用的學習模式四、sklearn 的

2020-07-04 07:36:10

sklearn LinearReggression

sklearn linear_model:線性模塊一、LinearReggression 1、調用方法 class sklearn.linear_model.LinearRegression(fit_intercept=True

2020-07-04 05:02:55

【解決python，xgboost問題】XGBoostError: sklearn needs to be installed in order to use this module

問題描述：衆所周知，要使用python的庫xgboost必須要提前安裝好sklearn。但是，當我們xgboost和sklearn都安裝了，本人在執行以下代碼時： model_regr = xgboost.XGBRegress

2020-07-02 05:34:02

【關於歸一化與反歸一化數據統一的問題】：訓練集與測試集必須使用同一參數的歸一化與反歸一化

問題描述：在建立迴歸模型時，往往需要對數據進行歸一化和反歸一化。然而，一定要注意訓練集與測試集使用的歸一化參數必須統一！！常用的歸一化方法有很多，這裏以sklearn的MinMaxScale()爲例，下面講述了歸一化和反歸一

2020-07-02 05:34:02

24小時熱門文章

最新文章

最新評論文章