sklearn之datasets

原創

沸点数据

2020-06-15 05:13

sklearn之datasets

sklearn.datasets模塊提供了導入、在線下載及本地生成數據集的付費，通過dir或help命令查看：

(1)datasets.load_<dataset_name>() : sklearn自帶的小數據集

datasets.load_iris() # 鳶尾花數據集

datasets.load_boston() # 波士頓房價數據集

datasets.load_breast_cancer() # 乳腺癌數據集

datasets.load_diabets() # 糖尿病數據集

datasets.load_digits() # 手寫體數字數據集

datasets.load_linnerud() # 手寫體數字數據集

這些數據集都可以在官網上查到，以鳶尾花爲例，可以在官網上找到demo: http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

•load*和fetch*返回的數據類型datasets.base.Bunch(字典格式)

•

•data：特徵數據數組，是 [n_samples * n_features] 的二維

numpy.ndarray 數組

•target：標籤數組，是 n_samples 的一維 numpy.ndarray 數組

•DESCR：數據描述

•feature_names：特徵名,新聞數據，手寫數字、迴歸數據集沒有

•target_names：標籤名,迴歸數據集沒有

from sklearn import datasets
import matplotlib.pyplot as plt

# 加載數據集
iris=datasets.load_iris()
print(iris.data)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.DESCR)

X=iris.data[:,:2]
y=iris.target

# 畫圖
plt.figure(figsize=(12,8))
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1)

plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.show()

(2) datasets.fetch_<datasets_name>（data_home=None）： •獲取大規模數據集，需要從網絡上下載，函數的第一個參數是data_home，表示數據集下載的目錄,默認是~/scikit_learn_data/

可以通過設置環境變量SCIKIT_LEARN_DATA修改路徑

datasets.get_data_home() 獲取下載路徑

(3) 計算機生成的數據集：sklearn.datasets.make_<datasets_name>()

(4) svmlight/libsvm格式的數據集： sklearn.datasets.load_svmlight_file()

(5) 購買了data.org 在線下載獲取的數據集： sklearn.datasets.fetch_mldata()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sklearn之datasets

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

python--內置函數

seaborn.barplot柱狀圖詳說

樸素貝葉斯進行新聞分類

sklearn.model_selection中的train_test_split

sklearn之datasets

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結