sklearn之datasets

原創

沸点数据

2020-06-15 05:13

sklearn之datasets

sklearn.datasets模块提供了导入、在线下载及本地生成数据集的付费，通过dir或help命令查看：

(1)datasets.load_<dataset_name>() : sklearn自带的小数据集

datasets.load_iris() # 鸢尾花数据集

datasets.load_boston() # 波士顿房价数据集

datasets.load_breast_cancer() # 乳腺癌数据集

datasets.load_diabets() # 糖尿病数据集

datasets.load_digits() # 手写体数字数据集

datasets.load_linnerud() # 手写体数字数据集

这些数据集都可以在官网上查到，以鸢尾花为例，可以在官网上找到demo: http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

•load*和fetch*返回的数据类型datasets.base.Bunch(字典格式)

•

•data：特征数据数组，是 [n_samples * n_features] 的二维

numpy.ndarray 数组

•target：标签数组，是 n_samples 的一维 numpy.ndarray 数组

•DESCR：数据描述

•feature_names：特征名,新闻数据，手写数字、回归数据集没有

•target_names：标签名,回归数据集没有

from sklearn import datasets
import matplotlib.pyplot as plt

# 加载数据集
iris=datasets.load_iris()
print(iris.data)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.DESCR)

X=iris.data[:,:2]
y=iris.target

# 画图
plt.figure(figsize=(12,8))
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1)

plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.show()

(2) datasets.fetch_<datasets_name>（data_home=None）： •获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是~/scikit_learn_data/

可以通过设置环境变量SCIKIT_LEARN_DATA修改路径

datasets.get_data_home() 获取下载路径

(3) 计算机生成的数据集：sklearn.datasets.make_<datasets_name>()

(4) svmlight/libsvm格式的数据集： sklearn.datasets.load_svmlight_file()

(5) 购买了data.org 在线下载获取的数据集： sklearn.datasets.fetch_mldata()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sklearn之datasets

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

python--內置函數

seaborn.barplot柱狀圖詳說

樸素貝葉斯進行新聞分類

sklearn.model_selection中的train_test_split

sklearn之datasets

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結