sklearn之datasets

sklearn之datasets

sklearn.datasets模块提供了导入、在线下载及本地生成数据集的付费,通过dir或help命令查看:

(1)datasets.load_<dataset_name>() : sklearn自带的小数据集

datasets.load_iris() # 鸢尾花数据集

datasets.load_boston() # 波士顿房价数据集

datasets.load_breast_cancer()  # 乳腺癌数据集

datasets.load_diabets() # 糖尿病数据集

datasets.load_digits() # 手写体数字数据集

datasets.load_linnerud() # 手写体数字数据集

这些数据集都可以在官网上查到,以鸢尾花为例,可以在官网上找到demo:  http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

load*fetch*返回的数据类型datasets.base.Bunch(字典格式)
data:特征数据数组,是 [n_samples * n_features] 的二维

            numpy.ndarray 数组

target:标签数组,是 n_samples 的一维 numpy.ndarray 数组
DESCR:数据描述
feature_names:特征名,新闻数据,手写数字、回归数据集没有
target_names:标签名,回归数据集没有
from sklearn import datasets
import matplotlib.pyplot as plt

# 加载数据集
iris=datasets.load_iris()
print(iris.data)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.DESCR)

X=iris.data[:,:2]
y=iris.target

# 画图
plt.figure(figsize=(12,8))
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1)

plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.show()

(2) datasets.fetch_<datasets_name>(data_home=None) : •获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是~/scikit_learn_data/

可以通过设置环境变量SCIKIT_LEARN_DATA修改路径

datasets.get_data_home() 获取下载路径

(3) 计算机生成的数据集:sklearn.datasets.make_<datasets_name>()

(4) svmlight/libsvm格式的数据集: sklearn.datasets.load_svmlight_file()

(5) 购买了data.org 在线下载获取的数据集: sklearn.datasets.fetch_mldata()

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章