sklearn之datasets

sklearn之datasets

sklearn.datasets模塊提供了導入、在線下載及本地生成數據集的付費,通過dir或help命令查看:

(1)datasets.load_<dataset_name>() : sklearn自帶的小數據集

datasets.load_iris() # 鳶尾花數據集

datasets.load_boston() # 波士頓房價數據集

datasets.load_breast_cancer()  # 乳腺癌數據集

datasets.load_diabets() # 糖尿病數據集

datasets.load_digits() # 手寫體數字數據集

datasets.load_linnerud() # 手寫體數字數據集

這些數據集都可以在官網上查到,以鳶尾花爲例,可以在官網上找到demo:  http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

load*fetch*返回的數據類型datasets.base.Bunch(字典格式)
data:特徵數據數組,是 [n_samples * n_features] 的二維

            numpy.ndarray 數組

target:標籤數組,是 n_samples 的一維 numpy.ndarray 數組
DESCR:數據描述
feature_names:特徵名,新聞數據,手寫數字、迴歸數據集沒有
target_names:標籤名,迴歸數據集沒有
from sklearn import datasets
import matplotlib.pyplot as plt

# 加載數據集
iris=datasets.load_iris()
print(iris.data)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.DESCR)

X=iris.data[:,:2]
y=iris.target

# 畫圖
plt.figure(figsize=(12,8))
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1)

plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.show()

(2) datasets.fetch_<datasets_name>(data_home=None) : •獲取大規模數據集,需要從網絡上下載,函數的第一個參數是data_home,表示數據集下載的目錄,默認是~/scikit_learn_data/

可以通過設置環境變量SCIKIT_LEARN_DATA修改路徑

datasets.get_data_home() 獲取下載路徑

(3) 計算機生成的數據集:sklearn.datasets.make_<datasets_name>()

(4) svmlight/libsvm格式的數據集: sklearn.datasets.load_svmlight_file()

(5) 購買了data.org 在線下載獲取的數據集: sklearn.datasets.fetch_mldata()

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章