sklearn之datasets
sklearn.datasets模塊提供了導入、在線下載及本地生成數據集的付費,通過dir或help命令查看:
(1)datasets.load_<dataset_name>() : sklearn自帶的小數據集
datasets.load_iris() # 鳶尾花數據集
datasets.load_boston() # 波士頓房價數據集
datasets.load_breast_cancer() # 乳腺癌數據集
datasets.load_diabets() # 糖尿病數據集
datasets.load_digits() # 手寫體數字數據集
datasets.load_linnerud() # 手寫體數字數據集
這些數據集都可以在官網上查到,以鳶尾花爲例,可以在官網上找到demo: http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
numpy.ndarray 數組
from sklearn import datasets
import matplotlib.pyplot as plt
# 加載數據集
iris=datasets.load_iris()
print(iris.data)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)
print(iris.DESCR)
X=iris.data[:,:2]
y=iris.target
# 畫圖
plt.figure(figsize=(12,8))
plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.Set1)
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.show()
(2) datasets.fetch_<datasets_name>(data_home=None) : •獲取大規模數據集,需要從網絡上下載,函數的第一個參數是data_home,表示數據集下載的目錄,默認是~/scikit_learn_data/
可以通過設置環境變量SCIKIT_LEARN_DATA修改路徑
datasets.get_data_home() 獲取下載路徑
(3) 計算機生成的數據集:sklearn.datasets.make_<datasets_name>()
(4) svmlight/libsvm格式的數據集: sklearn.datasets.load_svmlight_file()
(5) 購買了data.org 在線下載獲取的數據集: sklearn.datasets.fetch_mldata()