scikit-learn是python中常見的機器學習庫,簡寫爲sklearn
sklearn包含很多機器學習方式
- Classification 分類
- Regression 迴歸
- Clustering 非監督分類
- Dimensionality reduction 數據降維
- Model Selection 模型選擇
- Preprocessing 數據預處理
使用模型的步驟
- 導入模塊
- 創建數據
- 建立模型,訓練,預測
KNN
from sklearn import datasets
from __future__ import print_function
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#2.創建數據
#加載數據 sklearn自帶了很多數據庫
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
#查看數據
print(iris_X[:2,:])
print(iris_y)
#將數據集分爲訓練集和測試集 設置測試數據集佔0.3
x_train,x_test,y_train,y_test = train_test_split(iris_X,iris_y,test_size=0.3)
print(y_train)#可以看到分開後的數據集,順序也被打亂,這樣更有利於學習模型
#建立模型-訓練-預測
knn = KNeighborsClassifier()
knn.fit(x_train,y_train)
print(knn.predict(x_test))
print(y_test)