9.20學習筆記(模型)

運用訓練的模型文件進行預測

from sklearn.externals import joblib
import numpy as np
dataset=np.loadtxt(fname="tree.data",delimiter=",")
x_predict=dataset[0:10,0:8]
y_real=dataset[0:10,8]
gnbmodel=joblib.load(filename="Decisiontree.model")
y_predict=gnbmodel.predict(x_predict)
print("預測值")
print(y_predict)
print("真實值")
print(y_real)

結果:
預測值
[1. 1. 1. 0. 1. 0. 1. 0. 1. 1.]
真實值
[1. 1. 1. 0. 1. 0. 1. 0. 1. 1.]

聚類分析:是一個將數據集中後按照相似性劃分爲多個類別(簇)的過程。簇是相似數據的集合
聚類分析是一種無監督分類方法:數據集中的數據沒有預定義的類別標號(無訓練集和訓練過程)
要求:應儘可能保證類別相同的數據之間具有較高的相似性,而類別不同的數據之間具有較低的相似性
可以根據每個簇中樣本的數目獲得數據集中每類數據的大體分佈情況。
1.對數據進行聚類——粗分類
2.對每個簇進行特徵提取和細分類可以有效提高分類精度
常用方法
1.劃分法:以距離作爲數據集中不同數據間的相似性度量,將數據集劃分爲多個簇(K-means,K-medoids)
2.層次法:對給定的數據集進行層次分解,形成一個樹形的聚類結果(自頂向下法,自底向上法)

計算距離
對稱的二值離散型屬性:用簡單匹配係數 SMC=(b+c)/(a+b+c+d)
不對稱的二值離散型屬性:用Jaccard係數 JC=(b+c)/(a+b+c)
不對稱的二值離散型屬性中,屬性取值爲1或者0不是同等重要。

兩個樣本xi=(xi1,xi2…,xid)和xj=(xj1,xj2,…,xjd)如何計算距離
1.簡單匹配方法
d(xi,xj)=(d-u)/d
其中d爲數據集中的屬性個數,u爲xi與xj取值相同的屬性個數
20 44:49

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章