9.20學習筆記（模型）

原創

2020-07-08 06:12

運用訓練的模型文件進行預測

from sklearn.externals import joblib
import numpy as np
dataset=np.loadtxt(fname="tree.data",delimiter=",")
x_predict=dataset[0:10,0:8]
y_real=dataset[0:10,8]
gnbmodel=joblib.load(filename="Decisiontree.model")
y_predict=gnbmodel.predict(x_predict)
print("預測值")
print(y_predict)
print("真實值")
print(y_real)

結果：
預測值
[1. 1. 1. 0. 1. 0. 1. 0. 1. 1.]
真實值
[1. 1. 1. 0. 1. 0. 1. 0. 1. 1.]

聚類分析：是一個將數據集中後按照相似性劃分爲多個類別（簇）的過程。簇是相似數據的集合
聚類分析是一種無監督分類方法：數據集中的數據沒有預定義的類別標號（無訓練集和訓練過程）
要求：應儘可能保證類別相同的數據之間具有較高的相似性，而類別不同的數據之間具有較低的相似性
可以根據每個簇中樣本的數目獲得數據集中每類數據的大體分佈情況。
1.對數據進行聚類——粗分類
2.對每個簇進行特徵提取和細分類可以有效提高分類精度
常用方法
1.劃分法：以距離作爲數據集中不同數據間的相似性度量，將數據集劃分爲多個簇（K-means，K-medoids）
2.層次法：對給定的數據集進行層次分解，形成一個樹形的聚類結果（自頂向下法，自底向上法）

計算距離
對稱的二值離散型屬性：用簡單匹配係數 SMC=（b+c）/(a+b+c+d)
不對稱的二值離散型屬性：用Jaccard係數 JC=(b+c)/(a+b+c)
不對稱的二值離散型屬性中，屬性取值爲1或者0不是同等重要。

兩個樣本xi=(xi1,xi2…,xid)和xj=(xj1,xj2,…,xjd)如何計算距離
1.簡單匹配方法
d(xi,xj)=(d-u)/d
其中d爲數據集中的屬性個數，u爲xi與xj取值相同的屬性個數
20 44:49

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

9.20學習筆記（模型）

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

2.9學習筆記（西瓜書1）

0302學習筆記（css）

9.17學習筆記（重複值處理、數據清洗）

9.18學習筆記（特徵工程）

9.19學習筆記（數據清洗、建模）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結