9.20学习笔记（模型）

原創

2020-07-08 06:12

运用训练的模型文件进行预测

from sklearn.externals import joblib
import numpy as np
dataset=np.loadtxt(fname="tree.data",delimiter=",")
x_predict=dataset[0:10,0:8]
y_real=dataset[0:10,8]
gnbmodel=joblib.load(filename="Decisiontree.model")
y_predict=gnbmodel.predict(x_predict)
print("预测值")
print(y_predict)
print("真实值")
print(y_real)

结果：
预测值
[1. 1. 1. 0. 1. 0. 1. 0. 1. 1.]
真实值
[1. 1. 1. 0. 1. 0. 1. 0. 1. 1.]

聚类分析：是一个将数据集中后按照相似性划分为多个类别（簇）的过程。簇是相似数据的集合
聚类分析是一种无监督分类方法：数据集中的数据没有预定义的类别标号（无训练集和训练过程）
要求：应尽可能保证类别相同的数据之间具有较高的相似性，而类别不同的数据之间具有较低的相似性
可以根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。
1.对数据进行聚类——粗分类
2.对每个簇进行特征提取和细分类可以有效提高分类精度
常用方法
1.划分法：以距离作为数据集中不同数据间的相似性度量，将数据集划分为多个簇（K-means，K-medoids）
2.层次法：对给定的数据集进行层次分解，形成一个树形的聚类结果（自顶向下法，自底向上法）

计算距离
对称的二值离散型属性：用简单匹配系数 SMC=（b+c）/(a+b+c+d)
不对称的二值离散型属性：用Jaccard系数 JC=(b+c)/(a+b+c)
不对称的二值离散型属性中，属性取值为1或者0不是同等重要。

两个样本xi=(xi1,xi2…,xid)和xj=(xj1,xj2,…,xjd)如何计算距离
1.简单匹配方法
d(xi,xj)=(d-u)/d
其中d为数据集中的属性个数，u为xi与xj取值相同的属性个数
20 44:49

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

flink 1.11 发布了，聊聊自己的工作和开源

flink 1.11 版本發佈了.有幸給flink貢獻了幾個PR，第一次讓名字出現在了apache的官方網站上。 https://flink.apache.org/news/2020/07/06/release-1.11.0.ht

大数据技术与应用实战

2020-07-08 11:07:06

Flink教程-flink 1.11使用sql将流式数据写入文件系统

文章目錄滾動策略分區提交分區提交觸發器分區時間的抽取分區提交策略完整示例定義實體類自定義source寫入file flink提供了一個file system connector，可以使用DDL創建一個table，然後使用sql的方

大数据技术与应用实战

2020-07-08 11:07:06

Flink教程-flink 1.11 流式数据ORC格式写入file

文章目錄StreamingFileSink簡介寫入orc工廠類向量化操作構造OrcBulkWriterFactory實例講解構造source構造OrcBulkWriterFactory構造StreamingFileSink 在fl

大数据技术与应用实战

2020-07-08 11:07:06

Honeywell YJ4620 优解4620 使用教程地址

http://www.vizidi.com/youjie/yj4620.html http://www.lvscan.cn/Cp_1-433.html https://www.baidu.com/s?ie=utf-8&f=8&

2020-07-08 09:49:03

安卓7.0及以上版本抓包https问题

文章目錄現象原因解決辦法webview抓包失敗警告現象 android7.0以上的手機https抓包失敗(安裝了https證書也不行) 原因 android7.0+的版本新增了證書驗證(系統證書) 解決辦法前提：在手機端和電腦

2020-07-08 06:35:24

9.17学习笔记（重复值处理、数据清洗）

pandas的duplicated()判斷重複值記錄 pandas的drop_duplicates()刪除數據記錄，可指定特定列或全部 numpy中unique()返回所有不同的值，且按照從小到大的順序 set()，python自

2020-07-08 06:12:59

9.18学习笔记（特征工程）

import re #加載正則表達式庫 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns fr

2020-07-08 06:12:59

9.19学习笔记（数据清洗、建模）

數據清洗完整代碼 import re #加載正則表達式庫 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn

2020-07-08 06:12:59

9.24学习笔记（异常分析）

基本思想：聚類分析思想將數據集中的數據看作多維空間中的點（特徵向量）孤立點是數據集中與大多數數據的距離都超過某個閾值的那些數據優點：在不值得數據分佈的情況下也能進行孤立點分析缺點：閾值很難選取，並且當數據集和維度較大時，

2020-07-08 06:12:59

200706干活笔记（修智能日志）

python python分割多空格字符串長度不同的空格分割的字符串，如果直接用str.split(" ")只會分割一個空格直接用split()就好，它會默認按空格分割並把結果中的空字符串刪掉。 linux 複製文件 cp d

2020-07-08 06:12:48

mathtype安装参考链接

官方參考1、參考2、參考3

2020-07-08 05:38:17

版本查询常用命令

常用命令 which python （查詢python安裝地址） python -V 或 python --version （查詢python版本） pip -V （查詢pip版本） nvidia-smi （顯示顯卡型號等，

2020-07-08 05:38:17

Mac安装Clion

安裝Clion 參考Ubuntu下安裝pycharm，同爲jetbrains下的軟件（Mac下） 1、官網下載安裝包 2、打開下載好的CLion-2019.2.dmg，直接拖入Applications完成安裝 3、打開安

2020-07-08 05:38:17

logback的使用与配置教程

logback指南（A Guide To Logback) 1. 總體介紹（Overview） logback是java社區使用最廣泛的日誌框架之一。它是Log4j的繼任者。相對於Log4j，logback實現了更好的性能、提供了

hexin13666113593

2020-07-08 01:13:49

《Tensorflow中文社区教程》笔记

文|Seraph 01 | 新手入門一、介紹平面擬合代碼 import tensorflow as tf import numpy as np # 使用 NumPy 生成假數據(phony data), 總共 100 個

2020-07-08 00:56:51

24小時熱門文章

最新文章

最新評論文章