机器学习实战笔记-分类

原創

Ouyoung6959

2019-02-03 22:13

k-近邻算法

优点：精度高、对异常值不敏感、无数据输入假定
缺点：计算复杂性高、空间复杂度高
适用数据范围：数值型和标称型
（标称型：目标变量的结果只在有限目标集中取值，如真与假；
数值型：目标变量可以从无限的数值中取值，主要用于回归分析。）
K-近邻算法（KNN）工作原理：存在一个样本数据集合，也称训练样本集，并且样本集中每个数据都存在标签，即我们知道样本数据集每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征样本集数据对应的特征进行比较，然后算出提取样本集中特征最相似的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。
k-近邻算法的一般流程：
（1）收集数据：可以使用任何方法。
（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式。
（3）分析数据：可以使用任何方法
（4）训练算法（此步骤不适用于k-近邻算法）
（5）测试算法：计算错误率
（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

k-近邻算法

欧式距离公式

  '''
    numpy.tile的用法参考
    https://blog.csdn.net/xiahei_d/article/details/52749395
    '''
def classify0(inX , dataSet ,labels ,k):

    #  获取数据集的大小  取的一维数组的大小
    dataSetSize =dataSet.shape[0]
    
	#计算距离  欧式距离格式
   	diffMat = tile( inX ,(dataSetSize,1))-dataSet
    sqDiffMat =diffMat **2
    sqDistances = sqDiffMat.sum( axis =1 )
    distances =sqDistances**0.5
    
    #根据diatances排序 
    #argsort是numpy里的排序方法
    sortedDistances = distances.argsort()
    classCount ={  }
    
    #选择距离最小的k个点
    for i in range(k):
    	#标记当前i个的标签 进行分类
        voteIlabel = labels[sortedDistances[i]]
        classCount[voteIlabel] = classCount.get( voteIlabel,0)+ 1
  	#根据标签进行分类
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

机器学习实战笔记-分类

k-近邻算法

杭州的 IT 崩盘了么？

开源高性能结构化日志模块NanoLog

Python 潮流周刊#55：分享 9 个高质量的技术类信息源！

Azure Virtual Network (22) 多订阅使用Azure DNS解析问题 Windows Azure Platform 系列文章目录

【简写Mybatis-02】注册机的实现以及SqlSession处理

手绘二维码

.NET借助虚拟网卡实现一个简单异地组网工具

Xshell連接不上本地虛擬機

hive數據庫中所有庫、表信息的導出

IDEA Mybatis逆向工程生成 xxx.java(Bean) 、xxxMapper.java(Dao/Mapper) 、xxxMapper.xml

ifconfig看不到ip

python的賦值、copy()、deepcopy()的區別

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結