机器学习 -- K-MEANS算法(Ⅰ 聚类概述)

        聚类是一种无监督的学习,它将相似的对象归到同一个簇中。聚类分析试图将相似对象归入同一簇,将不相似对象归到不同簇。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。

 

聚类的概念

(1)聚类就是将集合划分成由类(相)似的对象组成的多个类的过程。

(2)聚类分析是研究(样品或指标)分类问题的一种统计分析方法。

(3)聚类所要求划分的类是未知的,一般把它理解为无监督学习。而分类算法是有训练样本的,属于监督学习

 

聚类的典型应用

(1)聚类可以帮助市场分析人员从客户基本信息库中发现不同的客户群;

(2)在生物学上,聚类可以根据生物基因结构,推导出植物和动物的物种分类,从而获得对生物种群固有结构的认识;

(3)聚类还能从地球观测数据库中找到地形、地貌等地理特征相似的区域,提供生物物种或病虫害预警信息;

(4)根据房屋的类型、价值和地理位置等信息对城市房屋进行聚类分组,为客户提供房屋资产评估服务。

 

聚类常见算法分类

(1)划分聚类:大部分方法是基于距离的聚类算法。例如:k-MEANS、k-MEDOIDS、CLARANS等。

(2)层次聚类:例如:BIRCH、CURE、CHAMELEON等。层次聚类可采用“自底向上”或“自顶向下”方案。在“自底向上”方案中,初始时每一个数据纪录都被视作一个单独的簇,接着再把那些相互邻近的簇合并成一个新的簇,直到所有的记录都在一个簇或者满足某个终止条件为止。

(3)密度聚类:该方法是基于(结点)密度的聚类算法,主要算法有:DBSCAN、OPTICS、DENCLUE等。只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。

(4)网格聚类:主要算法有:STING、CLIQUE、WAVE-CLUSTER。将数据空间按某种特征(属性)划分成网格,聚类处理以网格(单元)为基本单位。

 

聚类与分类的区别

        在日常生活中,我们会对生活垃圾进行各种分类,比如可回收垃圾、有害垃圾等,垃圾处理时的“可回收”、“有害”等关键字就是分类的依据。在计算机进行数据处理时,用于分类的关键字被称为标签,通过数据中的标签进行划分就是我们所说的分类算法。那么,如果垃圾本身没有可以记录的标签呢?计算机会根据相似性原则将数据归为数类,这种基于无标签的分类算法就是聚类算法

发布了306 篇原创文章 · 获赞 70 · 访问量 13万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章