机器学习 -- K-MEANS算法（Ⅰ 聚类概述）

原創

m0_38056893

2020-02-22 11:13

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。聚类分析试图将相似对象归入同一簇，将不相似对象归到不同簇。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。

聚类的概念

（1）聚类就是将集合划分成由类（相）似的对象组成的多个类的过程。

（2）聚类分析是研究（样品或指标）分类问题的一种统计分析方法。

（3）聚类所要求划分的类是未知的，一般把它理解为无监督学习。而分类算法是有训练样本的，属于监督学习。

聚类的典型应用

（1）聚类可以帮助市场分析人员从客户基本信息库中发现不同的客户群；

（2）在生物学上，聚类可以根据生物基因结构，推导出植物和动物的物种分类，从而获得对生物种群固有结构的认识；

（3）聚类还能从地球观测数据库中找到地形、地貌等地理特征相似的区域，提供生物物种或病虫害预警信息；

（4）根据房屋的类型、价值和地理位置等信息对城市房屋进行聚类分组，为客户提供房屋资产评估服务。

聚类常见算法分类

（1）划分聚类：大部分方法是基于距离的聚类算法。例如：k-MEANS、k-MEDOIDS、CLARANS等。

（2）层次聚类：例如：BIRCH、CURE、CHAMELEON等。层次聚类可采用“自底向上”或“自顶向下”方案。在“自底向上”方案中，初始时每一个数据纪录都被视作一个单独的簇，接着再把那些相互邻近的簇合并成一个新的簇，直到所有的记录都在一个簇或者满足某个终止条件为止。

（3）密度聚类：该方法是基于（结点）密度的聚类算法，主要算法有：DBSCAN、OPTICS、DENCLUE等。只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去。

（4）网格聚类：主要算法有：STING、CLIQUE、WAVE-CLUSTER。将数据空间按某种特征（属性）划分成网格，聚类处理以网格（单元）为基本单位。

聚类与分类的区别

在日常生活中，我们会对生活垃圾进行各种分类，比如可回收垃圾、有害垃圾等，垃圾处理时的“可回收”、“有害”等关键字就是分类的依据。在计算机进行数据处理时，用于分类的关键字被称为标签，通过数据中的标签进行划分就是我们所说的分类算法。那么，如果垃圾本身没有可以记录的标签呢？计算机会根据相似性原则将数据归为数类，这种基于无标签的分类算法就是聚类算法。

m0_38056893

发布了306 篇原创文章 · 获赞 70 · 访问量 13万+

私信关注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

机器学习 -- K-MEANS算法（Ⅰ 聚类概述）

聚类的概念

聚类的典型应用

聚类常见算法分类

聚类与分类的区别

tensorflow2實現圖像分類：以貓狗數據集爲案例（上）

VMware tools的重新安裝

使用百度AI接口進行人臉對比（Python SDK V3版本實現）

機器學習 -- 多項式迴歸（Ⅳ 學習曲線）

機器學習 -- 多項式迴歸（Ⅸ L1，L2正則和彈性網）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結