数据挖掘——聚类分析

1.K-Means聚类（划分聚类）

算法步骤：
(1) 首先我们选择一些类/组，并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
(2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。
(3) 计算每一类中中心点作为新的中心点。
(4) 重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点，然后选择运行结果最好的一个。

下面演示了K-Means进行分类的过程：

2.凝聚聚类（层次聚类）

算法步骤：

(1). 首先我们将每个数据点视为一个单一的簇，然后选择一个测量两个簇之间距离的度量标准。例如我们使用average linkage 作为标准，它将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。
(2). 在每次迭代中，我们将两个具有最小average linkage的簇合并成为一个簇。
(3). 重复步骤2知道所有的数据点合并成一个簇，然后选择我们需要多少个簇。

层次聚类优点： (1)不需要知道有多少个簇
(2)对于距离度量标准的选择并不敏感
缺点：效率低

下面演示了凝聚聚类进行分类的过程：

3.SOM（Self-Organizing Maps）//单层神经网络（模型聚类）

SOM网络包含输入层和输出层。输入层对应一个高维的输入向量，输出层由一系列组织在2维网格上的有序节点构成，输入节点与输出节点通过权重向量连接。学习过程中，找到与之距离最短的输出层单元，即获胜单元，对其更新。同时，将邻近区域的权值更新，使输出节点保持输入向量的拓扑特征。

算法流程：

(1) 网络初始化，对输出层每个节点权重赋初值;

(2) 将输入样本中随机选取输入向量，找到与输入向量距离最小的权重向量;

(3) 定义获胜单元，在获胜单元的邻近区域调整权重使其向输入向量靠拢;

(4) 提供新样本、进行训练;

(5) 收缩邻域半径、减小学习率、重复，直到小于允许值，输出聚类结果。

4.FCM（模糊C均值算法）（硬聚类里的模糊聚类）

算法流程：

(1) 标准化数据矩阵;

(2) 建立模糊相似矩阵，初始化隶属矩阵;

(3) 算法开始迭代，直到目标函数收敛到极小值;

(4) 根据迭代结果，由最后的隶属矩阵确定数据所属的类，显示最后的聚类结果。

输入：C 聚类簇数

m 柔性指数（越大，越柔，聚类越不明显；越小，越接近HCM/硬聚类）

5.均值漂移聚类（密度聚类）

具体步骤：
(1). 确定滑动窗口半径r，以随机选取的中心点C半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法，在每一次迭代中向密度更高的区域移动，直到收敛。
(2). 每一次滑动到新的区域，计算滑动窗口内的均值来作为中心点，滑动窗口内的点的数量为窗口内的密度。在每一次移动中，窗口会想密度更高的区域移动。
(3). 移动窗口，计算窗口内的中心点以及窗口内的密度，知道没有方向在窗口内可以容纳更多的点，即一直移动到圆内密度不再增加为止。
(4). 步骤一到三会产生很多个滑动窗口，当多个滑动窗口重叠时，保留包含最多点的窗口，然后根据数据点所在的滑动窗口进行聚类。

下图演示了局部窗口与全局多个窗口的均值漂移聚类的计算步骤：

6.高斯混合（GMM）模型聚类

具体步骤：
(1). 选择簇的数量（与K-Means类似）并随机初始化每个簇的高斯分布参数（均值和方差）。也可以先观察数据给出一个相对精确的均值和方差。
(2). 给定每个簇的高斯分布，计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。
(3). 基于这些概率我们计算高斯分布参数使得数据点的概率最大化，可以使用数据点概率的加权来计算这些新的参数，权重就是数据点属于该簇的概率。
(4). 重复迭代2和3直到在迭代中的变化不大。

GMMs的优点：(1)GMMs使用均值和标准差，簇可以呈现出椭圆形而不是仅仅限制于圆形。K-Means是GMMs的一个特殊情况，是方差在所有维度上都接近于0时簇就会呈现出圆形。
(2)GMMs是使用概率，所有一个数据点可以属于多个簇。例如数据点X可以有百分之20的概率属于A簇，百分之 80的概率属于B簇。也就是说GMMs可以支持混合资格。

下面演示了高斯混合（GMM）聚类进行分类的过程：