一、什麼是聚類

1.1 聚類的定義

聚類(Clustering)是按照某個特定標準(如距離)把一個數據集分割成不同的類或簇，使得同一個簇內的數據對象的相似性儘可能大，同時不在同一個簇中的數據對象的差異性也儘可能地大。也即聚類後同一類的數據儘可能聚集到一起，不同類數據儘量分離。

1.2 聚類和分類的區別

聚類(Clustering)：是指把相似的數據劃分到一起，具體劃分的時候並不關心這一類的標籤，目標就是把相似的數據聚合到一起，聚類是一種無監督學習(Unsupervised Learning)方法。
分類(Classification)：是需要標註數據是某種具體的類型，通過訓練數據集獲得一個分類器，再通過分類器去預測未知數據的過程，分類是一種監督學習(Supervised Learning)方法。

1.3 聚類的一般過程

數據準備：特徵標準化和降維
特徵選擇：從最初的特徵中選擇最有效的特徵，並將其存儲在向量中
特徵提取：通過對選擇的特徵進行轉換形成新的突出特徵
聚類：基於某種距離函數進行相似度度量，獲取簇
聚類結果評估：分析聚類結果，如SSE等

1.4 數據對象間的相似度度量

對於數值型數據，可以使用下表中的相似度度量方法。

相似度度量準則	相似度度量函數
Euclidean 距離	$d( x, y)=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$
Manhattan 距離	$d(x, y)=\sum_{i=1}^{n}\left \\|x_i-y_i \right\\|$
Chebyshev 距離	$d( x, y)=\max_{i=1,2,…,n}^{n}\left\\|x_i-y_i \right\\|$
Minkowski 距離	$d( x, y)=[\sum_{i=1}^{n}(x_i-y_i)^p]^ {\frac{1}{p}}$

Minkowski距離就是$ Lp $範數（$ p≥1$)，而 Manhattan 距離、Euclidean距離、Chebyshev距離分別對應 $p=1,2,∞$ 時的情形。

1.5 cluster之間的相似度度量

除了需要衡量對象之間的距離之外，有些聚類算法（如層次聚類）還需要衡量cluster之間的距離，假設 $C_i$ 和 $C_j$ 爲兩個 cluster，則前四種方法定義的 $C_i$ 和 $C_j$ 之間的距離如下表所示：

相似度度量準則	相似度度量函數
Single-link	$D(C_i,C_j)= \min_{x\subseteq C_i, y\subseteq C_j}d( x, y)$
Complete-link	$D(C_i,C_j)= \max_{x\subseteq C_i, y\subseteq C_j}d( x, y)$
UPGMA	$D(C_i,C_j)= \frac{1}{\left\\| C_i\right \\|\left \\| C_j\right \\|}\sum_{x\subseteq C_i, y\subseteq C_j}d( x, y)$
WPGMA	-

Single-link定義兩個cluster之間的距離爲兩個cluster之間距離最近的兩個點之間的距離，這種方法會在聚類的過程中產生鏈式效應，即有可能會出現非常大的cluster
Complete-link定義的是兩個cluster之間的距離爲兩個``cluster之間距離最遠的兩個點之間的距離，這種方法可以避免鏈式效應`,對異常樣本點（不符合數據集的整體分佈的噪聲點）卻非常敏感，容易產生不合理的聚類
UPGMA正好是Single-link和Complete-link方法的折中，他定義兩個cluster之間的距離爲兩個cluster之間所有點距離的平均值
最後一種WPGMA方法計算的是兩個 cluster 之間兩個對象之間的距離的加權平均值，加權的目的是爲了使兩個 cluster 對距離的計算的影響在同一層次上，而不受 cluster 大小的影響，具體公式和採用的權重方案有關。

二、數據聚類方法

數據聚類方法主要可以分爲劃分式聚類方法(Partition-based Methods)、基於密度的聚類方法(Density-based methods)、層次化聚類方法(Hierarchical Methods)等。

2.1 劃分式聚類方法

劃分式聚類方法需要事先指定簇類的數目或者聚類中心，通過反覆迭代，直至最後達到"簇內的點足夠近，簇間的點足夠遠"的目標。經典的劃分式聚類方法有k-means及其變體k-means++、bi-kmeans、kernel k-means等。

2.1.2 k-means算法

經典的k-means算法的流程如下：

創建 $k$ 個點作爲初始質心(通常是隨機選擇)

當任意一個點的簇分配結果發生改變時

對數據集中的每個數據點

對每個質心

計算質心與數據點之間的距離

將數據點分配到距其最近的簇

對每個簇，計算簇中所有點的均值並將均值作爲質心

經典k-means源代碼，下左圖是原始數據集，通過觀察發現大致可以分爲4類，所以取 $k=4$ ，測試數據效果如下右圖所示。

看起來很順利，但事情並非如此，我們考慮k-means算法中最核心的部分，假設 $x_i(i=1,2,…,n)$ 是數據點， $\mu_j(j=1,2,…,k)$ 是初始化的數據中心，那麼我們的目標函數可以寫成
$\min\sum_{i=1}^{n} \min \limits_{j=1,2,...,k}\left |\left | x_i -\mu_j\right | \right |^2$
這個函數是非凸優化函數，會收斂於局部最優解，可以參考證明過程。舉個🌰， $\mu_1=\left [ 1,1\right ] ,\mu_2=\left [ -1,-1\right ]$ ，則
$z=\min \limits_{j=1,2}\left |\left | x_i -\mu_j\right | \right |^2$
該函數的曲線如下圖所示

可以發現該函數有兩個局部最優點，當時初始質心點取值不同的時候，最終的聚類效果也不一樣，接下來我們看一個具體的實例。

在這個例子當中，下方的數據應該歸爲一類，而上方的數據應該歸爲兩類，這是由於初始質心點選取的不合理造成的誤分。而 $k$ 值的選取對結果的影響也非常大，同樣取上圖中數據集，取 $k=2,3,4$ ，可以得到下面的聚類結果：

一般來說，經典k-means算法有以下幾個特點：

需要提前確定 $k$ 值
對初始質心點敏感
對異常數據敏感

2.1.2 k-means++算法

k-means++是針對k-means中初始質心點選取的優化算法。該算法的流程和k-means類似，改變的地方只有初始質心的選取，該部分的算法流程如下

隨機選取一個數據點作爲初始的聚類中心

當聚類中心數量小於 $k$

計算每個數據點與當前已有聚類中心的最短距離，用 $D(x)$ 表示，這個值越大，表示被選取爲下一個聚類中心的概率越大，最後使用輪盤法選取下一個聚類中心

k-means++源代碼，使用k-means++對上述數據做聚類處理，得到的結果如下

2.1.3 bi-kmeans算法

一種度量聚類效果的指標是SSE(Sum of Squared Error)，他表示聚類後的簇離該簇的聚類中心的平方和，SSE越小，表示聚類效果越好。 bi-kmeans是針對kmeans算法會陷入局部最優的缺陷進行的改進算法。該算法基於SSE最小化的原理，首先將所有的數據點視爲一個簇，然後將該簇一分爲二，之後選擇其中一個簇繼續進行劃分，選擇哪一個簇進行劃分取決於對其劃分是否能最大程度的降低SSE的值。

該算法的流程如下：

將所有點視爲一個簇

當簇的個數小於 $k$ 時

對每一個簇

計算總誤差

在給定的簇上面進行k-means聚類( $k=2$ )

計算將該簇一分爲二之後的總誤差

選取使得誤差最小的那個簇進行劃分操作

bi-kmeans算法源代碼，利用bi-kmeans算法處理上節中的數據得到的結果如下圖所示。

這是一個全局最優的方法，所以每次計算出來的SSE值肯定也是一樣的，我們和前面的k-means、k-means++比較一下計算出來的SSE值

序號	k-means	k-means++	bi-kmeans
1	2112	120	106
2	388	125	106
3	824	127	106
agv	1108	124	106

可以看到，k-means每次計算出來的SSE都較大且不太穩定，k-means++計算出來的SSE較穩定並且數值較小，而bi-kmeans每次計算出來的SSE都一樣(因爲是全局最優解)並且計算的SSE都較小，說明聚類的效果也最好。

2.2 基於密度的方法

k-means算法對於凸性數據具有良好的效果，能夠根據距離來講數據分爲球狀類的簇，但對於非凸形狀的數據點，就無能爲力了，當k-means算法在環形數據的聚類時，我們看看會發生什麼情況。

從上圖可以看到，kmeans聚類產生了錯誤的結果，這個時候就需要用到基於密度的聚類方法了，該方法需要定義兩個參數 $\varepsilon$ 和 $M$ ，分別表示密度的鄰域半徑和鄰域密度閾值。DBSCAN就是其中的典型。

2.2.1 DBSCAN算法

首先介紹幾個概念，考慮集合 $X=\left \{x^{(1)},x^{(2)},...,x^{(n)}\right \}$ ， $\varepsilon$ 表示定義密度的鄰域半徑，設聚類的鄰域密度閾值爲 $M$ ，有以下定義：

$\varepsilon$ 鄰域( $\varepsilon$ -neighborhood）

$N_{\varepsilon }(x)=\left \{y\in X|d(x, y) < \varepsilon \right \}$

密度(desity)
$x$ 的密度爲
$\rho (x)=\left | N_{\varepsilon }(x)\right |$
核心點(core-point)

設 $x\in X$ ，若 $\rho (x) \geq M$ ，則稱 $x$ 爲 $X$ 的核心點，記 $X$ 中所有核心點構成的集合爲 $X_c$ ，記所有非核心點構成的集合爲 $X_{nc}$ 。

邊界點(border-point)

若 $x\in X_{nc}$ ，且 $\exists y\in X$ ，滿足
$y\in N_{\varepsilon }(x) \cap X_c$
即 $x$ 的 $\varepsilon$ 鄰域中存在覈心點，則稱 $x$ 爲 $X$ 的邊界點，記 $X$ 中所有的邊界點構成的集合爲 $X_{bd}$ 。

此外，邊界點也可以這麼定義：若 $x\in X_{nc}$ ，且 $x$ 落在某個核心點的 $\varepsilon$ 鄰域內，則稱 $x$ 爲 $X$ 的一個邊界點，一個邊界點可能同時落入一個或多個核心點的 $\varepsilon$ 鄰域。

噪聲點(noise-point)

若 $x$ 滿足
$x\in X,x \notin X_{c}並且 x \notin X_{bd}$
則稱 $x$ 爲噪聲點。

如下圖所示，設 $M=3$ ，則A爲核心點，B、C是邊界點，而N是噪聲點。

該算法的流程如下：

標記所有對象爲unvisited

當有標記對象時

隨機選取一個unvisited對象 $p$

標記 $p$ 爲visited

如果 $p$ 的$\varepsilon $鄰域內至少有$ M$個對象，則

創建一個新的簇 $C$ ，並把 $p$ 放入 $C$ 中

設 $N$ 是 $p$ 的$\varepsilon $鄰域內的集合，對$ N $中的每個點$ p’$

如果點 $p'$ 是unvisited

標記 $p'$ 爲visited

如果 $p'$ 的$\varepsilon $鄰域至少有$ M $個對象，則把這些點添加到$ N$

如果 $p'$ 還不是任何簇的成員，則把 $p'$ 添加到 $C$

輸出 $C$

否則標記 $p$ 爲噪聲

構建 $\varepsilon$ 鄰域的過程可以使用kd-tree進行優化，循環過程可以使用Numba、Cython、C進行優化，DBSCAN的源代碼，使用該節一開始提到的數據集，聚類效果如下

聚類的過程示意圖

當設置不同的 $\varepsilon$ 時，會產生不同的結果，如下圖所示

當設置不同的 $M$ 時，會產生不同的結果，如下圖所示

一般來說，DBSCAN算法有以下幾個特點：

需要提前確定 $\varepsilon$ 和 $M$ 值
不需要提前設置聚類的個數
對初值選取敏感，對噪聲不敏感
對密度不均的數據聚合效果不好

2.2.2 OPTICS算法

在DBSCAN算法中，使用了統一的 $\varepsilon$ 值，當數據密度不均勻的時候，如果設置了較小的 $\varepsilon$ 值，則較稀疏的cluster中的節點密度會小於 $M$ ，會被認爲是邊界點而不被用於進一步的擴展；如果設置了較大的 $\varepsilon$ 值，則密度較大且離的比較近的cluster容易被劃分爲同一個cluster，如下圖所示。

如果設置的 $\varepsilon$ 較大，將會獲得A,B,C這3個cluster
如果設置的 $\varepsilon$ 較小，將會只獲得C1、C2、C3這3個cluster

對於密度不均的數據選取一個合適的 $\varepsilon$ 是很困難的，對於高維數據，由於維度災難(Curse of dimensionality), $\varepsilon$ 的選取將變得更加困難。

怎樣解決DBSCAN遺留下的問題呢？

The basic idea to overcome these problems is to run an algorithm which produces a special order of the database with respect to its density-based clustering structure containing the information about every clustering level of the data set (up to a “generating distance” $\varepsilon$ ), and is very easy to analyze.

即能夠提出一種算法，使得基於密度的聚類結構能夠呈現出一種特殊的順序，該順序所對應的聚類結構包含了每個層級的聚類的信息，並且便於分析。

OPTICS(Ordering Points To Identify the Clustering Structure, OPTICS)實際上是DBSCAN算法的一種有效擴展，主要解決對輸入參數敏感的問題。即選取有限個鄰域參數 $\varepsilon _i( 0 \leq\varepsilon_{i} \leq \varepsilon)$ 進行聚類，這樣就能得到不同鄰域參數下的聚類結果。

在介紹OPTICS算法之前，再擴展幾個概念。

核心距離(core-distance)

樣本 $x∈X$ ，對於給定的 $\varepsilon$ 和 $M$ ，使得 $x$ 成爲核心點的最小鄰域半徑稱爲 $x$ 的核心距離，其數學表達如下
$cd(x)=\left\{\begin{matrix} UNDEFINED, \left | N_{\varepsilon }(x)\right |< M\\ d(x,N_{\varepsilon }^{M}(x)), \left | N_{\varepsilon }(x)\right | \geqslant M \end{matrix}\right.$

其中， $N_{\varepsilon }^{i}(x)$ 表示在集合 $N_{\varepsilon }(x)$ 中與節點 $x$ 第 $i$ 近鄰的節點，如 $N_{\varepsilon }^{1}(x)$ 表示 $N_{\varepsilon }(x)$ 中與 $x$ 最近的節點，如果 $x$ 爲核心點，則必然會有 $cd(x) \leq\varepsilon$ 。

可達距離(reachability-distance)

設 $x,y∈X$ ，對於給定的參數 $\varepsilon和$ $M$ ， $y$ 關於 $x$ 的可達距離定義爲
$rd(y,x)=\left\{\begin{matrix} UNDEFINED, \left | N_{\varepsilon }(x)\right |< M\\ \max{\{cd(x),d(x,y)\}}, \left| N_{\varepsilon }(x)\right | \geqslant M \end{matrix}\right.$
特別地，當 $x$ 爲核心點時，可以按照下式來理解 $rd(x,y)$ 的含義
$rd(x,y)=\min\{\eta:y \in N_{\eta}(x) 並且 \left|N_{\eta}(x)\right| \geq M\}$
即 $rd(x,y)$ 表示使得**“ $x$ 爲核心點"且" $y$ 從 $x$ 直接密度可達”**同時成立的最小鄰域半徑。

可達距離的意義在於衡量 $y$ 所在的密度，密度越大，他從相鄰節點直接密度可達的距離越小，如果聚類時想要朝着數據儘量稠密的空間進行擴張，那麼可達距離最小是最佳的選擇。

舉例，下圖中假設 $M=3$ ，半徑是 $ε$ 。那麼 $P$ 點的核心距離是 $d(1,P)$ ，點2的可達距離是 $d(1,P)$ ，點3的可達距離也是 $d(1,P)$ ，點4的可達距離則是 $d(4,P)$ 的距離。

OPTICS源代碼，算法流程如下：

標記所有對象爲unvisited，初始化order_list爲空

當有標記對象時

隨機選取一個unvisited對象 $i$

標記 $i$ 爲visited，插入結果序列order_list中

如果 $i$ 的 $\varepsilon$ 鄰域內至少有 $M$ 個對象，則

初始化seed_list種子列表

調用insert_list()，將鄰域對象中未被訪問的節點按照可達距離插入隊列seeld_list中

當seed_list列表不爲空

按照可達距離升序取出seed_list中第一個元素 $j$

標記 $j$ 爲visited，插入結果序列order_list中

如果 $j$ 的 $\varepsilon$ 鄰域內至少有 $M$ 個對象，則

調用insert_list()，將鄰域對象中未被訪問的節點按照可達距離插入隊列seeld_list中

算法中有一個很重要的insert_list()函數，這個函數如下：

對 $i$ 中所有的鄰域點 $k$

如果 $k$ 未被訪問過

計算 $rd(k,i)$

如果 $r_k=UNDEFINED$

$r_k=rd(k,i)$

將節點 $k$ 按照可達距離插入seed_list中

否則

如果 $rd(k,i)<r_k$

更新 $r_k$ 的值，並按照可達距離重新插入seed_list中

該算法最終獲取知識是一個輸出序列，該序列按照密度不同將相近密度的點聚合在一起，而不是輸出該點所屬的具體類別，如果要獲取該點所屬的類型，需要再設置一個參數 $\varepsilon'(\varepsilon' \leq \varepsilon)$ 提取出具體的類別。這裏我們舉一個例子就知道是怎麼回事了。

隨機生成三組密度不均的數據，我們使用DBSCAN和OPTICS來看一下效果。

OPTICS算法輸出序列的過程：

可見，OPTICS第一步生成的輸出序列較好的保留了各個不同密度的簇的特徵，根據輸出序列的可達距離圖，再設定一個合理的 $\varepsilon'$ ，便可以獲得較好的聚類效果。

2.3 層次化聚類方法

前面介紹的幾種算法確實可以在較小的複雜度內獲取較好的結果，但是這幾種算法卻存在一個鏈式效應的現象，比如：A與B相似，B與C相似，那麼在聚類的時候便會將A、B、C聚合到一起，但是如果A與C不相似，就會造成聚類誤差，嚴重的時候這個誤差可以一直傳遞下去。爲了降低鏈式效應，這時候層次聚類就該發揮作用了。

層次聚類算法 (hierarchical clustering) 將數據集劃分爲一層一層的 clusters，後面一層生成的 clusters 基於前面一層的結果。層次聚類算法一般分爲兩類：

Agglomerative 層次聚類：又稱自底向上（bottom-up）的層次聚類，每一個對象最開始都是一個 cluster，每次按一定的準則將最相近的兩個 cluster 合併生成一個新的 cluster，如此往復，直至最終所有的對象都屬於一個 cluster。這裏主要關注此類算法。
Divisive 層次聚類：又稱自頂向下（top-down）的層次聚類，最開始所有的對象均屬於一個 cluster，每次按一定的準則將某個 cluster 劃分爲多個 cluster，如此往復，直至每個對象均是一個 cluster。

另外，需指出的是，層次聚類算法是一種貪心算法（greedy algorithm），因其每一次合併或劃分都是基於某種局部最優的選擇。

2.3.1 Agglomerative算法

給定數據集 $X=\left \{x^{(1)},x^{(2)},...,x^{(n)}\right \}$ ，Agglomerative層次聚類最簡單的實現方法分爲以下幾步：

初始時每個樣本爲一個 cluster，計算距離矩陣 $D$ ，其中元素 $D_{ij}$ 爲樣本點 $D_i$ 和 $D_j$ 之間的距離；

遍歷距離矩陣 $D$ ，找出其中的最小距離（對角線上的除外），並由此得到擁有最小距離的兩個 cluster 的編號，將這兩個 cluster 合併爲一個新的 cluster 並依據 cluster距離度量方法更新距離矩陣 $D$ （刪除這兩個 cluster 對應的行和列，並把由新 cluster 所算出來的距離向量插入 $D$ 中），存儲本次合併的相關信息；

重複 2 的過程，直至最終只剩下一個 cluster 。

Agglomerative算法源代碼，可以看到，該算法的時間複雜度爲 $O(n^3)$ （由於每次合併兩個 cluster 時都要遍歷大小爲 $O(n^2)$ 的距離矩陣來搜索最小距離，而這樣的操作需要進行 $n−1$ 次），空間複雜度爲 $O(n^2)$ （由於要存儲距離矩陣）。

上圖中分別使用了層次聚類中4個不同的cluster度量方法，可以看到，使用single-link確實會造成一定的鏈式效應，而使用complete-link則完全不會產生這種現象，使用average-link和ward-link則介於兩者之間。

2.4 聚類方法比較

算法類型	適合的數據類型	抗噪點性能	聚類形狀	算法效率
kmeans	數值型	較差	球形	很高
k-means++	數值型	一般	球形	較高
bi-kmeans	數值型	一般	球形	較高
DBSCAN	數值型	較好	任意形狀	一般
OPTICS	數值型	較好	任意形狀	一般
Ag glomerative	混合型	較好	任意形狀	較差

三、參考文獻

[1] 李航.統計學習方法

[2] Peter Harrington.Machine Learning in Action/李銳.機器學習實戰

[3] https://www.zhihu.com/question/34554321

[4] T. Soni Madhulatha.AN OVERVIEW ON CLUSTERING METHODS

[5] https://zhuanlan.zhihu.com/p/32375430

[6] http://heathcliff.me/聚類分析（一）：層次聚類算法

[7] https://www.cnblogs.com/tiaozistudy/p/dbscan_algorithm.html

[8] https://blog.csdn.net/itplus/article/details/10089323

[9] Mihael Ankerst.OPTICS: ordering points to identify the clustering structure

帶你重溫聚類方法

目錄

文章目錄