聚類評價指標適用條件

根據<<Quality assessment of dimensionality reduction: Rank-based criteria>>總結的聚類指標適用條件

背景:該文章是2010發佈的一遍文獻,介紹了內部聚類的11種方法在不同情況下的適用條件,本文僅記錄以作聚類評價參考

正文

1.文獻中提到的11種聚類內部評價指標及其縮寫與算法:

在這裏插入圖片描述

2.不同因素對聚類效果的影響

補充:測試背景

將K-means算法應用於Wellseparated數據集,並獲得不同數量的聚類的聚類結果。 如圖1所示,Wellseparated是一個由五個分離良好的簇組成的合成數據集。
在這裏插入圖片描述

A. The Impact of Monotonicity(單調性的影響)

在這裏插入圖片描述
數據中可見前三個指標(RMSSTD, RS, Γ)都會隨着centers數目的增加而單調增加/減少,後八個則都會達到最大值或者最小值。這三個指標的曲線會隨着centers數目的增加而出現一個折點,稱爲"肘",在該點達到最佳聚類數。但是,由於換檔點的判斷非常主觀且難以確定,我們不會在後面的章節中討論這三個指標。

B. The Impact of Noise(噪音的影響)

文獻中向Wellseparated數據集添加了5%的噪音,導致聚類的效果如下:
在這裏插入圖片描述
可見D和CH指標分別選擇了4和6爲最佳聚類點,說明在噪音影響下兩者無法良好運行。

C. The Impact of Density(密度的影響)

許多聚類算法對具有不同密度的數據集的聚類通常有一定難度。文獻使用了一個具有不同密度的合成數據集Differentdensity進行實驗,結果中只有S分類錯誤,圖如下:
在這裏插入圖片描述

D. The Impact of Subclusters(子集羣的影響)

子集羣是彼此關閉的集羣。 圖4顯示了一個合成數據集子集羣,它包含五個集羣,其中四個是子集羣,因爲它們可以分別形成兩對集羣。 表V中的實驗結果評估了內部驗證度量是否可以處理子羣集的數據集。 對於數據集子集羣,𝐷,𝑆,𝐷𝐵**,𝑆𝐷和𝑋𝐵得到錯誤的最優簇數,而𝐼,𝐶𝐻和𝑆𝑆表示正確的簇數。 當簇數從NC變爲𝑁𝐶+ 1時,簇間分離應該會急劇減少。 但是,對於𝐷,𝑆,𝐷𝐵,𝑆𝐷和𝑋𝐵**,可以在𝑁𝐶 < 𝑁𝐶𝑜𝑝𝑡𝑖𝑚𝑎𝑙觀察到更急促的變化。
在這裏插入圖片描述

E. The Impact of Skewed Distributions(偏差分佈的影響)

通常,數據集中的簇具有不相等的大小。 圖5顯示了具有偏斜分佈的合成數據集Skewdistribution。 它由一個大型集羣和兩個小集羣組成。 由於K-means具有均勻的效果,傾向於將對象分成相對相等的大小,因此在處理偏斜的分佈式數據集時它沒有良好的性能。 爲了證明這一陳述,我們採用了四種不同類別的四種廣泛使用的算法:K-means(基於原型),DBSCAN(基於密度),Agglo基於averagelink(分層)和Chameleon( 基於圖形)。 我們將每個數據應用於Skewdistribution並將數據集劃分爲三個集羣,因爲三個是真正的集羣數。 如圖6所示,K-means表現最差,而Chameleon是最好的。
在這裏插入圖片描述
在數據集Skewdistribution上進行實驗,以評估具有偏斜分佈的數據集的不同指數的性能。 我們使用Chameleon作爲聚類算法。 表VI中列出的實驗結果表明,只有𝐶𝐻不能給出正確的最佳簇數。

總結

最終各指標的適用條件如下:
在這裏插入圖片描述
關於每個指標爲什麼在該情況下無法起作用,可以自查文獻。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章