聚類評價指標適用條件

根據<<Quality assessment of dimensionality reduction: Rank-based criteria>>總結的聚類指標適用條件

背景：該文章是2010發佈的一遍文獻，介紹了內部聚類的11種方法在不同情況下的適用條件，本文僅記錄以作聚類評價參考

正文

1.文獻中提到的11種聚類內部評價指標及其縮寫與算法：

2.不同因素對聚類效果的影響

補充：測試背景

將K-means算法應用於Wellseparated數據集，並獲得不同數量的聚類的聚類結果。如圖1所示，Wellseparated是一個由五個分離良好的簇組成的合成數據集。

A. The Impact of Monotonicity（單調性的影響）

數據中可見前三個指標（RMSSTD， RS， Γ）都會隨着centers數目的增加而單調增加/減少，後八個則都會達到最大值或者最小值。這三個指標的曲線會隨着centers數目的增加而出現一個折點，稱爲"肘"，在該點達到最佳聚類數。但是，由於換檔點的判斷非常主觀且難以確定，我們不會在後面的章節中討論這三個指標。

B. The Impact of Noise（噪音的影響）

文獻中向Wellseparated數據集添加了5%的噪音，導致聚類的效果如下：

可見D和CH指標分別選擇了4和6爲最佳聚類點，說明在噪音影響下兩者無法良好運行。

C. The Impact of Density（密度的影響）

許多聚類算法對具有不同密度的數據集的聚類通常有一定難度。文獻使用了一個具有不同密度的合成數據集Differentdensity進行實驗，結果中只有S分類錯誤，圖如下：

D. The Impact of Subclusters（子集羣的影響）

子集羣是彼此關閉的集羣。圖4顯示了一個合成數據集子集羣，它包含五個集羣，其中四個是子集羣，因爲它們可以分別形成兩對集羣。表V中的實驗結果評估了內部驗證度量是否可以處理子羣集的數據集。對於數據集子集羣，𝐷，𝑆，𝐷𝐵**，𝑆𝐷和𝑋𝐵得到錯誤的最優簇數，而𝐼，𝐶𝐻和𝑆𝑆表示正確的簇數。當簇數從NC變爲𝑁𝐶+ 1時，簇間分離應該會急劇減少。但是，對於𝐷，𝑆，𝐷𝐵，𝑆𝐷和𝑋𝐵**，可以在𝑁𝐶 < 𝑁𝐶𝑜𝑝𝑡𝑖𝑚𝑎𝑙觀察到更急促的變化。

E. The Impact of Skewed Distributions（偏差分佈的影響）

通常，數據集中的簇具有不相等的大小。圖5顯示了具有偏斜分佈的合成數據集Skewdistribution。它由一個大型集羣和兩個小集羣組成。由於K-means具有均勻的效果，傾向於將對象分成相對相等的大小，因此在處理偏斜的分佈式數據集時它沒有良好的性能。爲了證明這一陳述，我們採用了四種不同類別的四種廣泛使用的算法：K-means（基於原型），DBSCAN（基於密度），Agglo基於averagelink（分層）和Chameleon（基於圖形）。我們將每個數據應用於Skewdistribution並將數據集劃分爲三個集羣，因爲三個是真正的集羣數。如圖6所示，K-means表現最差，而Chameleon是最好的。

在數據集Skewdistribution上進行實驗，以評估具有偏斜分佈的數據集的不同指數的性能。我們使用Chameleon作爲聚類算法。表VI中列出的實驗結果表明，只有𝐶𝐻不能給出正確的最佳簇數。

總結

最終各指標的適用條件如下：

關於每個指標爲什麼在該情況下無法起作用，可以自查文獻。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

聚類評價指標適用條件

根據<<Quality assessment of dimensionality reduction: Rank-based criteria>>總結的聚類指標適用條件

正文

1.文獻中提到的11種聚類內部評價指標及其縮寫與算法：

2.不同因素對聚類效果的影響

補充：測試背景

A. The Impact of Monotonicity（單調性的影響）

B. The Impact of Noise（噪音的影響）

C. The Impact of Density（密度的影響）

D. The Impact of Subclusters（子集羣的影響）

E. The Impact of Skewed Distributions（偏差分佈的影響）

總結

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

Docker（應用篇）

自動化與運維入門（五）——代碼發佈基本知識

聚類評價指標適用條件

七牛雲第三方資源獲取（python）

概率論與數理統計學習筆記三（隨機變量，離散隨機變量分佈函數）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結