聚類有效性指標（CVI）

原創

2020-06-26 15:28

文章目錄

（一）內部評估

參考

1.定義：

聚類有效性指標（Cluster Validity Index，CVI）：用於度量聚類的效果。
詳細介紹wiki：http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality

2.聚類評估方法介紹

聚類具有隨機性，聚類效果的好壞我們並沒有辦法去判斷，這裏面給出的聚類有效性指標，可以幫助我們在聚類一組數據後對其聚類效果進行度量，然後根據數據的實際意義做出判斷。

聚類評估目前常用的方式有兩大類：內部評估（internal）和外部評估（external），內部評估是彙總得到一個單獨質量分數，外部評估是通過與公知標準作比較。當然，還有人工評估方法（專家），通過評估其在應用中的聚類效果的間接評估。

（一）內部評估

內部評估就是基於聚類數據評估聚類結果。
下面介紹幾種可以用來評估聚類（kmeans算法）質量的內部準則：

Davies-Bouldin index(戴維森堡丁指數，簡稱DB或DBI)

計算公式：
$DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right)$

公式含義：DB爲任意兩個類別的類內距離平均距離之和與兩聚類質心間距之比的最大值

具體解析：

分子：簇內所有點到該簇質心點的平均距離之和
分母 $d(ci,cj)$ ：兩類別質心間的距離
max()最大值部分：選取每組比例中的最大值（即選取最糟糕的一組）
1/n求和部分：將所選比例加和除以類別數

結果意義：DB值越小表示聚類結果同簇內部緊密，不同簇分離較遠。即類內距離越小，類間距離越大。

具體過程：

step1：計算每個聚類d(A)，d(B)，d©的平均內部距離。
step2：計算任意質心間的距離d(A,B)，d(A,C)和d(B,C)。
step3：返回最大比例（任意內部聚類之和與其質心間距之比）

Dunn’s index(鄧恩指數，簡稱DVI)

計算公式：
$D={\frac {\min _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\prime }(k)}}\,,$

公式含義：任意兩簇類間最短距離與任意簇的類內最大距離之比

結果意義：DVI值越大表明聚類結果同簇內部緊密，不同簇分離較遠。即類間距離越大，類內距離越小。

Silhouette index（輪廓指數，簡稱SI）

計算公式：
$s(i) = \frac{b(i) - a(i)}{\max\{a(i),b(i)\}}$
或者是
$s(i) = \left\{\begin{array}{ll} 1-a(i)/b(i), & \text{if } a(i) < b(i) \\ 0, & \text{if } a(i) = b(i) \\ b(i)/a(i)-1, & \text{if } a(i) > b(i) \end{array} \right.$

公式含義：它測量每個模式中自身簇中的模式與其他最近簇中的模式相比的相似程度。

具體解析：

a(i) 表示從模式 i 到所有同一聚類中的每個模式的平均距離;
b(i) 表示從模式 i 到其他聚類中最接近的那個聚類的每個模式的平均距離。

結果意義：SI值越高表示 i 與自身聚類匹配較好，與其他類匹配較差。即類內密集，類間疏散。

缺點：複雜度較大

參考

DBI的代碼思路大家可參考：
https://gist.github.com/StuartGordonReid/7841ab6837e7e84476f3#file-clusteringobjectivefunctions-py
強烈推薦詳細介紹聚類及質量評估等的參考文章：http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality
剩下的外部評估之後再補上。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

聚類有效性指標（CVI）

文章目錄

1.定義：

2.聚類評估方法介紹

（一）內部評估

Davies-Bouldin index(戴維森堡丁指數，簡稱DB或DBI)

Dunn’s index(鄧恩指數，簡稱DVI)

Silhouette index（輪廓指數，簡稱SI）

參考

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

求最大李雅普諾夫指數（Largest Lyapunov Exponents，LLE）的 Rosenstein 算法

學習筆記（2):大數據之Hive-基本查詢

敲黑板！數據分析師的基本素養

學習筆記（1):大數據之Hive-Hive安裝配置和簡單命令

學習筆記（1):大數據之Hive-Hive安裝配置和簡單命令

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結