聚類有效性指標(CVI)

1.定義:

聚類有效性指標(Cluster Validity Index,CVI):用於度量聚類的效果。
詳細介紹wiki:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality

2.聚類評估方法介紹

聚類具有隨機性,聚類效果的好壞我們並沒有辦法去判斷,這裏面給出的聚類有效性指標,可以幫助我們在聚類一組數據後對其聚類效果進行度量,然後根據數據的實際意義做出判斷。

聚類評估目前常用的方式有兩大類:內部評估(internal)和外部評估(external),內部評估是彙總得到一個單獨質量分數,外部評估是通過與公知標準作比較。當然,還有人工評估方法(專家),通過評估其在應用中的聚類效果的間接評估。

(一)內部評估

內部評估就是基於聚類數據評估聚類結果。
下面介紹幾種可以用來評估聚類(kmeans算法)質量的內部準則:

Davies-Bouldin index(戴維森堡丁指數,簡稱DB或DBI)

計算公式:
DB=1ni=1nmaxji(σi+σjd(ci,cj)) DB={\frac {1}{n}}\sum _{i=1}^{n}\max _{j\neq i}\left({\frac {\sigma _{i}+\sigma _{j}}{d(c_{i},c_{j})}}\right)

公式含義:DB爲任意兩個類別的類內距離平均距離之和與兩聚類質心間距之比的最大值

具體解析:

  • 分子:簇內所有點到該簇質心點的平均距離之和
  • 分母 d(ci,cj)d(ci,cj):兩類別質心間的距離
  • max()最大值部分:選取每組比例中的最大值(即選取最糟糕的一組)
  • 1/n求和部分:將所選比例加和除以類別數

結果意義:DB值越小表示聚類結果同簇內部緊密,不同簇分離較遠。即類內距離越小,類間距離越大。

具體過程:

  • step1:計算每個聚類d(A),d(B),d©的平均內部距離。
  • step2:計算任意質心間的距離d(A,B),d(A,C)和d(B,C)。
  • step3:返回最大比例(任意內部聚類之和與其質心間距之比)

在這裏插入圖片描述

Dunn’s index(鄧恩指數,簡稱DVI)

計算公式:
D=min1i<jnd(i,j)max1knd(k), D={\frac {\min _{1\leq i<j\leq n}d(i,j)}{\max _{1\leq k\leq n}d^{\prime }(k)}}\,,

公式含義:任意兩簇類間最短距離與任意簇的類內最大距離之比

結果意義:DVI值越大表明聚類結果同簇內部緊密,不同簇分離較遠。即類間距離越大,類內距離越小。

Silhouette index(輪廓指數,簡稱SI)

計算公式:
s(i)=b(i)a(i)max{a(i),b(i)} s(i) = \frac{b(i) - a(i)}{\max\{a(i),b(i)\}}
或者是
s(i)={1a(i)/b(i),if a(i)<b(i)0,if a(i)=b(i)b(i)/a(i)1,if a(i)>b(i) s(i) = \left\{\begin{array}{ll} 1-a(i)/b(i), & \text{if } a(i) < b(i) \\ 0, & \text{if } a(i) = b(i) \\ b(i)/a(i)-1, & \text{if } a(i) > b(i) \end{array} \right.

公式含義:它測量每個模式中自身簇中的模式與其他最近簇中的模式相比的相似程度。

具體解析:

  • a(i) 表示從模式 i 到所有同一聚類中的每個模式的平均距離;
  • b(i) 表示從模式 i 到其他聚類中最接近的那個聚類的每個模式的平均距離。

結果意義:SI值越高表示 i 與自身聚類匹配較好,與其他類匹配較差。即類內密集,類間疏散。

缺點:複雜度較大

在這裏插入圖片描述

參考

DBI的代碼思路大家可參考:
https://gist.github.com/StuartGordonReid/7841ab6837e7e84476f3#file-clusteringobjectivefunctions-py
強烈推薦詳細介紹聚類及質量評估等的參考文章:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality
剩下的外部評估之後再補上。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章