1.外部指標
將聚類結果與某個“參考模型”進行比較稱爲外部指標。“參考模型”通常是值有專家經驗推出的的模型,或者數據本身有標籤。
將樣本兩兩配對,然後確定4個值:
a爲在參考模型中屬於同一個類且在聚類結果中屬於同一個簇的樣本對的數量。
b爲在參考模型中屬於同一個類且在聚類結果中不在同一個簇的樣本對的數量。
c爲在參考模型中不在同一個類且在聚類結果中屬於同一個簇的樣本對的數量。
d爲在參考模型中不在同一個類且在聚類結果中不在同一個簇的樣本對的數量。
1.1 Jaccard係數(JC)
JC=a+b+ca
1.2 FM指數(FMI)
FMI=a+ba×a+ca
1.3Rand指數(RI)
RI=m(m−1)2(a+d)
m爲樣本總數量
2.內部指標
直接考察聚類的結果,不利用任何參考模型稱爲內部指標
我們先記住4個距離:
avg( C )爲簇內樣本平均距離
diam( C )爲簇內樣本最大聚類
dmin(Ci,Cj)爲簇Ci,Cj之間樣本的最小距離
dcen(Ci,Cj)兩個簇Ci,Cj中心點之間的距離
2.1 DB指數(DBI)
DBI=k1j=1∑kmaxi̸=j(dcen(Ci,Cj)avg(Ci)+avg(Cj))
k爲聚好類後簇的個數DBI越小越好
2.2Dunn指數(DI)
DI=min1≤i≤k{mini̸=jmax1≤l≤kdiam(Cl)dmin(Ci,Cj)}
DI越大越好