機器學習評估標準彙總以及在python中的函數調用

原創

2020-04-20 01:22

機器學習評估標準彙總（未完）

聚類性能度量

外部指標

內部指標

參考資料

python環境

聚類性能度量

外部指標

聚類結果與某個參考模型進行比較

$\quad$ 首先，先定義計算用到的數據集。對於數據集 $D=\{x_1,x_2,...,x_n\}$ ，假定通過聚類得出的聚類結果爲 $C=\{c_1,c_2,...c_k\}$ ，每一類的類別標籤爲 $\lambda$ ；參考模型的聚類結果爲 $C^*=\{c^*_1, c^*_2,...,c^*_s\}$ ，類別標籤爲 $\lambda^*$ 。
定義四個集合：
$a=|SS|, SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i=\lambda^*_j,i<j\}$
$b=|SD|, SD=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda^*_i \neq \lambda^*_j,i<j\}$
$c=|DS|, DS=\{(x_i,x_j)|\lambda_i \neq \lambda_j,\lambda^*_i=\lambda^*_j,i<j\}$
$d=|DD|, DD=\{(x_i,x_j)|\lambda_i\neq\lambda_j,\lambda^*_i\neq\lambda^*_j,i<j\}$
$\quad$ 也就是說隨便從數據集中拿出兩個樣本來，那麼這兩個樣本要麼在同一類，要麼不同類，只有這兩種情況。那麼在兩個模型下，就會產生上面的那四種集合。且a+b+c+d=n*(n-1)/2，即無向完全圖邊的數目。

Jaccard係數

$JC=\dfrac{b+c}{a+b+c}$
上述公式是python3.7中實現的公式，表明兩個集合的不相似度。

#python=3.7
import scipy.spatial.distance as dist
a=[1,0,1]                 #將上述集合轉換爲布爾集合，相同爲1，不同爲0
b=[0,1,1]
print(dist.jaccard(a,b))  #結果爲0.6666666666666666

FM指數

$FMI=\sqrt{\dfrac{a}{a+b}\cdot\dfrac{a}{a+c}}$
表示兩個集合的相似度
取值[0,1]，越接近1相似度越大

#python=3.7
from sklearn.metrics.cluster import fowlkes_mallows_score
#輸入分別爲參照模型標籤集合和預測模型標籤集合
fowlkes_mallows_score([2, 2, 1, 1], [1, 1, 2, 2])#1.0
fowlkes_mallows_score([2, 2, 2, 1], [1, 1, 2, 2])#0.408248290463863

內部指標

直接進行聚類評估，不利用任何參考模型

$\quad$ 同樣先定義一些函數：

類C內樣本間的平均距離： $avg(C)=\dfrac{2}{|C|(|C|-1)}\sum_{1\le i \lt j \le|C|}dist(x_i,x_j)$
類內最遠距離： $diam(C)=max_{1\le i\lt j \le|C|}dist(x_i, x_j)$
兩類的最近樣本間距離： $d_{min}(C_i, C_j)=min_{x_i\in C_i,x_j \in C_j }dist(x_i,x_j)$
兩類中心點的距離： $d_{cen}(C_i,C_j)=dist(\mu_i,\mu_j)$

DB指數

$DBI=\dfrac{1}{k}\sum\limits^k_{i=1}max_{j\ne i}(\dfrac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})$
$\quad$ 當聚類中心未給出時，DB指數可以評估模型聚類的優劣。DB指數反映了類間相似度，所以DBI越接近0，說明聚類效果越好

from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score

iris = datasets.load_iris()
X = iris.data       #(150,4) 有四個特徵
kmeans = KMeans(n_clusters=3, random_state=1).fit(X)
labels = kmeans.labels_ #(150,)
davies_bouldin_score(X, labels)#0.6619715465007528

Dunn指數

$DI=min_{1\le i \le k}\{min_{j\ne i}(\dfrac{d_{min}(C_i,C_j)}{\max_{1\le l \le k}diam(C_l)})\}$
$\quad$ python中沒有現成的DI代碼，需要自己造輪子
$\quad$ DI代表了類間的距離關係，值越大越好。

參考資料

[1] : https://scikit-learn.org/stable/modules/classes.html?highlight=ri#module-sklearn.metrics
[2] : 周志華機器學習西瓜書

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習評估標準彙總以及在python中的函數調用

機器學習評估標準彙總（未完）

聚類性能度量

外部指標

Jaccard係數

FM指數

內部指標

DB指數

Dunn指數

參考資料

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

ffmpeg 百度雲盤

最小表示法-解決O(n)找循環字符串最小字典序串

解決Python 下載包慢的問題

Open vSwitch安裝及部署

OpenFlow建立連接交互流程學習

Telegram入門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結