分類算法的評估方法

基本術語

常見的模型評價術語,假設分類目標只有兩類,計爲正例(positive)和負例(negtive)則:
1)True positives(TP):被正確地劃分爲正例的個數,即實際爲正例且被分類器劃分爲正例的實例數;
2)False positives(FP):被錯誤地劃分爲正例的個數,即實際爲負例但被分類器劃分爲正例的實例數;
3)False negatives(FN):被錯誤地劃分爲負例的個數,即實際爲正例但被分類器劃分爲負例的實例數;
4)True negatives(TN):被正確地劃分爲負例的個數,即實際爲負例且被分類器劃分爲負例的實例數。

評價指標

1)正確率(accuracy)
正確率是我們最常見的評價指標,accuracy=(TP+TN)/(P+N),正確率是被分對的樣本數在所有樣本數中的佔比,通常來說,正確率越高,分類器越好。

2)錯誤率(error rate)
錯誤率則與正確率相反,描述被分類器錯分的比例,error rate=(FP+FN)/(P+N),對某一個實例來說,分對與分錯是互斥事件,所以accuracy=1-error rate。

3)靈敏度(sensitive)
sensitive=TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。

4)特效度(specificity)
specificity=TN/N,表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力。

5)精度(precision)
精度是精確性的度量,表示被分爲正例的示例中實際爲正例的比例,precision=TP/(TP+FP)。

6)召回率(recall)
召回率是覆蓋面的度量,度量有多個正例被分爲正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。

7)真正例率(ture positive rare),TPR=TP/(TP+FN)

8)假正例率(false positive rare),FPR=FP/(TN+FP)

9) F1 值,也稱爲綜合分類率:F1=2 * precision * recall/(precision+recall),爲了綜合多個類別的分類情況,評測系統整體性能,經常採用的還有微平均F1(micro-averaging)和宏平均F1(macro-averaging)兩種指標。宏平均F1與微平均F1 是以兩種不同的平均方式求的全局的F1指標。其中宏平均 F1 的計算方法先對每個類別單獨計算F1值,再取這些F1值的算術平均值作爲全局指標。而微平均F1的計算方法是先累加計算各個類別的a、b、c、d的值,再由這些值求出F1值。 由兩種平均F1的計算方式不難看出,宏平均F1平等對待每一個類別,所以它的值主要受到稀有類別的影響,而微平均F1平等考慮文檔集中的每一個文檔,所以它的值受到常見類別的影響比較大。

10)PR曲線,橫座標recall,縱座標precision。

11) ROC曲線(Receiver Operating Characteristic),橫座標FPR,縱座標是TPR。對某個分類器而言,其在測試樣本上的表現得到一個TPR和FPR點對,映射成ROC平面上的一個點。調整這個分類器分類時候使用的閾值,可以得到一個經過(0, 0),(1, 1)的曲線,這就是此分類器的ROC曲線。一般情況下,這個曲線都應該處於(0, 0)和(1, 1)連線的上方。因爲(0, 0)和(1, 1)連線形成的ROC曲線實際上代表的是一個隨機分類器。ROC曲線有個很好的特性:當測試集中的正負樣本的分佈變化的時候,ROC曲線能夠保持不變。

12)AUC值(Area Under Curve),定義爲ROC曲線下的面積。由於ROC曲線一般都處於y=x這條直線的上方,所以AUC的取值範圍在0.5和1之間。使用AUC值作爲評價標準是因爲很多時候ROC曲線並不能清晰的說明哪個分類器的效果更好,而作爲一個數值,對應AUC更大的分類器效果更好。

其他評價指標
計算速度:分類器訓練和預測需要的時間;
魯棒性:處理缺失值和異常值的能力;
可擴展性:處理大數據集的能力;
可解釋性:分類器的預測標準的可理解性,像決策樹產生的規則就是很容易理解的,而神經網絡的一堆參數就不好理解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章