分類器性能評價

問題由來

以郵件分類爲例：
我們可以忍受收件箱中偶爾出現的垃圾郵件，但是絕不能忍受，合法郵件被誤扔如垃圾郵件夾中，萬一這是一封女神or男神的表白信，這豈不是因此錯過了一段曠世姻緣？

一、分類器性能度量指標

在之前，我們都是基於錯誤率來衡量分類器任務的成功程度的。錯誤率指的是在所有測試樣本中錯分的樣本比例。實際上，這樣的度量錯誤掩蓋了樣例如何被錯分的事實。在機器學習中，有一個普遍適用的稱爲混淆矩陣（confusion matrix）的工具，它可以幫助人們更好地瞭解分類中的錯誤。有這樣一個關於在房子周圍可能發現的動物類型的預測：

利用混淆矩陣就可以更好地理解分類中的錯誤了。如果矩陣中的非對角元素均爲0，就會得到一個完美的分類器。

接下來，我們考慮另外一個混淆矩陣，這次的矩陣只針對一個簡單的二類問題。混淆矩陣如下圖所示：

可以看到，在這個二分類問題中，如果對一個正例正確地判爲正例，那麼就可以認爲產生了一個真正例（True Positive，TP，也稱真陽）；如果對一個反例正確地判爲反例，則認爲產生了一個真反例（True Negative，TN，也稱真陰）；如果對一個正例錯誤地判爲反例，那麼就可以認爲產生了一個僞反例（False Negative，FN，爲稱假陰）；如果對一個反例錯誤地判爲正例，則認爲產生了一個僞正例（False Positive，FP，也稱假陽）。

在分類中，當某個類別的重要性高於其他類別時，我們就可以來利用上述定義來定義出多個比錯誤率更好的指標。從混淆矩陣中，可以衍生出各種評價指標：

除了上述的評價指標，另一個用於度量分類中的非均衡的工具是ROC曲線（ROC curve。

二、ROC與AUC介紹

我們可以看到有兩個輸出結果，一個是AUC面積，另一個ROC曲線圖。

先解釋ROC，圖中的橫座標是僞正例的比例（假陽率=FP/（FP+TN）），
而縱座標是真正例的比例（真陽率=TP/（TP+FN））。ROC曲線給出的是當閾值變化時假陽率和真陽率的變化情況。
左下角的點所對應的將所有樣例判爲反例的情況，而右上角的點對應的則是將所有樣例判爲正例的情況。
虛線（對角線）給出的是隨機猜測的結果曲線。

因此，橫座標越小越好，縱座標越大越好。

在理想的情況下，最佳的分類器應該儘可能地處於左上角，這就意味着分類器在假陽率很低的同時獲得了很高的真陽率。例如在垃圾郵件的過濾中，就相當於過濾了所有的垃圾郵件，但沒有將任何合法郵件誤識別爲垃圾郵件而放入垃圾郵件額文件夾中。

對不同的ROC曲線進行比較的一個指標是曲線下的面積（Area Unser the Curve，AUC）。AUC給出的是分類器的平均性能值，當然它並不能完全代替對整條曲線的觀察。一個完美分類器的ACU爲1.0，而隨機猜測的AUC則爲0.5。

這個ROC曲線是怎麼畫的呢？

現在假設我們已經得到了所有樣本的概率輸出（屬於正樣本的概率），我們根據每個測試樣本屬於正樣本的概率值從大到小排序。如下圖所示：

圖中共有20個測試樣本，“Inst”一欄表示樣本編號，“Class”一欄表示每個測試樣本真正的標籤（p表示正樣本，n表示負樣本），“Score”表示每個測試樣本屬於正樣本的概率。其中，一共10個正樣本，10個負樣本。接下來，我們從高到低，依次將“Score”值作爲閾值，當測試樣本屬於正樣本的概率大於或等於這個threshold時，我們認爲它爲正樣本，否則爲負樣本。