分類器的性能評估指標:混淆矩陣、精度、召回率、ROC曲線等等

在使用迴歸器的時候,我們通常用預測結果的準確率來評估模型的優良與否,但該指標並不一定適用於分類器,特別是處理某些偏斜數據集(即某些類比其他類更爲頻繁時)時。

評估分類器性能的更好方法是混淆矩陣。總體思路就是統計A類別實例被分成爲B類別的次數。例如,對於一個0-9數字分類器,要想知道分類器將數字3和數字5混淆多少次,只需要通過混淆矩陣的第5行第3列來查看。
 

下圖是一個二分類器預測結果的混淆矩陣,該分類器的功能是把數字(0-9)分爲5(正)和非5(負)兩類。 

從上圖可知,混淆矩陣由四部分組成:第一行第一列是實例爲負,預測爲負的真負類;第一行第二列是實例爲負,預測爲正的假正類(FP);第二行第一列是實例爲正,預測爲負的假負類(FN);第二行第二列是實例爲正,預測爲正的真正類(TP)。

下面介紹精度、召回率的概念:

精度:precision=TP/(TP+FP) 即可以理解爲在預測爲正的結果中的正確率。

召回率:recall=TP/(TP+FN) 即可理解爲在實際爲正的實例中有多少被預測準確了出來。召回率也稱爲靈敏度(sensitivity)和真正類率(TPR)

F1分數:F1=TP/(TP+(FN+FP)/2) F1分數是將精度和召回率組合而成的新的單一指標。只有當精度和召回率都很高時,才能得到較高的F1分數。

F1分數對那些具有相近的精度和召回率的分類器更爲有利。 這不一定能一直符合你的期望: 在某些情況下, 你更關心的是精度, 而另一些情況下, 你可能真正關心的是召回率。 例如, 假設你訓練一個分類器來檢測兒童可以放心觀看的視頻, 那麼你可能更青睞那種攔截了很多好視頻(低召回率) , 但是保留下來的視頻都是安全(高精度)的分類器, 而不是召回率雖高, 但是在產品中可能會出現一些非常糟糕的視頻的分類器。反過來說,如果你訓練一個分類器通過圖像監控來檢測小偷:你大概可以接受精度只有30%,只要召回率能達到99%(當然,安保人員會收到一些錯誤的警報,但是幾乎所有的竊賊都在劫難逃)。
遺憾的是,魚和熊掌不可兼得:你不能同時增加精度並減少召回率,反之亦然。這稱爲精度/召回率權衡。

要理解這個權衡過程,我們以SGDClassifier爲例,看它如何進行分類決策。對於每個實例,它會基於決策函數計算出一個分值,如果該值大於閾值,則將該實例判爲正類,否則便將其判爲負類。圖3-3顯示了從左邊最低分到右邊最高分的幾個數字。假設決策閾值位於中間箭頭位置(兩個5之間):在閾值的右側可以找到4個真正類(真的5),一個假正類(實際上是6)。因此,在該閾值下,精度爲80%(4/5)。但是在6個真正的5中,分類器僅檢測到了4個,所以召回率爲67%(4/6)。現在,如果提高閾值(將其挪動到右邊箭頭的位置),假正類(數字6)變成了真負類,因此精度得到提升(本例中提升到100%),但是一個真正類變成一個假負類,召回率降低至50%。反之,降低閾值則會在增加召回率的同時降低精度。
 

我們可以繪製一張精度/召回率和決策閾值的函數圖如下:

爲什麼在圖中精度曲線比召回率曲線要崎嶇一些?原因在於,當你提高閾值時,精度有時也有可能會下降(儘管總體趨勢是上升的)。要理解原因,可以回頭看圖3-3,注意,當把閾值從中間箭頭往右移動一位數時:精度從4/5(80%)下降到3/4(75%)。另一方面,當閾值上升時,召回率只會下降,這就解釋了爲什麼召回率的曲線看起來很平滑。現在,就可以通過輕鬆選擇閾值來實現最佳的精度/召回率權衡了。還有一種找到好的精度/召回率權衡的方法是直接繪製精度和召回率的函數圖,如下圖所示:

還有一種經常與二元分類器一起使用的工具,叫作受試者工作特徵曲線(簡稱ROC)。它與精度/召回率曲線非常相似,但繪製的不是精度和召回率,而是真正類率(召回率的另一名稱)和假正類率(FPR)。 FPR是被錯誤分爲正類的負類實例比率。它等於1減去真負類率(TNR),後者是被正確分類爲負類的負類實例比率,也稱爲特異度。因此, ROC曲線繪製的是靈敏度和(1-特異度)的關係。ROC曲線示例如下:

同樣這裏再次面臨一個折中權衡: 召回率(TPR) 越高, 分類器產生的假正類(FPR) 就越多。 虛線表示純隨機分類器的ROC曲線;一個優秀的分類器應該離這條線越遠越好(向左上角) 。

有一種比較分類器的方法是測量曲線下面積AUC,完美的分類器的ROC AUC等於1, 而純隨機分類器的ROC AUC等於0.5。

由於ROC曲線與精度/召回率(或PR) 曲線非常相似, 因此你可能會問如何決定使用哪種曲線。 有一個經驗法則是, 當正類非常少見或者你更關注假正類而不是假負類時, 你應該選擇PR曲線, 反之則是ROC曲線。 例如, 看前面的ROC曲線圖(以及ROC AUC分數) , 你可能會覺得分類器真不錯。 但這主要是因爲跟負類(非5)相比, 正類(數字5) 的數量真得很少。 相比之下, PR曲線清楚地說明分類器還有改進的空間(曲線還可以更接近右上角)。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章