分類器的性能評估指標：混淆矩陣、精度、召回率、ROC曲線等等

原創

weixin_43692562

2018-11-28 13:17

在使用迴歸器的時候，我們通常用預測結果的準確率來評估模型的優良與否，但該指標並不一定適用於分類器，特別是處理某些偏斜數據集（即某些類比其他類更爲頻繁時）時。

評估分類器性能的更好方法是混淆矩陣。總體思路就是統計A類別實例被分成爲B類別的次數。例如，對於一個0-9數字分類器，要想知道分類器將數字3和數字5混淆多少次，只需要通過混淆矩陣的第5行第3列來查看。

下圖是一個二分類器預測結果的混淆矩陣，該分類器的功能是把數字（0-9）分爲5（正）和非5（負）兩類。

從上圖可知，混淆矩陣由四部分組成：第一行第一列是實例爲負，預測爲負的真負類；第一行第二列是實例爲負，預測爲正的假正類(FP)；第二行第一列是實例爲正，預測爲負的假負類(FN)；第二行第二列是實例爲正，預測爲正的真正類(TP)。

下面介紹精度、召回率的概念：

精度：即可以理解爲在預測爲正的結果中的正確率。

召回率：即可理解爲在實際爲正的實例中有多少被預測準確了出來。召回率也稱爲靈敏度（sensitivity）和真正類率（TPR）

F1分數： F1分數是將精度和召回率組合而成的新的單一指標。只有當精度和召回率都很高時，才能得到較高的F1分數。

F1分數對那些具有相近的精度和召回率的分類器更爲有利。這不一定能一直符合你的期望：在某些情況下，你更關心的是精度，而另一些情況下，你可能真正關心的是召回率。例如，假設你訓練一個分類器來檢測兒童可以放心觀看的視頻，那麼你可能更青睞那種攔截了很多好視頻（低召回率），但是保留下來的視頻都是安全（高精度）的分類器，而不是召回率雖高，但是在產品中可能會出現一些非常糟糕的視頻的分類器。反過來說，如果你訓練一個分類器通過圖像監控來檢測小偷：你大概可以接受精度只有30%，只要召回率能達到99%（當然，安保人員會收到一些錯誤的警報，但是幾乎所有的竊賊都在劫難逃）。
遺憾的是，魚和熊掌不可兼得：你不能同時增加精度並減少召回率，反之亦然。這稱爲精度/召回率權衡。

要理解這個權衡過程，我們以SGDClassifier爲例，看它如何進行分類決策。對於每個實例，它會基於決策函數計算出一個分值，如果該值大於閾值，則將該實例判爲正類，否則便將其判爲負類。圖3-3顯示了從左邊最低分到右邊最高分的幾個數字。假設決策閾值位於中間箭頭位置（兩個5之間）：在閾值的右側可以找到4個真正類（真的5），一個假正類（實際上是6）。因此，在該閾值下，精度爲80%（4/5）。但是在6個真正的5中，分類器僅檢測到了4個，所以召回率爲67%（4/6）。現在，如果提高閾值（將其挪動到右邊箭頭的位置），假正類（數字6）變成了真負類，因此精度得到提升（本例中提升到100%），但是一個真正類變成一個假負類，召回率降低至50%。反之，降低閾值則會在增加召回率的同時降低精度。

我們可以繪製一張精度/召回率和決策閾值的函數圖如下：

爲什麼在圖中精度曲線比召回率曲線要崎嶇一些？原因在於，當你提高閾值時，精度有時也有可能會下降（儘管總體趨勢是上升的）。要理解原因，可以回頭看圖3-3，注意，當把閾值從中間箭頭往右移動一位數時：精度從4/5（80%）下降到3/4（75%）。另一方面，當閾值上升時，召回率只會下降，這就解釋了爲什麼召回率的曲線看起來很平滑。現在，就可以通過輕鬆選擇閾值來實現最佳的精度/召回率權衡了。還有一種找到好的精度/召回率權衡的方法是直接繪製精度和召回率的函數圖，如下圖所示：

還有一種經常與二元分類器一起使用的工具，叫作受試者工作特徵曲線（簡稱ROC）。它與精度/召回率曲線非常相似，但繪製的不是精度和召回率，而是真正類率（召回率的另一名稱）和假正類率（FPR）。 FPR是被錯誤分爲正類的負類實例比率。它等於1減去真負類率（TNR），後者是被正確分類爲負類的負類實例比率，也稱爲特異度。因此， ROC曲線繪製的是靈敏度和（1-特異度）的關係。ROC曲線示例如下：

同樣這裏再次面臨一個折中權衡：召回率（TPR）越高，分類器產生的假正類（FPR）就越多。虛線表示純隨機分類器的ROC曲線；一個優秀的分類器應該離這條線越遠越好（向左上角）。

有一種比較分類器的方法是測量曲線下面積AUC，完美的分類器的ROC AUC等於1，而純隨機分類器的ROC AUC等於0.5。

由於ROC曲線與精度/召回率（或PR）曲線非常相似，因此你可能會問如何決定使用哪種曲線。有一個經驗法則是，當正類非常少見或者你更關注假正類而不是假負類時，你應該選擇PR曲線，反之則是ROC曲線。例如，看前面的ROC曲線圖（以及ROC AUC分數），你可能會覺得分類器真不錯。但這主要是因爲跟負類（非5）相比，正類（數字5）的數量真得很少。相比之下， PR曲線清楚地說明分類器還有改進的空間（曲線還可以更接近右上角）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

分類器的性能評估指標：混淆矩陣、精度、召回率、ROC曲線等等

python異常處理：try-except語句的應用

靜態爬蟲研究

數據庫基礎知識1

數據庫基礎知識——數據模型

sklearn報錯Error message: fit_transform() takes 2 positional arguments but 3 were given的解決方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結