機器學習模型評估指標-混淆矩陣-精度-召回率-F1分數

原創

呵呵镜

2019-06-16 08:50

最近在覆盤udacity 的機器學習的課程，現在來整理一下關於機器學習模型的評估指標的相關知識。

不同數據集採用不同的模型進行訓練，會得到完全不同的效果，那麼如何衡量一個模型是否適合該數據集呢？在數據集訓練後可以對一些指標進行運算，觀察實際的效果，進行調整參數或者更換模型等等。

學習模型的評估指標常用的有幾種：F-β得分（F1得分，F2得分等等，根據不同的業務實際需求來指定適合的β值），ROC 曲線，迴歸指標包含：平均絕對誤差，均方誤差，R2分數等等

1 混淆矩陣

上圖爲檢測特定疾病的例子，如果一個人檢測出生病，那麼成爲陽性，如果檢測結果是未生病則爲陰性，陽性分爲真陽性和假陽性，陰性分爲真陰性和假陰性.

如果一個病人檢測出生病，則爲真陽性 (True Positive ，TP)

如果一個病人檢測爲健康，則爲假陰性（False Negative，FN）；

如果一個健康人檢測出生病，稱爲假陽性 (False Positive，FP)；

如果一個健康人檢測爲健康，稱爲真陰性（True Negative，TN）

由上面四種狀態構成的矩陣稱之爲混淆矩陣。

再看一個檢測垃圾郵件的例子：

上圖是對應的混淆矩陣，假設一封郵件檢測出是垃圾郵件時候稱爲陽性，那麼

當一封垃圾郵件被檢測出是垃圾郵件的時候稱爲真陽性（True Positive ，TP）；

當一封垃圾郵件被檢測出是正常郵件時候稱爲假陰性（False Negative，FN）；

當一封正常的郵件被檢測出是垃圾郵件時候稱爲假陽性(False Positive，FP)；

當一封正常的郵件被檢測出是正常郵件時候,稱爲真陰性（True Negative，TN）；

2 準確率

準確率 = 所有檢測正確的點/所有的點

從上面的圖中可以看到，所有檢測正確的點（病人被檢測出生病的人數+健康人被檢測出健康的人數），（真陽性+真陰性）/所有。

但是不是所有正確率高的模型就是符合要求的，下面來看一個檢測信用卡欺詐行爲的例子

從上面的圖中看出，左側是信用卡的良好記錄：284335條，右側是欺詐行爲記錄 472條，那麼如果一個模型預測所有的記錄都是良好記錄，那麼這種情況下，該模型的準確率是 284335/(284335+472),達到99.83%，可以看出該模型的準確率很高，但並不滿足我們的需求，因爲絲毫沒有檢測出欺詐行爲，因此，引入了精度和召回率的概念。

3 精度

精度的定義是在所有檢測爲陽性的點中，有多少是真的陽性，在醫療檢測模型中即在所有檢測爲生病的數據中，有多少是真的生病了