模型評估之混淆矩陣(confusion_matrix)

在前面的文章中我們講到了迴歸模型和分類模型的評估指標,區分了準確率和精確率的區別,並且比較了精確率和召回率內在的聯繫。本篇文章我們再來學習另外一個評估方法,即混淆矩陣(confusion_matrix)。

在講矩陣之前,我們先複習下之前在講分類評估指標中定義的一些符號含義,如下:

TP(True Positive):將正類預測爲正類數,真實爲0,預測也爲0
FN(False Negative):將正類預測爲負類數,真實爲0,預測爲1
FP(False Positive):將負類預測爲正類數, 真實爲1,預測爲0
TN(True Negative):將負類預測爲負類數,真實爲1,預測也爲1

混淆矩陣定義及表示含義

混淆矩陣是機器學習中總結分類模型預測結果的情形分析表,以矩陣形式將數據集中的記錄按照真實的類別與分類模型預測的類別判斷兩個標準進行彙總。其中矩陣的行表示真實值,矩陣的列表示預測值,下面我們先以二分類爲例,看下矩陣表現形式,如下:
在這裏插入圖片描述
現在我們舉個列子,並畫出混淆矩陣表,假如寵物店有10只動物,其中6只狗,4只貓,現在有一個分類器將這10只動物進行分類,分類結果爲5只狗,5只貓,那麼我們畫出分類結果混淆矩陣,並進行分析,如下(我們把狗作爲正類):

在這裏插入圖片描述

通過混淆矩陣我們可以輕鬆算的真實值狗的數量(行數量相加)爲6=5+1,分類得到狗的數量(列數量相加)爲5=5+0,真實貓的數量爲4=0+4,分類得到貓的數量爲5=1+4。同時,我們不難發現,對於二分類問題,矩陣中的4個元素剛好表示TP,TN,FP,TN這四個符號量,如下圖:

在這裏插入圖片描述

那麼對於二分類問題來說,

精確率

ecision=a/(a+c)=TP/(TP+FP),

召回率recall=a/(a+b)=TP/(TP+FN),

準確率accuracy=(a+d)/(a+b+c+d)=TP+TN/(TP+FN+FP+TN),可以看到準確率中的分子值就是矩陣對角線上的值。

剛纔分析的是二分類問題,那麼對於多分類問題,混淆矩陣表示的含義也基本相同,這裏我們以三類問題爲例,看看如何根據混淆矩陣計算各指標值

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章