機器學習-基礎知識 - Precision, Recall, Sensitivity, Specificity, Accuracy, FNR, FPR, TPR, TNR, F1 Score

本文介紹機器學習中的二分類性能評估指標Precision, Recall, Sensitivity, Specificity, Accuracy, FNR, FPR, TNR, TPR, F1 Score, Balanced F Score基本含義,給出公式和具體算例,並作簡要分析。

基礎定義

評估指標
預測結果
正樣本
負樣本
實際
情況
正樣本
TP
FN
負樣本
FP
TN

具體含義和理解參考 機器學習-基礎知識- TP、FN、FP、TN

示例用例

樣本信息

樣本編號
1
2
3
4
5
6
7
8
9
10
真實類別
P
P
P
P
P
P
P
N
N
N

預測-1

樣本編號
1
2
3
4
5
6
7
8
9
10
預測類別
P
P
P
N
N
N
N
N
N
N
評估指標
TP
3
TN
3
FP
0
FN
4

預測-2

樣本編號
1
2
3
4
5
6
7
8
9
10
預測類別
P
P
N
N
P
P
P
P
N
N
評估指標
TP
5
TN
2
FP
1
FN
2

預測-3

樣本編號
1
2
3
4
5
6
7
8
9
10
預測類別
P
P
P
P
P
P
P
P
P
P
評估指標
TP
7
TN
0
FP
3
FN
0

Precision

譯爲:精確率查準率

含義:預測所有正樣本中判斷正確的比例:

Precision=TPTP+FP Precision=\frac{TP}{TP+FP}

預測用例Precision:

Precision1=TPTP+FP=33+0=1 Precision_{預測1}=\frac{TP}{TP+FP}=\frac{3}{3+0}=1

Precision2=TPTP+FP=55+10.83 Precision_{預測2}=\frac{TP}{TP+FP}=\frac{5}{5+1}\approx 0.83

Precision3=TPTP+FP=77+3=0.7 Precision_{預測3}=\frac{TP}{TP+FP}=\frac{7}{7+3}=0.7

可以看到預測1判斷出的正樣本全部正確,因此該預測具有最高的查準率。

可以理解Precision爲模型判斷爲正樣本的置信概率,概率越高,該模型判斷出的正樣本越可信。

FDR(False Discorvery Rate)

譯爲:過殺率(工業缺陷)
含義:反映了檢測器判斷爲正樣本的樣本中,負樣本所佔比例:

FDR=FPTP+FP=1Precision FDR=\frac{FP}{TP+FP}=1-Precision

預測用例FA:

FDR1=FPTP+FP=03+0=0 FDR_{預測1}=\frac{FP}{TP+FP}=\frac{0}{3+0}=0

FDR2=FPTP+FP=15+10.17 FDR_{預測2}=\frac{FP}{TP+FP}=\frac{1}{5+1}\approx0.17

FDR3=FPTP+FP=37+3=0.3 FDR_{預測3}=\frac{FP}{TP+FP}=\frac{3}{7+3}=0.3

Recall / Sensitivity / TPR(True Positive Rate)

譯爲:召回率查全率敏感性真正率

含義:預測正確的所有正樣本佔實際所有正樣本的比例:

Recall=Sensitivity=TPR=TPTP+FN Recall=Sensitivity=TPR=\frac{TP}{TP+FN}

預測用例Recall / Sensitivity / TPR:

Recall1=TPTP+FN=33+40.43 Recall_{預測1}=\frac{TP}{TP+FN}=\frac{3}{3+4}\approx0.43

Recall2=TPTP+FN=55+20.71 Recall_{預測2}=\frac{TP}{TP+FN}=\frac{5}{5+2}\approx0.71

Recall3=TPTP+FN=77+0=1 Recall_{預測3}=\frac{TP}{TP+FN}=\frac{7}{7+0}=1

查全率和查準率考量角度不同,不關注模型判斷出正樣本是否足夠準確,關注模型挑對的正樣本佔全部正樣本的比例。

因此最簡單判斷所有樣本爲正的策略可以得到100%的查全率,因爲這個模型查到的正樣本很“全”。

Specificity / TNR (True Negative Rate)

譯爲:特異度真負率
含義:預測正確的所有負樣本佔實際所有負樣本的比例:

Specificity=TNR=TNTN+FP Specificity=TNR=\frac{TN}{TN+FP}

預測用例Specificity / TNR :

Specificity1=TNTN+FP=33+0=1 Specificity_{預測1}=\frac{TN}{TN+FP}=\frac{3}{3+0}=1

Specificity2=TNTN+FP=22+10.67 Specificity_{預測2}=\frac{TN}{TN+FP}=\frac{2}{2+1}\approx0.67

Specificity3=TNTN+FP=00+3=0 Specificity_{預測3}=\frac{TN}{TN+FP}=\frac{0}{0+3}=0

與查全率相似,描述的是另一邊的情況。

FPR(False Positive Rate)

譯爲:假正率誤檢率虛警概率
含義:預測誤判爲正樣本的負樣本數量佔實際所有負樣本的比例:

FPR=FPFP+TN FPR=\frac{FP}{FP+TN}

預測用例FPR:

FPR1=FPFP+TN=00+3=0 FPR_{預測1}=\frac{FP}{FP+TN}=\frac{0}{0+3}=0

FPR2=FPFP+TN=11+20.33 FPR_{預測2}=\frac{FP}{FP+TN}=\frac{1}{1+2}\approx0.33

FPR3=FPFP+TN=33+0=1 FPR_{預測3}=\frac{FP}{FP+TN}=\frac{3}{3+0}=1

FNR(False Negative Rate)

譯爲:假負率漏警概率漏檢率
含義:預測誤判爲負樣本的正樣本數量佔實際所有正樣本的比例:

FNR=FNFN+TP=1Recall FNR=\frac{FN}{FN+TP}=1-Recall

預測用例FNR:

FNR1=FNFN+TP=44+30.57 FNR_{預測1}=\frac{FN}{FN+TP}=\frac{4}{4+3}\approx0.57

FNR2=FNFN+TP=22+50.29 FNR_{預測2}=\frac{FN}{FN+TP}=\frac{2}{2+5}\approx0.29

FNR3=FNFN+TP=00+7=0 FNR_{預測3}=\frac{FN}{FN+TP}=\frac{0}{0+7}=0

Accuracy

譯爲:正確率
含義:所有實驗中預測正確的樣本數佔所有樣本數量的比例。

Accuracy=TP+TNTP+FP+TN+FN Accuracy=\frac{TP+TN}{TP+FP+TN+FN}

預測用例Accuracy:

Accuracy1=TP+TNTP+FP+TN+FN=3+33+0+3+4=0.6 Accuracy_{預測1}=\frac{TP+TN}{TP+FP+TN+FN}=\frac{3+3}{3+0+3+4}=0.6

Accuracy2=TP+TNTP+FP+TN+FN=5+25+1+2+2=0.7 Accuracy_{預測2}=\frac{TP+TN}{TP+FP+TN+FN}=\frac{5+2}{5+1+2+2}=0.7

Accuracy3=TP+TNTP+FP+TN+FN=7+07+3+0+0=0.7 Accuracy_{預測3}=\frac{TP+TN}{TP+FP+TN+FN}=\frac{7+0}{7+3+0+0}=0.7

事實上預測1,2的模型對正、負樣本都是有有一定正確分類能力的,預測3模型僅僅使用了“將所有樣本都判爲正”的策略既收穫了最高的正確率,並不是這個指標有問題,而是數據分佈本身並不平衡。

樣本中正樣本居多,預測3的模型成功預測了數據中正樣本佔大多數,因此策略得到了高正確率的回報。

Error Rate

譯爲:錯誤率
含義:所有實驗中預測錯誤的樣本數佔所有樣本數量的比例。

Error_Rate=FP+FNTP+FP+TN+FN=1Accuracy Error\_Rate=\frac{FP+FN}{TP+FP+TN+FN}=1-Accuracy

預測用例Accuracy:

Error_Rate1=FP+FNTP+FP+TN+FN=0+43+0+3+4=0.4 Error\_Rate_{預測1}=\frac{FP+FN}{TP+FP+TN+FN}=\frac{0+4}{3+0+3+4}=0.4

Error_Rate2=FP+FNTP+FP+TN+FN=1+25+1+2+2=0.3 Error\_Rate_{預測2}=\frac{FP+FN}{TP+FP+TN+FN}=\frac{1+2}{5+1+2+2}=0.3

Error_Rate3=FP+FNTP+FP+TN+FN=3+07+3+0+0=0.3 Error\_Rate_{預測3}=\frac{FP+FN}{TP+FP+TN+FN}=\frac{3+0}{7+3+0+0}=0.3

F1 Score / Balanced F Score

譯爲:F1 分數 / 平衡F分數
含義:F1分數兼顧了分類模型的精確率和召回率,定義爲模型精確率和召回率的調和平均數。

F1Score=2×Precision×RecallPrecision+Recall F_1 Score=2\times\frac{Precision\times Recall}{Precision+ Recall}

預測用例F1 Score:

F1Score1=2×Precision1×Recall1Precision1+Recall1=2×1×371+37=0.6 F_1 Score_{預測1}=2\times\frac{Precision_{預測1}\times Recall_{預測1}}{Precision_{預測1}+ Recall_{預測1}}=2\times\frac{1\times \frac{3}{7}}{1+ \frac{3}{7}}= 0.6

F1Score2=2×Precision2×Recall2Precision2+Recall2=2×56×5756+570.77 F_1 Score_{預測2}=2\times\frac{Precision_{預測2}\times Recall_{預測2}}{Precision_{預測2}+ Recall_{預測2}}=2\times\frac{\frac{5}{6} \times \frac{5}{7}}{\frac{5}{6} + \frac{5}{7}}\approx 0.77

F1Score3=2×Precision3×Recall3Precision3+Recall3=2×0.7×10.7+10.82 F_1 Score_{預測3}=2\times\frac{Precision_{預測3}\times Recall_{預測3}}{Precision_{預測3}+ Recall_{預測3}}=2\times\frac{0.7 \times 1}{0.7 + 1}\approx 0.82

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章