周志華機器學習西瓜書速記第二章緒論模型評估與選擇(二)

2.3 性能度量

對模型的泛化性能進行評估,不僅需要有效可的評估方法,還要有模型的泛化能力的評價標準,這就是性能度量。

對預測任務就要把模型對於每個輸入的預測效果f(x)與真實的結果進行比較。

迴歸任務最常用的性能度量是“均方誤差”,就是類似數學方差。即實際輸出與預期輸出做差求平方在求均值。

2.3.1 錯誤率與精度

錯誤率與精度是分類任務中最常用的兩種性能度量。

2.3.2 查準率、查全率和F1

首先,引入概念“混淆矩陣”。

對於二分類問題,可將樣例根據其真實類別與學習器預測類別的組合劃分爲真正例(Ture Positive)、假正例(False Positive)、真反例(True Negetive)、假反例(False Negetive)。

令TP、FP、TN、FN分別表示這四種情況。

則有如下混淆矩陣:

真實情況 預測結果
正例 反例
正例 TP FN
反例 FP TN

則查準率P和查全率R分別定義爲:

P = TP/(TP+FP)    預測結果爲正例的全部情況中,真實情況也爲正例的比例

R = TP/(TP+FN)    真實情況爲正例的全部情況中,預測結果也爲正例的比例

查準率高時查全率往往低,查全率高時查準率往往低。

由查準率和查全率可以畫出一個曲線,叫做P-R曲線,縱軸爲查準率P,橫軸爲查全率R。(下圖來源:https://blog.csdn.net/dpengwang/article/details/93461022

在這裏插入圖片描述

當一條曲線完全包住另一條曲線時,稱這個學習器效果更好。例如,B與C相比,B的效果更好,但是A與B相交不能得出哪個學習器效果更好,因此要引入一些指標來衡量不同的學習器學習效果。

例如,引入平衡點BEP這個度量,即比較P=R的時候的性能來衡量學習器的性能。圖中條角平分線就是BEP。

更常用的是F1,F1 = 2PR/(P+R) = 2TP/(樣例總數+TP-TN)

F1的一般形式是Fβ:

Fβ=(1+β^2)*P*R/((β^2*P)+R)

當β=1時,Fβ即爲F1,當β<1時,查準率有更大影響,當β>1時查全率又更大影響。

當進行多多次訓練/測試時會產生多個二分類混淆矩陣,或者在多數據上進行訓練/測試,在或者對於多酚類問題時兩兩對應一個混淆矩陣,因此我們需要在多個混淆矩陣上總額和考察查準率和查全率。

我們對此可以分別計算出多個矩陣的查準率P,查全率R,再計算出來平均值,得到宏查準率(Macro-P)和宏查全率(Macro-R),及相應的宏F1(Macro-F1)。

還可以將TP FP TN FN進行平均在求得微查準率(Micro-P)、微查全率(Micro-R)及相應的微-F1(Micro-F1)。

ROC與AUC

ROC曲線則是從這個角度出發來研究學習器泛化性能的工具。

ROC(Receiver Operating Characteristic) 受試者工作特徵。

TPR=TP/(TP+FN)

FPR=FP/(TN+FP)

AUC可以對ROC曲線下的面積求和而得。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章