周志華機器學習西瓜書速記第二章緒論模型評估與選擇（二）

2.3 性能度量

對模型的泛化性能進行評估，不僅需要有效可的評估方法，還要有模型的泛化能力的評價標準，這就是性能度量。

對預測任務就要把模型對於每個輸入的預測效果f(x)與真實的結果進行比較。

迴歸任務最常用的性能度量是“均方誤差”，就是類似數學方差。即實際輸出與預期輸出做差求平方在求均值。

2.3.1 錯誤率與精度

錯誤率與精度是分類任務中最常用的兩種性能度量。

2.3.2 查準率、查全率和F1

首先，引入概念“混淆矩陣”。

對於二分類問題，可將樣例根據其真實類別與學習器預測類別的組合劃分爲真正例（Ture Positive）、假正例（False Positive）、真反例（True Negetive）、假反例（False Negetive）。

令TP、FP、TN、FN分別表示這四種情況。

則有如下混淆矩陣：

真實情況	預測結果
真實情況	正例	反例
正例	TP	FN
反例	FP	TN

則查準率P和查全率R分別定義爲：

P = TP/(TP+FP) 預測結果爲正例的全部情況中，真實情況也爲正例的比例

R = TP/(TP+FN) 真實情況爲正例的全部情況中，預測結果也爲正例的比例

查準率高時查全率往往低，查全率高時查準率往往低。

由查準率和查全率可以畫出一個曲線，叫做P-R曲線，縱軸爲查準率P，橫軸爲查全率R。（下圖來源：https://blog.csdn.net/dpengwang/article/details/93461022）

當一條曲線完全包住另一條曲線時，稱這個學習器效果更好。例如，B與C相比，B的效果更好，但是A與B相交不能得出哪個學習器效果更好，因此要引入一些指標來衡量不同的學習器學習效果。

例如，引入平衡點BEP這個度量，即比較P=R的時候的性能來衡量學習器的性能。圖中條角平分線就是BEP。

更常用的是F1，F1 = 2PR/(P+R) = 2TP/(樣例總數+TP-TN)

F1的一般形式是Fβ：

Fβ=（1+β^2)*P*R/((β^2*P)+R)

當β=1時，Fβ即爲F1，當β<1時，查準率有更大影響，當β>1時查全率又更大影響。

當進行多多次訓練/測試時會產生多個二分類混淆矩陣，或者在多數據上進行訓練/測試，在或者對於多酚類問題時兩兩對應一個混淆矩陣，因此我們需要在多個混淆矩陣上總額和考察查準率和查全率。

我們對此可以分別計算出多個矩陣的查準率P，查全率R，再計算出來平均值，得到宏查準率（Macro-P）和宏查全率（Macro-R），及相應的宏F1（Macro-F1）。

還可以將TP FP TN FN進行平均在求得微查準率（Micro-P）、微查全率（Micro-R）及相應的微-F1（Micro-F1）。

ROC與AUC

ROC曲線則是從這個角度出發來研究學習器泛化性能的工具。

ROC(Receiver Operating Characteristic) 受試者工作特徵。

TPR=TP/（TP+FN）

FPR=FP/（TN+FP）

AUC可以對ROC曲線下的面積求和而得。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

周志華機器學習西瓜書速記第二章緒論模型評估與選擇（二）

2.3 性能度量

2.3.1 錯誤率與精度

2.3.2 查準率、查全率和F1

ROC與AUC

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

【Stanford】Deep Learning-CS224N Lecture 1-2

並查集入門題集

C/C++ 取整函數

廣義線性模型總結（GLM）

Neural networks and deep learning C1總結（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結