機器學習評價指標

分類模型的評價標準

混淆矩陣

混淆矩陣是除了ROC曲線和AUC之外的另一個判斷分類好壞程度的方法。下面給出二分類的混淆矩陣

	Predicted as Positive	Predicted as Negative
Labeled as Positive	True Positive(TP)	False Negative(FN)
Labeled as Negative	False Positive(FP)	True Negative(TN)

如上表，可以將結果分爲四類：
* 真正例(True Positive, TP)：真實類別爲正例，預測類別爲正例；
* 假負例(False Negative, FN)：真實類別爲正例，預測類別爲負例；
* 假正例(False Positive, FP)：真實類別爲負例，預測類別爲正例；
* 真負例(True Negative, TN)：真實類別爲負例，預測類別爲負例；

進一步可以推出這些指標：
* 真正率(True Positive Rate, TPR)，又名靈敏度(Sensitivity)：被預測爲正的正樣本數 / 正樣本實際數，即： $T P R = \frac{T P}{T P + F N}$
* 假負率(False Negative Rate, FNR)：被預測爲負的正樣本數/正樣本實際數，即： $F N R = \frac{F N}{T P + F N}$
* 假正率(False Positive Rate, FPR)：被預測爲正的負樣本數/負樣本實際數，即： $F P R = \frac{F P}{F P + T N}$
* 真負率(True Negative Rate, TNR)，特異度(Specificity)：被預測爲負的負樣本數/負樣本實際數，即： $T N R = \frac{T N}{F P + T N}$

進一步，由混淆矩陣可以計算以下評價指標：

準確率(Accuracy)：分類正確的樣本數/所有樣本數量，即： $A C C = \frac{T P + T N}{T P + F N + F P + T N}$
平均準確率(Average per-class accuracy)：每個類別下的準確率的算術平均，即： $A v e_A c c = \frac{\frac{T P}{T P + F N} + \frac{T N}{T N + F P}}{2}$
錯誤率：分類錯誤的樣本/所有樣本的數量，即： $E r r o r = \frac{F N + F P}{T P + F N + F P + T N}$

精確率和召回率

精確率，又稱查準率(Precision)：正樣本的預測數/被預測爲正樣本的數量（注意：精確率和準確率不同），即： $P = \frac{T P}{T P + F P}$ ;挑出的西瓜中有多少比例是好瓜
召回率(Recall)又稱查全率：分類正確的正樣本個數佔正樣本個數的比例，即： $R = \frac{T P}{T P + F N}$ ；所有好瓜中有多少比例被挑出來。

分析：查準率和查全率是一對矛盾的度量。
若要讓查準率比較高，則只挑最有把握的瓜，則難免會漏掉不少好瓜，查全率較低；若要查全率比較高，則通過增加選瓜的數量來實現，若全部瓜都參選，則查全率最高，此時，查準率較低；
應用：在推薦系統中，爲了少打擾用戶，則查準率比較高；在逃犯信息檢索系統中，更希望儘可能少漏掉逃犯，則查全率比較高。

F1-Score

在介紹F1-Score之前，首先介紹調和平均值，調和平均值爲：總體各統計量的倒數的算術平均數的倒數；

$F_{1}$ 度量的一般形式—— $F_{β}$ 能夠表達對查詢率和查詢率的不同偏好：

F_{β} = \frac{(1 + β^{2}) * P * R}{(β^{2} * P) + R}

其中，

β > 1

時，查全率更有影響；

β = 1

時，退化爲標準的

F_{1}

；

β < 1

時，查準率更有影響。

F1值的一般形式爲查詢率和查全率的調和均值。
$\frac{2}{F_{1}} = \frac{1}{P} + \frac{1}{R}$

ROC和AUC

ROC曲線的橫軸爲“假正例率”，縱軸爲“真正例率”。
AUC爲ROC曲線下的面積。
應用
在測試集中，正負樣本的分佈變化的時候，ROC曲線能夠保持不變。
https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/72673654

Kappa係數

Kappa係數用於一致性檢驗，Kappa計算結果爲[-1, 1]，但通常kappa是落在0~1之間，可分爲五組表示不同級別的一致性。

大小	一致性程度
0.0 ~ 0.20	極低的一致性
0.21 ~ 0.40	一般的一致性
0.41 ~ 0.60	中等的一致性
0.61 ~ 0.80	高度的一致性
0.81 ~ 1	幾乎完全一致

公式： $k a p p a = \frac{P_{o} - P_{e}}{1 - P_{e}}$
其中，P_o爲樣本整體分類準確度
假設每一類的真實樣本個數爲：a_1, a_2, …, a_C；預測出來的每一類樣本個數爲：b_1, b_2, …, b_C；樣本總個數爲n

P_{e} = \frac{a_{1} * b_{1} + a_{2} * b 2 + . . . + a_{C} * b_{C}}{n * n}

迴歸模型評價標準

絕對誤差 MAE

M S E = \frac{1}{m} \sum_{i = 1}^{m} | f (x_{i}) - y_{i} |

均方誤差MSE

M S E = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}

均方根誤差RMSE

RMSE爲MSE的算術平方根

R M S E = \sqrt{M S E}

缺點：因使用平均誤差，平均誤差對異常值比較敏感，異常值的出現，使得RMSE的誤差較大。

$R^{2}$ (決定係數)

R^{2} = 1 - \frac{\sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}}{\sum_{i = 1}^{m} (f (x_{i}) - \bar{y_{i}})^{2}}

數學理解：分母理解爲原始數據的離散程度，分子爲預測數據和原始數據的誤差，兩者相除可以消除原始數據離散程度的影響。
理論上取值 $(- \infty, 1]$ ，正常取值範圍爲[0, 1]
越接近1，模型對數據擬合的越好。
越接近0，表明模型擬合的越差。
缺點：
數據集的樣本越大， $R^{2}$ 越大。不同數據集的模型結果比較會有一定的誤差。

Adjusted R-Square(校正決定係數)

$R^{2}$ $_a d j u s t e d = 1 - \frac{(1 - R^{2}) (n - 1)}{n - p - 1}$
n爲樣本數量，p爲特徵數量
消除了樣本數量和特徵數量的影響。
參考資料：
1. https://blog.csdn.net/pipisorry/article/details/52574156
2.R^2：https://blog.csdn.net/shy19890510/article/details/79375062
3. kappa：https://blog.csdn.net/xtingjie/article/details/72803029

機器學習評價指標

分類模型的評價標準

混淆矩陣

精確率和召回率

F1-Score

ROC和AUC

Kappa係數

迴歸模型評價標準

絕對誤差 MAE

均方誤差MSE

均方根誤差RMSE

$R^{2}$ (決定係數)

Adjusted R-Square(校正決定係數)

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

分類過程中類別不平衡問題解決方法

Mac下Homebrew安裝的軟件放在什麼地方

Python中常見的面試題

機器學習評價指標

使用awk求指定列的最大值最小值

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器學習評價指標

分類模型的評價標準

混淆矩陣

精確率和召回率

F1-Score

ROC和AUC

Kappa係數

迴歸模型評價標準

絕對誤差 MAE

均方誤差MSE

均方根誤差RMSE

R2R2 (決定係數)

Adjusted R-Square(校正決定係數)

$R^{2}$ (決定係數)