機器學習評價指標

分類模型的評價標準

混淆矩陣

混淆矩陣是除了ROC曲線和AUC之外的另一個判斷分類好壞程度的方法。下面給出二分類的混淆矩陣

Predicted as Positive Predicted as Negative
Labeled as Positive True Positive(TP) False Negative(FN)
Labeled as Negative False Positive(FP) True Negative(TN)

如上表,可以將結果分爲四類:
* 真正例(True Positive, TP):真實類別爲正例,預測類別爲正例;
* 假負例(False Negative, FN):真實類別爲正例,預測類別爲負例;
* 假正例(False Positive, FP):真實類別爲負例,預測類別爲正例 ;
* 真負例(True Negative, TN):真實類別爲負例,預測類別爲負例;

進一步可以推出這些指標:
* 真正率(True Positive Rate, TPR),又名靈敏度(Sensitivity):被預測爲正的正樣本數 / 正樣本實際數,即:TPR=TPTP+FN
* 假負率(False Negative Rate, FNR):被預測爲負的正樣本數/正樣本實際數,即:FNR=FNTP+FN
* 假正率(False Positive Rate, FPR):被預測爲正的負樣本數/負樣本實際數,即:FPR=FPFP+TN
* 真負率(True Negative Rate, TNR),特異度(Specificity):被預測爲負的負樣本數/負樣本實際數,即:TNR=TNFP+TN

進一步,由混淆矩陣可以計算以下評價指標:

  • 準確率(Accuracy):分類正確的樣本數/所有樣本數量,即: ACC=TP+TNTP+FN+FP+TN

  • 平均準確率(Average per-class accuracy):每個類別下的準確率的算術平均,即: Ave_Acc=TPTP+FN+TNTN+FP2

  • 錯誤率:分類錯誤的樣本/所有樣本的數量,即:Error=FN+FPTP+FN+FP+TN

精確率和召回率

  • 精確率,又稱查準率(Precision):正樣本的預測數/被預測爲正樣本的數量(注意:精確率和準確率不同),即:P=TPTP+FP ;挑出的西瓜中有多少比例是好瓜

  • 召回率(Recall)又稱查全率:分類正確的正樣本個數佔正樣本個數的比例,即:R=TPTP+FN所有好瓜中有多少比例被挑出來

分析:查準率和查全率是一對矛盾的度量。
若要讓查準率比較高,則只挑最有把握的瓜,則難免會漏掉不少好瓜,查全率較低;若要查全率比較高,則通過增加選瓜的數量來實現,若全部瓜都參選,則查全率最高,此時,查準率較低;
應用:在推薦系統中,爲了少打擾用戶,則查準率比較高;在逃犯信息檢索系統中,更希望儘可能少漏掉逃犯,則查全率比較高。

F1-Score

在介紹F1-Score之前,首先介紹調和平均值,調和平均值爲:總體各統計量的倒數的算術平均數的倒數;

F1 度量的一般形式——Fβ 能夠表達對查詢率 和查詢率的不同偏好:

Fβ=(1+β2)PR(β2P)+R

其中,β>1 時,查全率更有影響;β=1 時,退化爲標準的F1β<1 時,查準率更有影響。

F1值的一般形式爲查詢率和查全率的調和均值。
2F1=1P+1R

ROC和AUC

ROC曲線的橫軸爲“假正例率”,縱軸爲“真正例率”。
AUC爲ROC曲線下的面積。
應用
在測試集中,正負樣本的分佈變化的時候,ROC曲線能夠保持不變。
https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/72673654

Kappa係數

Kappa係數用於一致性檢驗,Kappa計算結果爲[-1, 1],但通常kappa是落在0~1之間,可分爲五組表示不同級別的一致性。

大小 一致性程度
0.0 ~ 0.20 極低的一致性
0.21 ~ 0.40 一般的一致性
0.41 ~ 0.60 中等的一致性
0.61 ~ 0.80 高度的一致性
0.81 ~ 1 幾乎完全一致

公式:kappa=PoPe1Pe
其中,P_o爲樣本整體分類準確度
假設每一類的真實樣本個數爲:a_1, a_2, …, a_C;預測出來的每一類樣本個數爲:b_1, b_2, …, b_C;樣本總個數爲n

Pe=a1b1+a2b2+...+aCbCnn

迴歸模型評價標準

絕對誤差 MAE

MSE=1mi=1m|f(xi)yi|

均方誤差MSE

MSE=1mi=1m(f(xi)yi)2

均方根誤差RMSE

RMSE爲MSE的算術平方根

RMSE=MSE

缺點:因使用平均誤差,平均誤差對異常值比較敏感,異常值的出現,使得RMSE的誤差較大。

R2 (決定係數)

R2=1i=1m(f(xi)yi)2i=1m(f(xi)yi¯)2
  • 數學理解:分母理解爲原始數據的離散程度,分子爲預測數據和原始數據的誤差,兩者相除可以消除原始數據離散程度的影響。
  • 理論上取值(,1] ,正常取值範圍爲[0, 1]
    越接近1,模型對數據擬合的越好。
    越接近0,表明模型擬合的越差。
  • 缺點:
    數據集的樣本越大,R2 越大。不同數據集的模型結果比較會有一定的誤差。

Adjusted R-Square(校正決定係數)

R2_adjusted=1(1R2)(n1)np1
n爲樣本數量,p爲特徵數量
消除了樣本數量和特徵數量的影響。
參考資料:
1. https://blog.csdn.net/pipisorry/article/details/52574156
2.R^2:https://blog.csdn.net/shy19890510/article/details/79375062
3. kappa:https://blog.csdn.net/xtingjie/article/details/72803029

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章