常見分類性能度量指標
常見分類性能度量指標
再將這幾個指標之前,先講幾個基礎概念
真正(True Positive , TP):被模型預測爲正的正樣本。
假正(False Positive , FP):被模型預測爲正的負樣本。
假正(False Negative , FN):被模型預測爲負的正樣本。
真負(True Negative , TN):被模型預測爲負的負樣本。
準確率
精確率
又叫正確率,查準率。是計算預測爲正樣本里邊真正爲正樣本的概率
召回率
又叫 靈敏度,查全率,這個在類別不均衡的情況下,可以當做一個很重要的衡量指標
F1 值
F值是精確率和召回率的調和值,更接近於兩個數較小的那個,所以精確率和召回率接近時,F值最大。很多推薦系統的評測指標就是用F值的。
ROC曲線
接收者操作特徵曲線(receiver operating characteristic curve),是反映敏感性和特異性連續變量的綜合指標,roc曲線上每個點反映着對同一信號刺激的感受性。ROC曲線有個很好的特性:當測試集中的正負樣本的分佈變化的時候,ROC曲線能夠保持不變。在實際的數據集中經常會出現類不平衡(class imbalance)現象,即負樣本比正樣本多很多(或者相反),而且測試數據中的正負樣本的分佈也可能隨着時間變化。
https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html
橫座標爲False Positive Rate(FPR假正率),縱座標爲True Positive Rate(TPR真正率)
目標最好點在靠近左下角,即
理想目標:TPR=1,FPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45度對角線越好。一般來說,如果ROC是光滑的,那麼基本可以判斷沒有太大的overfitting
AUC曲線
Area Under Curve,被定義爲ROC曲線下的面積(ROC的積分)。使用AUC值作爲評價標準是因爲很多時候ROC曲線並不能清晰的說明哪個分類器的效果更好,而作爲一個數值,對應AUC更大的分類器效果更好。
PR曲線
PR曲線的橫座標是精確率Precision,縱座標是召回率Recall。評價標準和ROC一樣,先看平滑不平滑。一般來說,在同一測試集,上面的比下面的好(綠線比紅線好)。當P和R的值接近時,F1值最大。
https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html
當正負樣本數量差距不大的情況下,ROC和PR的趨勢是差不多的,但是在正負樣本分佈極不均衡的情況下,PR比ROC更能真實的反映出實際情況,因爲此時ROC曲線看起來似乎很好,但是卻在PR上效果一般。
https://www.zhihu.com/question/30643044/answer/48955833