在使用機器學習算法的過程中,針對不同場景需要不同的評價指標,在這裏對常用的指標進行一個簡單的彙總。
一、分類
1. 精確率與召回率
精確率與召回率多用於二分類問題。精確率(Precision)指的是模型判爲正的所有樣本中有多少是真正的正樣本;召回率(Recall)指的是所有正樣本有多少被模型判爲正樣本,即召回。設模型輸出的正樣本集合爲
有時候我們需要在精確率與召回率間進行權衡,一種選擇是畫出精確率-召回率曲線(Precision-Recall Curve),曲線下的面積被稱爲AP分數(Average precision score);另外一種選擇是計算
當
2. ROC
設模型輸出的正樣本集合爲
ROC曲線適用於二分類問題,以假正率爲橫座標,真正率爲縱座標的曲線圖,如:
AUC分數是曲線下的面積(Area under curve),越大意味着分類器效果越好。
3. 對數損失
對數損失(Log loss)亦被稱爲邏輯迴歸損失(Logistic regression loss)或交叉熵損失(Cross-entropy loss)。
對於二分類問題,設
可以很容易地將其擴展到多分類問題上。設
4. 鉸鏈損失
鉸鏈損失(Hinge loss)一般用來使“邊緣最大化”(maximal margin)。
鉸鏈損失最開始出現在二分類問題中,假設正樣本被標記爲1,負樣本被標記爲-1,
然後被擴展到多分類問題,假設
注意,二分類情況下的定義並不是多分類情況下定義的特例。
5. 混淆矩陣
混淆矩陣(Confusion Matrix)又被稱爲錯誤矩陣,通過它可以直觀地觀察到算法的效果。它的每一列是樣本的預測分類,每一行是樣本的真實分類(反過來也可以),顧名思義,它反映了分類結果的混淆程度。混淆矩陣
6. kappa係數
kappa係數(Cohen's kappa)用來衡量兩種標註結果的吻合程度,標註指的是把N個樣本標註爲C個互斥類別。計算公式爲
其中
是不是雲裏來霧裏去的,現在舉個栗子,對於50個測試樣本的二分類問題,預測與真實分佈情況如下表:
GROUND | |||
---|---|---|---|
1 | 0 | ||
PREDICT | 1 | 20 | 5 |
0 | 10 | 15 |
預測與真實值相符共有20+15個,則觀察到的符合比例爲
7. 準確率
準確率(Accuracy)衡量的是分類正確的比例。設
其中
雖然準確率適用範圍很廣,可用於多分類以及多標籤等問題上,但在多標籤問題上很嚴格,在有些情況下區分度較差。
8. 海明距離
海明距離(Hamming Distance)用於需要對樣本多個標籤進行分類的場景。對於給定的樣本
其中
我們可以通過對所有樣本的預測情況求平均得到算法在測試集上的總體表現情況,當標籤數量
9. 傑卡德相似係數
傑卡德相似係數( Jaccard similarity coefficients)也是用於需要對樣本多個標籤進行分類的場景。對於給定的樣本
它與海明距離的不同之處在於分母。當預測結果與實際情況完全相符時,係數爲1;當預測結果與實際情況完全不符時,係數爲0;當預測結果是實際情況的真子集或真超集時,距離介於0到1之間。
我們可以通過對所有樣本的預測情況求平均得到算法在測試集上的總體表現情況,當標籤數量
10. 多標籤排序
在這節我們介紹一些更精細化的多標籤分類效果衡量工具。設真實標籤分類情況爲
10.1 涵蓋誤差
涵蓋誤差(Coverage error)計算的是預測結果中平均包含多少真實標籤,適用於二分類問題。涵蓋誤差定義爲:
其中
10.2 標籤排序平均精度
標籤排序平均精度(Label ranking average precision)簡稱LRAP,它比涵蓋誤差更精細:
其中
10.3 排序誤差
排序誤差(Ranking loss)進一步精細考慮排序情況:
其中
二、擬合
擬合問題比較簡單,所用到的衡量指標也相對直觀。假設
1. 平均絕對誤差
平均絕對誤差MAE(Mean Absolute Error)又被稱爲
2. 平均平方誤差
平均平方誤差MSE(Mean Squared Error)又被稱爲
3. 解釋變異
解釋變異( Explained variance)是根據誤差的方差計算得到的:
4. 決定係數
決定係數(Coefficient of determination)又被稱爲
其中
三、聚類
1 . 蘭德指數
蘭德指數(Rand index)需要給定實際類別信息
其中
對於隨機結果,RI並不能保證分數接近零。爲了實現“在聚類結果隨機產生的情況下,指標應該接近零”,調整蘭德係數(Adjusted rand index)被提出,它具有更高的區分度:
具體計算方式參見Adjusted Rand index。
ARI取值範圍爲
2. 互信息
互信息(Mutual Information)也是用來衡量兩個數據分佈的吻合程度。假設
其中
其中
與ARI類似,調整互信息(Adjusted mutual information)定義爲:
利用基於互信息的方法來衡量聚類效果需要實際類別信息,MI與NMI取值範圍爲
3. 輪廓係數
輪廓係數(Silhouette coefficient)適用於實際類別信息未知的情況。對於單個樣本,設
對於一個樣本集合,它的輪廓係數是所有樣本輪廓係數的平均值。
輪廓係數取值範圍是
四、信息檢索
信息檢索評價是對信息檢索系統性能(主要滿足用戶信息需求的能力)進行評估,與機器學習也有較大的相關性,感興趣的可以參考這篇不錯的博文。
五、總結
上面介紹了非常多的指標,實際應用中需要根據具體問題選擇合適的衡量指標。那麼具體工作中如何快速使用它們呢?優秀的Python機器學習開源項目Scikit-learn實現了上述絕指標的大多數,使用起來非常方便。
轉載於:http://www.cnblogs.com/zhaokui/p/ml-metric.html