在使用機器學習算法的過程中，針對不同場景需要不同的評價指標，在這裏對常用的指標進行一個簡單的彙總。

一、分類

1. 精確率與召回率

精確率與召回率多用於二分類問題。精確率（Precision）指的是模型判爲正的所有樣本中有多少是真正的正樣本；召回率（Recall）指的是所有正樣本有多少被模型判爲正樣本，即召回。設模型輸出的正樣本集合爲，真正的正樣本集合爲，則有：

。

有時候我們需要在精確率與召回率間進行權衡，一種選擇是畫出精確率-召回率曲線（Precision-Recall Curve），曲線下的面積被稱爲AP分數（Average precision score）；另外一種選擇是計算分數：

。

當稱爲分數，是分類與信息檢索中最常用的指標之一。

2. ROC

設模型輸出的正樣本集合爲，真正的正樣本集合爲，所有樣本集合爲，我們稱爲真正率（True-positive rate），爲假正率（False-positive rate）。

ROC曲線適用於二分類問題，以假正率爲橫座標，真正率爲縱座標的曲線圖，如：

AUC分數是曲線下的面積（Area under curve），越大意味着分類器效果越好。

3. 對數損失

對數損失（Log loss）亦被稱爲邏輯迴歸損失（Logistic regression loss）或交叉熵損失（Cross-entropy loss）。

對於二分類問題，設且，則對每個樣本的對數損失爲：

。

可以很容易地將其擴展到多分類問題上。設爲指示矩陣，即當樣本的分類爲時；設爲估計的概率矩陣，即，則對每個樣本的對數損失爲：

。

4. 鉸鏈損失

鉸鏈損失（Hinge loss）一般用來使“邊緣最大化”（maximal margin）。

鉸鏈損失最開始出現在二分類問題中，假設正樣本被標記爲1，負樣本被標記爲-1，是真實值，是預測值，則鉸鏈損失定義爲：

。

然後被擴展到多分類問題，假設是對真實分類的預測值，是對非真實分類預測中的最大值，則鉸鏈損失定義爲：

。

注意，二分類情況下的定義並不是多分類情況下定義的特例。

5. 混淆矩陣

混淆矩陣（Confusion Matrix）又被稱爲錯誤矩陣，通過它可以直觀地觀察到算法的效果。它的每一列是樣本的預測分類，每一行是樣本的真實分類（反過來也可以），顧名思義，它反映了分類結果的混淆程度。混淆矩陣行列的原始是原本是類別卻被分爲類別的樣本個數，計算完之後還可以對之進行可視化：

6. kappa係數

kappa係數（Cohen's kappa）用來衡量兩種標註結果的吻合程度，標註指的是把N個樣本標註爲C個互斥類別。計算公式爲

。

其中是觀察到的符合比例，是由於隨機性產生的符合比例。當兩種標註結果完全相符時，，越不相符其值越小，甚至是負的。

是不是雲裏來霧裏去的，現在舉個栗子，對於50個測試樣本的二分類問題，預測與真實分佈情況如下表：

		GROUND
		1	0
PREDICT	1	20	5
PREDICT	0	10	15

預測與真實值相符共有20+15個，則觀察到的符合比例爲。計算比較複雜，PREDICT預測爲1的比例爲0.5，GROUND中1的比例爲0.6，從完全隨機的角度來看，PREDICT與GROUND均爲1的概率爲0.5*0.6=0.3，PREDICT與GROUND均爲0的概率爲0.5*0.4=0.2，則PREDICT與GROUND由於隨機性產生的符合比例爲0.2+0.3=0.5，即，最後求得。