評估機器學習項目性能的指標

原創

2018-09-17 06:49

單一數字評估指標（Single number evaluation metric）

評估機器學習項目的性能的指標最常用的有兩個，分別是查全率和查準率。

假如你做了兩個識別貓的分類器A和B。當分類器識別圖片爲貓，記爲positive，識別爲其他，記爲negative。

查全率是指，對於所有的真貓圖片，你的分類器正確識別出了多少百分比。
查全率 = 分別器正確識別出爲貓的圖片數量 / 所有真貓的圖片數量 * 100%
英文描述爲 recall = true positive/ all positive * 100%

查準率是指，對於所有你的分類器識別爲貓的圖片，其中真正爲貓的圖片佔的百分比。
查準率 = 分類器正確識別出爲貓的圖片數量 / 所有分類器識別爲貓的圖片數量
precision = true positive /（true positive + false positive）* 100%

事實證明，查準率和查全率之間往往需要折中，查準率非常高時，查全率往往會有所降低，反之亦然。
所以當A的查全率>B的查全率，而A的查準率

以上的評估標準只是很多標準中具有代表性的一個，在實際的性能評估中，還要考慮“滿足和優化指標”。
滿足指標是指只要求達到，並不要求最好的指標。比如圖像識別的項目中，要求性能達到識別時間不超過0.1秒，只要在這個時間內，無論0.05，0.08秒都可以。

而優化指標是指在達到滿足指標的情況下，要求不斷優化，力爭完美的指標。比如依然是圖像識別，已經達到了要求的0.1秒識別，這時準確率就是一個優化指標，在0.1秒內準確率到達95%,再往98%甚至接近百分百的精確度方向不斷優化，不設上限。

當考慮了上述兩個指標，當分類器A識別圖片耗時0.01秒，準確率95%，分類器B耗時0.1秒，準確率99%時，雖然A比B快了10倍，但依然認爲B比A的性能優異，因爲在達到耗時要求的情況下，B達到了更高的準確率。

這就是滿足和優化指標的定義，在開發機器學習項目中有重要的指導作用。

參考：Andrew Ng 的 Structuring Machine Learning Projects

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.