評估機器學習項目性能的指標

單一數字評估指標(Single number evaluation metric)

查全率(recall)與查準率(precision)

評估機器學習項目的性能的指標最常用的有兩個,分別是查全率和查準率。

假如你做了兩個識別貓的分類器A和B。當分類器識別圖片爲貓,記爲positive,識別爲其他,記爲negative。

查全率是指,對於所有的真貓圖片,你的分類器正確識別出了多少百分比。
查全率 = 分別器正確識別出爲貓的圖片數量 / 所有真貓的圖片數量 * 100%
英文描述爲 recall = true positive/ all positive * 100%

查準率是指,對於所有你的分類器識別爲貓的圖片,其中真正爲貓的圖片佔的百分比。
查準率 = 分類器正確識別出爲貓的圖片數量 / 所有分類器識別爲貓的圖片數量
precision = true positive /(true positive + false positive)* 100%

事實證明,查準率和查全率之間往往需要折中,查準率非常高時,查全率往往會有所降低,反之亦然。
所以當A的查全率>B的查全率,而A的查準率

滿足和優化指標

以上的評估標準只是很多標準中具有代表性的一個,在實際的性能評估中,還要考慮“滿足和優化指標”。
滿足指標是指只要求達到,並不要求最好的指標。比如圖像識別的項目中,要求性能達到識別時間不超過0.1秒,只要在這個時間內,無論0.05,0.08秒都可以。

而優化指標是指在達到滿足指標的情況下,要求不斷優化,力爭完美的指標。比如依然是圖像識別,已經達到了要求的0.1秒識別,這時準確率就是一個優化指標,在0.1秒內準確率到達95%,再往98%甚至接近百分百的精確度方向不斷優化,不設上限。

當考慮了上述兩個指標,當分類器A識別圖片耗時0.01秒,準確率95%,分類器B耗時0.1秒,準確率99%時,雖然A比B快了10倍,但依然認爲B比A的性能優異,因爲在達到耗時要求的情況下,B達到了更高的準確率。

這就是滿足和優化指標的定義,在開發機器學習項目中有重要的指導作用。

參考:Andrew Ng 的 Structuring Machine Learning Projects

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章