模型評價指標有幾種,面試應該是必考了:準確率、召回率、精準率、F1score、auc。
先引入混淆矩陣,縱軸是預測情況,陰/陽,橫軸是真實標籤,陰/陽
預測/真實標籤 | 陰 | 陽 |
陰 | TN(真陰):本來陰,預測陰 | FN(假陰):本來陽,預測陰 |
陽 | FP (假陽):本來陰,預測陽 |
TP (真陽):本來陽,預測陽 |
準確率=TP+TN/all 所有樣本中預測正確的比例
召回率=TP/TP+FN ,所有正樣本中預測爲正樣本的比例,又叫查全率
精確率=TP/TP+FP ,預測爲正樣本中真正正樣本的比例,又叫查準率,衡量正樣本的準確率,而準確率既考慮正樣本,又考慮負樣本
精準率和召回率是矛盾的:爲啥呢,舉例,我要提高精準率,那麼提高閾值,原來0.7判定爲正樣本,現在取0.8判定爲正樣本,閾值嚴格了,FP是本來是負樣本,預測爲正樣本了,當閾值提高時,FP會變小,所以精準率會變大;FN是本來正樣本預測爲負樣本,當閾值提高時,FN會變大,所以召回率會降低。
精準率和召回率調和,有了F-score,當alpha=1時,就是F1-score
下面這個弄懂了,從公式來看,當參數beta小於1時,表示精確率比召回率重要,爲啥呢,我們優化模型,指標F越大越好,要提高F-score,分子變大,分母縮小,分子p和r都是一樣的,但分母中,p前面有一個非常小的小數,當壓縮分母變小時,P不需要很小,乘以一個小數就已經很小了。
auc,明天寫哈哈哈