制定評估指標是數據挖掘前期很重要的一步,一個好的評估指標要和關心的業務指標波動一致。這樣可以通過對比不同模型的評估指標,來評價模型在實際業務中的效果,加快模型迭代週期,降低線上成本。
在推薦系統中評估指標可以分爲三類:分類指標,迴歸指標,排序指標。
分類問題
分類問題輸出是物品的類別,對於二分類問題,輸出爲0/1單個值;對於多分類問題,輸出爲一個one-hot向量 ,其中只有一個值爲1,爲1的列代表了模型預測樣本的分類。
精確率和召回率
談到精確率和召回率就設計到混淆矩陣,爲了方便解釋,以下未做說明的地方均爲二分類任務。
混淆矩陣中TP和TN很清楚,但是FP和FN經常記錯,暫時沒有什麼好辦法。
精確率的定義如下:
精確率表示,預測爲正的數據中,有多少個真的是對的。
召回率的定義如下:
召回率表示,所有正的數據中,有多少個被預測出來了。
可以在藉助下圖理解,左邊的圓圈代表預測爲正的樣本集合,右邊的圓圈代表真實爲正的樣本集合。精確率爲黃色部分除以左邊圓的面積,召回率是黃色部分除以右邊圓的面積。
理想情況下,精確率和召回率都越高越好。事實上這個很難達到,當精確率提升時,召回率就會下降。反之,召回率提升時,精確率就會下降。一個極端的例子,如果我們把所有例子都預測爲正,那麼召回率爲1,見下圖左邊的情況。反之,如果只把非常肯定的預測爲正,那麼精確率就爲1,見下圖右邊的情況。
爲了同時評估精確率和召回率,可以使用score,它是精確率和召回率的調和平均值,公式如下:
未完待續。。。