[nlp] 二分類(F1),多分類,多標籤

F1 score
在這裏插入圖片描述
在這裏插入圖片描述
召回率 recall : 真實正例中預測爲正的比例。
準確率 precision : 預測爲正的實例真實也爲正(預測正確)的比例。
在這裏插入圖片描述
ROC曲線
其他展示分類模型性能的可視化技術是受試者特徵曲線(ROC 曲線,Receiver Operating Characteristic curve)。
這個思想是相當簡單的:ROC 曲線展示了 當改變在模型**(預測)中識別爲正例的閾值時,召回率和精確度的關係會如何變化。
ROC 曲線在 Y 軸上畫出了
真正例率(TPR),在 X 軸上畫出了假正例率(FPR)** 。TPR 是召回率,FPR 是反例被報告爲正例的概率。這兩者都可以通過混淆矩陣計算得到。
在這裏插入圖片描述
黑色對角線 :隨機分類器,
紅色和藍色曲線 :兩種不同的分類模型。
對於給定的模型,只能對應一條曲線。但是我們可以通過調整對正例進行分類的閾值來沿着曲線移動。
通常,當降低閾值時,會沿着曲線向右和向上移動。

在閾值爲 1.0 的情況下,我們將位於圖的左下方,因爲沒有將任何數據點識別爲正例,這導致沒有真正例,也沒有假正例(TPR = FPR = 0)。當降低閾值時,我們將更多的數據點識別爲正例,導致更多的真正例,但也有更多的假正例 ( TPR 和 FPR 增加)。最終,在閾值 0.0 處,我們將所有數據點識別爲正,並發現位於 ROC 曲線的右上角 ( TPR = FPR = 1.0 )。

最後,我們可以通過計算曲線下面積 ( AUC ) 來量化模型的 ROC 曲線,這是一個介於 0 和 1 之間的度量,數值越大,表示分類性能越好。在上圖中,藍色曲線的 AUC 將大於紅色曲線的 AUC,這意味着藍色模型在實現準確度和召回率的權衡方面更好。隨機分類器 (黑線) 實現 0.5 的 AUC。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章