查準率查全率ROC曲線、PR曲線

在論文的結果分析中,ROC和PR曲線是經常用到的兩個有力的展示圖。

1.ROC曲線

ROC曲線(receiver operating characteristic)是一種對於靈敏度進行描述的功能圖像。ROC曲線可以通過描述真陽性率(TPR)和假陽性率(FPR)來實現。由於是通過比較兩個操作特徵(TPR和FPR)作爲標準,ROC曲線也叫做相關操作特徵曲線。

ROC分析給選擇最好的模型和在上下文或者類分佈中拋棄一些較差的模型提供了工具。ROC曲線首先是由二戰中的電子工程師和雷達工程師發明的,他們是用來檢測戰場中的敵軍的,也就是信號檢測理論。ROC分析現在已經在相關的領域得到了很好的發展,特別是在醫學,無線電領域中,而且最近在機器學習和數據挖掘領域也得到了很好的發展。

一個分類模型(分類器)是一個將一個實例映射到一個特定類的過程。讓我們來考慮一個兩類預測問題(雙分類器),其結果要麼是真(p)要麼是假(n)。在雙分類器中有4類可能的輸出。如果輸出的預測是p而真實的結果也是p,那麼這就叫做真陽性(TP);然而如果真實的結果是n,則這就叫做假陽性(FP)。相反的來說,一個真陰性發生在預測結果和實際結果都爲n的時候,而假陰性是當預測輸出是n而實際值是p的時候。其多種情況可由以下矩陣表示:

image

行是實際的類,列是分類器得到的類別。常用的術語如下:

真陽性(TP)——正確的肯定 
真陰性(TN)——正確的否定  
假陽性(FP)——錯誤的肯定,假報警,第一類錯誤  
假陰性(FN)——錯誤的否定,未命中,第二類錯誤

真陽性率(TPR)  
TPR = TP / P = TP / (TP+FN)

假陽性率(FPR)  
FPR = FP / N = FP / (FP + TN)

準確度(ACC)  
ACC = (TP + TN) / (P + N)  
即:(猜對爲陽性+猜對爲陰性) / 總樣本數

特徵 (SPC) 或者真陰性率  
SPC = TN / N = TN / (FP + TN) = 1 - FPR 

陽性預測值(PPV)  
PPV = TP / (TP + FP)

陰性預測值(NPV)  
NPV = TN / (TN + FN)

假髮現率 (FDR)  
FDR = FP / (FP + TP)

Matthews相關係數 (MCC)  
MCC = (TP*TN - FP*FN) / sqrt(PNP'N')

F1評分  
F1 = 2TP/(P+P')

下面介紹ROC空間的概念:要生成一個ROC曲線,只需要真陽性率(TPR)和假陽性率(FPR)。ROC空間將FPR定義爲x軸,TPR定義爲y軸。而由於TPR即爲靈敏度(sensitivity),FPR即爲(1-特異度)(specificity),因此ROC曲線圖有時候也叫做"靈敏度 vs. 1-特異度" 曲線圖。每一個預測結果在ROC空間中以一個點代表

最好的預測方式是一個在左上角的點,在ROC空間座標軸(0,1)點,這個代表着100%靈敏(沒有假陰性)和100%特異(沒有假陽性)。而(0,1)點被稱爲“完美分類器”。一個完全隨機的預測會得到一條從左下到右上對角線(也叫無識別率線)上的一個點,這條線上的任一點對應的準確度(ACC)都是50%。

599px-ROC_space-2

離散分類器,如決策樹,產生的是離散的數值或者一個二元標籤。應用到實例中,這樣的分類器最後只會在ROC空間產生單一的點。而一些其他的分類器,如樸素貝葉斯分類器,邏輯迴歸或者人工神經網絡,產生的是實例屬於某一類的可能性,對於這些方法,一個閾值就決定了ROC空間中點的位置。舉例來說,如果可能值低於或者等於0.8這個閾值就將其認爲是陽性的類,而其他的值被認爲是陰性類。這樣就可以通過畫每一個閾值的ROC點來生成一個生成一條曲線。MedCalc是較好的ROC曲線分析軟件。

2.PR曲線

PR曲線指的是Precision Recall曲線,中文爲查準率-查全率曲線。PR曲線在分類、檢索等領域有着廣泛的使用,來表現分類/檢索的性能。

如上矩陣圖所示:

查準率(Precision Ratio)= TP/P  
查全率(Recall Ratio)= TP/ P'

注:查準率又名精度,查全率又名召回率。這些表達式在ROC中有不同的名稱而已。

如果是分類器的話,通過調整分類閾值,可以得到不同的P-R值,從而可以得到一條曲線(縱座標爲P,橫座標爲R)。通常隨着分類閾值從大到小變化(大於閾值認爲P),查準率減小,查全率增加。比較兩個分類器好壞時,顯然是查得又準又全的比較好,也就是的PR曲線越往座標(1,1)的位置靠近越好。

轉載自:http://www.cnblogs.com/houkai/p/3330061.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章