- 信息檢索中,我們經常會關係“檢索出的信息有多少比例是用戶感興趣的”以及“用戶感興趣的信息中有多少被檢索出來了”,用精度和錯誤率就描述出來了,這就需要引入準確率(precision,亦稱查準率)和召回率(recall,亦稱查全率)。
準確率
預測結果中,究竟有多少是真的正?(找出來的對的比例)
召回率
所有正樣本中,你究竟預測對了多少?(找回來了幾個)
- 一般來說,我們希望上述兩個指標都是越高越好,然而沒有這麼好的事情,準確率和召回率是一對矛盾的度量,一個高時另一個就會偏低.
- 當我們根據學習器的預測結果對樣例進行排序(排在前面的是學習器認爲“最可能”是正例的樣本),然後按此順序依次吧樣本餵給學習器,我們把每次的準確率和召回率描出來就會得到一個P-R曲線(稱爲P-R圖)
- 如果一個學習器的P-R被另一個學習器的該曲線包圍,則可以斷言後面的要好些。
- 平衡點(Break-Even Point, BEP)
就是找一個 準確率 = 召回率 的值,就像上面的圖那樣。