分類問題是監督學習中的一個問題。
當輸出變量Y取有限個離散值時,預測問題就成爲分類問題。此時X可以是離散的也可以是連續的。
分類器是從數據中學習到的一個分類模型或者分類決策函數。可能的輸出稱爲類。
分類問題的兩個過程:學習和分類。
分類器的性能指標,準確率:分類器正確分類的樣本數比上總樣本數。
二分類問題的評價指標:
精確率:(正類預測爲正類)/(正類預測爲正類+負類預測爲正類)
召回率:(正類預測爲正類)/(正類預測爲正類+正類預測爲負類)
分類的應用:
1在銀行領域構建客戶分類模型,對客戶按照貸款風險的大小進行分類。
2利用日誌數據的分類對非法入侵進行檢測。
3圖像領域,利用分類檢測圖像中是否有人臉出現。
4手寫識別,分類識別手寫的數字。
5搜索領域,分類用於網頁的抓取,排序和索引。