推薦系統 - 基於物品本身的特徵來(分類)推薦- 專有名詞解釋

我們將這些數據集分爲了兩個部分,第一部分用來構造分類器,因此稱爲訓練集;另一部分用來評估分類器的結果,因此稱爲測試集

十折交叉驗證:將數據集隨機分割成十個等份,每次用9份數據做訓練集,1份數據做測試集,如此迭代10次。進而得出準確率。

留一法:我們用幾乎所有的數據進行訓練,然後用一個數據進行測試。留一法的另一個優點是:確定性。

 

衡量分類器準確率的方式

是使用以下公式:正確分類的記錄數÷記錄總數。有時我們會需要一個更爲詳細的評價結果,這時就會用到一個稱爲混淆矩陣的可視化表格。表格的行表示測試用例實際所屬的類別,列則表示分類器的判斷結果。

混淆矩陣可以幫助我們快速識別出分類器到底在哪些類別上發生了混淆,因此得名。讓我們看看運動員的示例,這個數據集中有300人,使用十折交叉驗證,其混淆矩陣如下:

 

可以看到,100個體操運動員中有83人分類正確,17人被錯誤地分到了馬拉松一列;92個籃球運動員分類正確,8人被分到了馬拉松;85個馬拉松運動員分類正確,9人被分到了體操,16人被分到了籃球。

混淆矩陣的對角線(綠色字體)表示分類正確的人數,因此求得的準確率是:

 

驗證分類器好與壞:Kappa檢驗

https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md#kappa%E6%8C%87%E6%A0%87

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章