推荐系统 - 基于物品本身的特征来(分类)推荐- 专有名词解释

我们将这些数据集分为了两个部分,第一部分用来构造分类器,因此称为训练集;另一部分用来评估分类器的结果,因此称为测试集

十折交叉验证:将数据集随机分割成十个等份,每次用9份数据做训练集,1份数据做测试集,如此迭代10次。进而得出准确率。

留一法:我们用几乎所有的数据进行训练,然后用一个数据进行测试。留一法的另一个优点是:确定性。

 

衡量分类器准确率的方式

是使用以下公式:正确分类的记录数÷记录总数。有时我们会需要一个更为详细的评价结果,这时就会用到一个称为混淆矩阵的可视化表格。表格的行表示测试用例实际所属的类别,列则表示分类器的判断结果。

混淆矩阵可以帮助我们快速识别出分类器到底在哪些类别上发生了混淆,因此得名。让我们看看运动员的示例,这个数据集中有300人,使用十折交叉验证,其混淆矩阵如下:

 

可以看到,100个体操运动员中有83人分类正确,17人被错误地分到了马拉松一列;92个篮球运动员分类正确,8人被分到了马拉松;85个马拉松运动员分类正确,9人被分到了体操,16人被分到了篮球。

混淆矩阵的对角线(绿色字体)表示分类正确的人数,因此求得的准确率是:

 

验证分类器好与坏:Kappa检验

https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md#kappa%E6%8C%87%E6%A0%87

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章