本文适用包括决策树在内的多个ML算法模型。
1、二分类、多分类问题的precision、recall
(1)在信息检索中,精确率通常用于评价结果的质量,而召回率用来评价结果的完整性。了解其概念,参考——
《准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure》
(2)在多分类问题应用这些概念,把每个类别单独视为"正",所有其它类型视为"负"。
2、混淆矩阵及其使用seaborn绘图
(1)混淆矩阵和seaborn绘图部分参考——
3、sklearn各种模型函数的使用(classification_report,confusion_matrix,acc_score,recall_score,precision_score,F1_score等等)
(1)算是非常详细的讲解二分类、多分类中sklearn各种模型函数的使用,参考博文——
(2)classification_report中有Macro avg、Micro avg三种平均法。
- Macro:反映了模型对数据集整体的表现,但是不能具体去分析某一类别的性能。
- Micro:当数据中类别不平均时(如果极度不平均,有一个类别只有1个,无论分类结果对或错,用Macro的时候都将严重会影响最终的平均指标),可以作为一个有效的指标反映模型性能。
如果读不懂新版本sklearn中的classification_report,可以参考博文——
《读懂 sklearn 的 classification_report》
(3)决策树分类效果评价指标详解,稍微讲了下ROC、AUC曲线等
可以参考博文——
《决策树分类效果评价指标详解》