周志华机器学习课后习题解析【第二章】

作者 | 我是韩小琦

链接 | https://zhuanlan.zhihu.com/p/42435889

2.1 数据集包含 1000 个样本，其中 500 个正例、 500 个反例，将其划分为包含 70% 样本的训练集和 30% 样本的测试集用于留出法评估，估算有多少种划分方式。

答：排列组合问题。

训练/测试集的划分要尽可能保存数据分布一致

那么训练集中应该包括350个正例和350个反例，剩余的作测试集，那么划分方式应该有种。

2.2 数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

答：

10折交叉验证：交叉验证中每个子集数据分布要尽可能保持一致，那么本题中10次训练中每次正反例各占45，模型训练结果随机猜测，错误率期望为50%。

留一法：若留出样本为正例，训练集中则有50个反例和49个正例，模型预测为反例；反之留出样本为反例，模型预测为正例，错误率为100%。

2.3 若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。

答：

说一下自己理解吧

先看看F1值的定义，

其中：

即查准率（Precision ），【预测为正例且真实为正例的数量】/【预测为正例的数量】，说白了关心预测为正样本时的准确率；

即查全率（又称召回率Recall），【预测为正例且真实为正例的数量】/【真实为正例的数量】。F1值计算中对查准率和查全率都同等重视。

再看看BEP值

首先目前很多分类算法输出的都是0-1之间的一个概率值，比如逻辑回归、xgboost等，分类时的做法是预定一个阈值（典型为0.5），若对样本的输出大于此阈值则归为1类（即正例），那么根据样本的输出值从大到小排序（下文简称为“样本的排序”），排在最前面的即可理解为最有可能为正例的样本，而排在最后的是最不可能为正例的样本。从前往后，逐个将样本预测为正例（即把当前样本的输出值定于为阈值，小于阈值的都为反例），每次计算当前的查准率和查全率，即可得到查全率为横座标查准率为纵座标上的一个点，在将所有点按顺利连接后即可得到“P-R曲线”，而BEP（即Break-Event Point，平衡点）是在查全率=查准率时的取值。

P-R曲线

讨论：

从定义上看，F1值是在阈值固定时，将所有样本分类完成后，综合查全率和查准率得出的值；而BEP值则是寻求一个阈值使得查全率和查准率相同的情况下得到的（此时BEP = 查全率 = 查准率）。

也就是说BEP值和“样本的排序”紧密相关的，而和样本的预测值大小无关，同样的排序，即使将所有预测值同时乘以0.5，其BEP值也是相同的；但是对于F1值，所有样本都将预测为负例（假定阈值为0.5时），此时F1值为0。

回到题目本身，“若学习器A的F1值比学习器B高，则A的BEP值比B高”，那么若能找到两个学习器BEP值相同，而F1值不同，则题目命题就不成立了。那从上面的讨论中已经有了答案了，想象一下学习器A对样本输出值均为学习器B的两倍，两者BEP值是相同的，A的输出在（0,1）之间，而B的输出在（0,0.5）之间，此时B的 F1 值为0，A的 F1 值是在0-1之间。所以原命题不成立。

ps.个人从直觉上BEP值和F1值是没有明确关系的，在讨论过程中拿“输出值乘以0.5”为例，事实上，想象一下，一串固定排序的点(模型的输出概率值)，只在0-1之间同时前进或者后退（每个点前进步长可以不一样，但是排序不变），其BEP值也不会发生变化，而F1值是不断变化的。

2.4 试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

混淆矩阵

查全率：

。

【预测为正例且真实为正例的数量】/【真实为正例的数量】

查准率：

。

【预测为正例且真实为正例的数量】/【预测为正例的数量】

真正例率（TPR）：同查全率

假正例率（FPR）：

。