图像分类问题的label为啥是one_hot形式?

1、什么是one_hot?

one-hot编码:是将类别变量转换为机器学习算法中容易处理的一种形式!

看个例子便于理解:

index fruit
1 apple
2 banana
3 strawberry
4 watermelon

一、one_hot的形式无法比较

如上表所示;如果我们预测的标签是:fruit 列的四个水果,直接看的话,我们人类是很容易区分它们之间的关系;但是对于计算机很难直接区分!但是如果用 index:1,2,3,4 来做 label 的话,就会出现比较关系,因为每个label之间的距离是不同的。这样计算机就可以用数字当作 fruit 的 label。例如你做一个风控模型,预测的是四个风险类别[低,中,高,紧急],其实你也可以用1,2,3,4来做label,因为确实存在一个比较。但这本质上就成了回归问题。

二、one_hot可以计算top N准确率

同样还是用上面的例子来说:针对四个 label :[apple,banana,strawberry,watermelon] 预测的结果为:[0.1,0.6,0.2,0.1]

这样的话一般取概率最高的那个预测结果;即:banana 如果真实的 label 也是 banana 的话,那么这个结果就是 top 1准确率,但是如果真实 label 是 strawberry,并且 strawberry 的概率排第二,那么这个结果就是 top 2 准确率。现在许多分类问题中都用到 top N 准确率对模型进行评估。

你购物时经常会看到物品下方有N个推荐搭配,如果推荐模型的top N准确率越高,那么这个购物推荐的最后转化效果就越好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章