一、softmax运算

分类问题需要得到离散的预测输出，一个简单的办法是将输出值 $o_i$ 当做预测类别是i的置信度，并将值最大的输出所对应的类作为预测输出，即输出 $argmax_io_i$ 。例如，如果 $o_1,o_2,o_3$ 分别为0.1，10，0.1，由于 $o_2$ 最大，那么预测类别为2。

然而，直接使用输出层的输出有两个问题。一方面，由于输出层的输出值的范围不确定，难以直观判断这些值的意义。例如，上面举的例子中的输出值10表示很置信图像类别为猫，因为该输出值是其它两类的输出值的100倍。但是如果 $o_1=o_3=10^3$ ，那么输出值10又表示图像类别为猫的概率很低。另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax运算解决了以上两个问题，它通过下面公式将输出值变换成值为正且和为1的概率分布： $\hat{y_1},\hat{y_2},\hat{y_3}=softmax(o_1,o_2,o_3)$ 其中 $\hat{y_1}=\frac{exp(o_1)}{\sum_{i=1}^3exp(o_i)},\hat{y_2}=\frac{exp(o_2)}{\sum_{i=1}^3exp(o_i)},\hat{y_3}=\frac{exp(o_3)}{\sum_{i=1}^3exp(o_i)}$ 容易看出 $\hat{y_1}+\hat{y_2}+\hat{y_3}=1$ 且 $0\leq\hat{y_1},\hat{y_2},\hat{y_3}\leq1$ ，因此 $\hat{y_1},\hat{y_2},\hat{y_3}$ 是一个合法的概率分布。此外， $argmax_io_i=argmax_i\hat{y_i}$ 因此softmax不改变预测类别输出。

二、交叉熵损失函数

使用softmax运算可以更方便地与离散标签计算误差，softmax运算将输出变换成一个合法的类别预测分布。实际上，真实标签也可以用类别分布表达：对于样本i，我们构造向量 $y^{(i)}\in \mathbb{R}^q$ ，使其第 $y^{(i)}$ （样本i类别的离散数值）个元素为1，其余为0。这样训练目标可以设为使预测概率分布 $\hat{y}^{(i)}$ 尽可能接近真实的标签概率分布 $y^{(i)}$ 。

我们可以像线性回归那样使用平方损失函数 $||\hat{y}^{(i)}-y^{(i)}||^2/2$ 。然而，想要预测分类结果正确，其实并不需要预测概率完全等于标签概率。例如在图像分类中，如果 $y^{(i)}=3$ ，那么只需要 $\hat{y}_3^{(i)}$ 比其它两个预测值 $\hat{y}_1^{(i)}$ 和 $\hat{y}_2^{(i)}$ 大就可以了。即使 $\hat{y}_3^{(i)}$ 的值为0.6，不管其它两个预测值是多少，类别预测均正确。而平方损失则过于严格，例如 $\hat{y}_1^{(i)}=\hat{y}_2^{(i)}=0.2$ 比 $\hat{y}_1^{(i)}=0,\hat{y}_2^{(i)}=0.4$ 的损失要小得多，虽然两者都有同样正确的分类预测结果。

改善上述问题的一个方法是使用更适合衡量两个概率分布差异的测量函数。其中，交叉熵是一个常用的测量方法： $H(y^{(i)},\hat{y}^{(i)})=-\sum_{j=1}^qy_j^{(i)}log\hat{y}_j^{(i)}$ 其中带下标的 $y_j^{(i)}$ 是向量 $y^{(i)}$ 中非0即1的元素，需要注意将它与样本i类别的离散数值，即不带下标的 $y^{(i)}$ 区分。在上式中，我们知道向量 $y^{(i)}$ 中只有第 $y^{(i)}$ 个元素 $y^{(i)}_{y^{(i)}}$ 为1，其余全为0。于是 $H(y^{(i)},\hat{y}^{(i)})=-log\hat{y}_{y^{(i)}}^{(i)}$ 。也就是所，交叉熵只关心对正确类别的预测概率，因为只要其值足够大，就可以确保分类结果正确。当然，遇到一个样本有多个标签时，例如图片里含有不止一个物体时，并不能做这一步简化。但即使对于这种情况，交叉熵同样只关心对图像中出现的物体类别的预测概率。

假设训练数据集的样本数为n，交叉熵损失函数定义为 $\iota (\theta)=\frac{1}{n}\sum_{i=1}^nH(y^{(i)},\hat{y}^{(i)})$ 其中 $\theta$ 代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失函数可以简写成 $\iota (\theta)=-\frac{1}{n}\sum_{i=1}^nlog\hat{y}_{y^{(i)}}^{(i)}$ 。从另一个角度看，我们知道最小化 $\iota(\theta)$ 等价于最大化 $exp(-n\iota(\theta))=\prod_{i=1}^n\hat{y}^{(i)}_{y^{(i)}}$ ，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

softmax运算

一、softmax运算

二、交叉熵损失函数

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

循環神經網絡——裁剪梯度（應對梯度爆炸）

自然語言處理——語言模型

np.c_和np.r_的用法解析

自然語言處理 —— 困惑度

集成學習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結