【机器学习】——为什么softmax搭配cross entropy是解决分类问题的通用方案？

众所周知，softmax+cross entropy是在线性模型、神经网络等模型中解决分类问题的通用方案，但是为什么选择这种方案呢？它相对于其他方案有什么优势？笔者一直也困惑不解，最近浏览了一些资料，有一些小小心得，希望大家指正~

损失函数：交叉熵Cross Entropy

我们可以从三个角度来理解cross entropy的物理意义

从实例上直观理解

我们首先来看Cross Entropy 的公式：
假设存在两个分布 $p$ 和 $q$ ， $p$ 为样本的真实分布， $q$ 为模型预测出的样本分布，则在给定的样本集 $X$ 上，交叉熵的计算方式为
$L_{CE}(p,q)=-\sum _{x\in X}p(x)logq(x)$
通常情况下在线性模型、神经网络等模型中，关于样本的真实分布可以用one-hot的编码来表示，比如男、女分别可以用[0,1]和[1,0]来表示，同样的，C种类别的样本可以用长度为C的向量来表示，且一个样本的表示向量中有且仅有一个维度为1，其余为0。那会造成什么后果呢？我们来看一个例子，假设一个样本的真实label为 $[0,0,0,1,0]$ ，预测的分布为 $[0.02,0.02,0.02,0.9,0.04]$ ，则交叉熵为：
$L_{CE}=-1*log0.9$
如果预测分布为 $[0.1,0.5,0.2,0.1,0.2]$ ,则交叉熵为：
$L_{CE}=-1*log0.1$
可以看出其实 $L_{CE}$ 只与label中1所对应下标的预测值有关，且该预测值越大， $L_{CE}$ 越小。
只要label中1所对应下标的预测值越接近1，则损失函数越小，这在直观上就是符合我们对于损失函数的预期。
，

交叉熵为什么比均方误差好

作为回归问题的常见损失函数，均方误差公式为 $loss_{MSE}(y,t)=\frac{1}{2}\sum_{i=1}^{n}(y_i - t_i)^2$ ，好像也可以用来计算分类问题的损失函数，那它为什么不适合分类问题呢？我们再来看一个例子假设一个样本的真实label为 $[0,0,0,1,0]$ ，预测的分布为 $D_1 =[0.1,0.1,0.1,0.6,0.1]$ ,预测分布 $D_2 =[0,0,0,0.6,0.4]$ ,此时 $loss_{MSE}D_1 < loss_{MSE}D_2$ ,也就是说对于 $loss_{MSE}$ 而言，即使与label中1所对应下标的预测值是正确的，其他项预测值的分布也会影响损失的大小，这不符合我们对于分类问题损失函数的预期。

似然估计的视角

我们知道，对于一个多分类问题，给定样本 $x$ ,它的似然函数可以表示为
$p(t|x)=\prod_{i=1}^{C}P(t_i|x)^{t_i}=\prod_{i=1}^{C}y_i^{t_i}$
其中 $y_i$ 是模型预测的概率， $t_i$ 是对应类的label，那么其对数似然估计则为：
$-\sum_{i=1}^{C}t_ilog{y_i}$ , $t_i$ 对应于 $p(x)$ ， $y_i$ 对应于 $q(x)$ ，其实交叉熵就是对应于该样本的负对数似然估计。

KL散度视角

KL散度又被称为相对熵，可以用来衡量两个分布之间的距离，想了解KL散度可以参考如何理解K-L散度（相对熵）。需要了解的是：KL散度越小，两个分布越相近。这么看KL散度是不是很符合我们对于两个分布损失函数的定义呢?
，公式为：
$D_{KL}=-\sum _{x\in X}p(x)log\frac{p(x)}{q(x)}\\ =-\sum _{x\in X}p(x)logp(x) - \sum _{x\in X}p(x)logq(x)\\ =-H(p)-\sum _{x\in X}p(x)logq(x)$
其中 $H(p)$ 为p的熵，注意这里的 $p$ 是样本的真实分布，所以 $H(p)$ 为常数，因此，KL散度与交叉熵事实上是等价的，所以交叉熵也可以用来衡量两个分布之间的距离，符合我们对于损失函数的期待。

softmax+cross entropy到底学到了什么？

我们知道在回归问题中的最常用的损失函数是均方误差 $loss_{MSE}(y,t)=\frac{1}{2}\sum_{i=1}^{n}(y_i - t_i)^2$ ，那么在反向传播时, $\frac{\partial{loss}}{\partial{y_i}}=y_i-t_i$ ,即均方误差在反向传播时传递的是预测值与label值的偏差，这显然是一个符合我们预期的、非常直觉的结果。
假定分类问题的最后一个隐藏层和输出层如下图所示

$a_1........a_c$ 为最后一个隐藏层的C个类别, $y_1.....y_c$ 为输出层，则有 $\frac{\partial{Loss_{CE}}}{\partial{a_i}}=y_i-t_i$ ，因此softmax+cross entropy在反向传播时传递的同样是预测值与label值的偏差，即 $y_i-t_i$ ，如果对于证明不感兴趣的，那么这篇文章就可以到此结束了~以下均为证明过程。
图中 $y_i=\frac{e^{a_i}}{\sum_{j=1}^Ce^{a_j}}$ ，我们用 $\sum$ 表示分母 $\sum_{j=1}^Ce^{a_j}$ ，则 $y_i=\frac{e^{a_i}}{\sum}$ 。
$\frac{\partial{L_{CE}}}{\partial{a_i}}=\sum_{j=1}^{C}\frac{\partial{L_{CE}}}{\partial{y_j}}\frac{\partial{y_j}}{\partial{a_i}}=\sum_{i=1}^{C}(\frac{t_i}{y_j})\frac{\partial{y_j}}{\partial{a_i}}$ 注意这里的 $y_i=\frac{e^{a_i}}{\sum_{j=1}^Ce^{a_j}}$ 与所有的 $a_i$ 都相关，因此需要用链式法则求导。
下面求 $\frac{\partial{y_j}}{\partial{a_i}}$ ,
$\frac{\partial{y_j}}{\partial{a_i}}$ 的求导分为两种情况
当 $i$ != $j$ 时, $\frac{\partial{y_j}}{\partial{a_i}}=\frac{\partial{\frac{e^{a_j}}{\sum} }}{\partial{a_i}}=-\frac{e^{a_j}}{\sum} \frac{e^{a_i}}{\sum}=-y_iy_j$
当 $i=j$ 时， $\frac{\partial{y_j}}{\partial{a_i}}=\frac{\partial{\frac{e^{a_i}}{\sum} }}{\partial{a_i}}=\frac{e^{a_i}\sum-e^{a_i}e^{a_j}}{{\sum}^2}=\frac{e^{a_i}}{\sum} *\frac{\sum-e^{a_j}}{\sum}=y_i(1-y_j)$
代入上式得
$\frac{\partial{L_{CE}}}{\partial{a_i}}= \sum_{i=1}^{C}(\frac{t_i}{y_j})\frac{\partial{y_j}}{\partial{a_i}}= -\frac{t_i}{y_i}\frac{\partial{y_i}}{\partial{a_i}}-\sum_{i = j}^{C}\frac{\partial{y_i}}{\partial{a_i}}=-\frac{t_i}{y_i}y_i(1-y_j)-\sum_{i!=j}^{C}\frac{t_i}{y_i}(-y_iy_j) =-t_i+y_i\sum_{j=1}^Ct_j=y_i-t_i$ 注意这里 $\sum_{j=1}^Ct_j$ 为所有label的和，应该等于1.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【机器学习】——为什么softmax搭配cross entropy是解决分类问题的通用方案？

损失函数：交叉熵Cross Entropy

从实例上直观理解

交叉熵为什么比均方误差好

似然估计的视角

KL散度视角

softmax+cross entropy到底学到了什么？

TDengine docker安装方法

vue项目获取富文本编辑器wangEditor内容导出为word（html转word格式并下载）

dotnet C# 创建 X11 应用时设置窗口背景颜色

vue3组件通信与props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的发布时间

工作中用到的脚本合集

合并代码时Beyond Compare设置

Navicat安装与激活教程

POJ 1338 & UVA 136

POJ 1005 & ZOJ 1049 & UVA 2363

ZOJ 2739 & UVA 3399

ubuntu 16.04 安裝 xgboost python運行環境

統計學習方法筆記，第一章，統計學系方法概論

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結