交叉熵cross-entropy

对一个分类神经网络 $f$ ，输出为 $z=f(x;\theta),z=[z_{0},z_{1},\cdots,z_{C-1}]$ , $z$ 为logits，其中类别数量为 $C$ , $y$ 为 $x$ 的one-hot标签。通过softmax归一化来得到概率：
$p_{i}=\frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}}$
负交叉熵误差为：
$\mathcal{L}=-\sum_{i}y_{i}\log{p_{i}}$
误差对于概率的梯度为：
$\frac{\partial \mathcal{L}}{\partial p_{i}}=-y_{i}\frac{1}{p_{i}}$
紧接着计算 $\frac{\partial \mathcal{p_{i}}}{\partial z_{k}},k=0,1,...,C-1$ :
（1）当 $k=i$ 时，
$\frac{\partial \mathcal{p_{i}}}{\partial z_{i}}=\frac{\partial ( \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})}{\partial z_{i}}=\frac{\exp{z_{i}}\sum_{j}\exp{z_{j}}-(\exp{z_{i}})^{2}}{(\sum_{j}{\exp{z_{j}}})^{2}} \\ =( \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})(1- \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})=p_{i}(1-p_{i})$

（2）当 $k\neq i$ 时，
$\frac{\partial \mathcal{p_{i}}}{\partial z_{k}}=\frac{\partial ( \frac{\exp{z_{i}}}{\sum_{j}{\exp{z_{j}}}})}{\partial z_{k}}=\frac{-\exp{z_{i}}\exp{z_{k}}}{(\sum_{j}{\exp{z_{j}}})^{2}} =-p_{i}p_{k}$
根据求导的链式法则：
$\frac{\partial \mathcal{\mathcal{L}}}{\partial z_{k}}=\sum_{j}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})\\ =\sum_{j=/k}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})+(\frac{\partial \mathcal{L}}{\partial p_{k}}\frac{\partial \mathcal{p_{k}}}{\partial z_{k}})\\ =\sum_{j=/k}(-y_{j}\frac{1}{p_{j}}*-p_{j}p_{k})+(-y_{k}\frac{1}{p_{k}}*p_{k}(1-p_{k}))\\ =\sum_{j=/k}(y_{j}p_{k})-y_{k}+y_{k}p_{k}\\ =p_{k}\sum_{j}y_{j}-y_{k}$
因为 $y$ 为one-hot编码，所以 $\sum_{j}y_{j}=1$ ,i.e.,
$\frac{\partial \mathcal{\mathcal{L}}}{\partial z_{k}}=p_{k}-y_{k}$

相对熵KL散度

预测的概率分布 $p$ ,真实概率分布为 $q$ ，KL的散度为：
$\mathcal{L}=KL(q||p)=\sum_{k}q_{c}\log{\frac{q_{k}}{p_{k}}}$
求解对概率 $p_{k}$ 的梯度
$\frac{\partial \mathcal{\mathcal{L}}}{\partial p_{k}}=-\frac{q_{k}}{p_{k}}$
求解对logits $z_{k}$ 的梯度:
$\frac{\partial \mathcal{\mathcal{L}}}{\partial z_{c}}= \sum_{j}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})\\ =\sum_{j=/k}(\frac{\partial \mathcal{L}}{\partial p_{j}}\frac{\partial \mathcal{p_{j}}}{\partial z_{k}})+(\frac{\partial \mathcal{L}}{\partial p_{k}}\frac{\partial \mathcal{p_{k}}}{\partial z_{k}})\\ =\sum_{j=/k}(-\frac{q_{j}}{p_{j}}*-p_{j}p_{k})+(-\frac{q_{k}}{p_{k}}*p_{k}(1-p_{k}))\\ =\sum_{j=/k}(q_{j}p_{k})+q_{k}p_{k}-q_{k}\\ =\sum_{j}q_{j}p_{k}-q_{k}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Softmax函数和交叉熵Cross-entropy以及KL散度求导

交叉熵cross-entropy

相对熵KL散度

Windows和Ubuntu系統生成SSH公鑰

Softmax函數和交叉熵Cross-entropy以及KL散度求導

基於深度學習的目標檢測和分割

高效的從Backbone CNN提取特徵的方法：FPN

變分互信息蒸餾（Variational mutual information KD）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結