深度学习_目标检测_Focal Loss详解

原創

2020-06-23 22:22

Focal Loss本质

Focal Loss本质上解决了分类问题中类别不均衡、分类难度差异的一个损失函数，使得训练更加聚焦在困难样本上。

Focal Loss的发展演化

Focal Loss是从二分类问题出发，同样的思想可以迁移到多分类问题上。

标准交叉熵

我们知道二分类问题的标准loss是交叉熵：

对于二分类问题我们也几乎适用sigmoid激活函数 $\hat{y} = \sigma(x)$ ，所以上面的式子可以转化成：

这里有 $1 - \sigma(x) = \sigma(-x)$ 。

作者在论文中给出的式子如下：

其中 $y\in \{ 1,-1\}$ 是真实标签， $p\in[0,1]$ 是预测概率。

我们再定义 $p_{t}$ ：

上面的交叉熵的式子可以转换成：

均衡交叉熵

最初论文中引入了均衡交叉熵函数：

要对类别不均衡问题对loss的贡献进行一个控制，即加上一个控制权重即可，最初作者的想法即如下这样，对于属于少数类别的样本，增大 $a_{t}$ 即可。但这样有一个问题，它仅仅解决了正负样本之间的平衡问题，并没有区分易分/难分样本。

为什么上述公式只解决正负样本不均衡问题

因为增加了一个系数 $α_{t}$ ，跟 $p_{t}$ 的定义类似，当label=1的时候 $α_{t}=a$ ;当label=-1的时候， $α_{t}= 1 - a$ ， $a$ 的范围也是 $[0,1]$ 。因此可以通过设定 $a$ 的值(如果 $1$ 这个类的样本数比 $-1$ 这个类的样本数少很多，那么 $a$ 会取 $0.5到1$ 来增加 $1$ 这个类的样本的权重)来控制正负样本对总的loss的贡献。

Focal Loss

上面的交叉熵是硬截断型的loss，我们通常设定一个阈值，超过这个阈值我们就不在更新参数了。这样的话下一次更新训练这个预测值坑又变回小于阈值了，这样会使得训练变得困难，迭代次数大大增加。

所以交叉熵为基础，对loss进行软化，我们不只是要告诉模型正样本的预测值大于阈值就不更新了，而是要告诉模型当其大于阈值后只需要保持就好。

硬截断致命的缺陷是loss的权重因子不可导，对梯度没有任何帮助，软化就是把一些本来不可导的函数用一些可导函数来近似，数学角度叫“光滑化”。

Focal Loss雏形

所以伟大的Focal Loss雏形就出现了：

$(1 - p_{t})^{\gamma}$ 用于平衡难易样本的比例不均， $\gamma >0$ 起到了对 $(1 - p_{t})$ 的放大作用。 $\gamma >0$ 减少易分样本的损失，使模型更关注于困难易错分的样本。例如当 $\gamma =2$ 时，模型对于某正样本预测置信度 $p_{t}$ 为 $0.9$ ，这时 $(1 - 0.9)^{\gamma} = 0.01$ ，也就是FL值变得很小；而当模型对于某正样本预测置信度 $p_{t}$ 为0.3时， $(1 - 0.3)^{\gamma} = 0.49$ ，此时它对loss的贡献就变大了。当 $\gamma = 0$ 时变成交叉熵损失。

Focal Loss最终版本

为了应对正负样本不均衡的问题，在上面的式子中再加入平衡交叉熵的 $a_{t}$ 因子，用来平衡正负样本本身的比例不均，最终得到如下式子：

Focal Loss论文的作者给出的实验最佳取值为 $a_{t}= 0.25$ ， $\gamma = 2$ 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度学习_目标检测_Focal Loss详解

Focal Loss本质

Focal Loss的发展演化

标准交叉熵

均衡交叉熵

为什么上述公式只解决正负样本不均衡问题

Focal Loss

Focal Loss雏形

Focal Loss最终版本

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

深度學習_目標檢測_FPN論文詳解

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

傳統經典CV算法_圖像基礎_分辨率和像素詳解

每日一句_《客中行》

深度學習框架_TensorFlow_TensorFlow中logits的理解

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結