说说激活函数

原創

2018-09-04 05:19

前言

以前总觉得可能激活函数里面relu最好用(不知道是什么经历留下的印象了。。。。。）是网络的输出需要有正有负，所以适合选择tanh，而不适合relu，借此机会，查阅了一下激活函数相关的资料，对这个问题做一个加深的理解。

正文

激活函数概览

下面一张图片是各种激活函数的一个总结，包含了函数图像，表达式以及函数的导数。
图片来自：https://zhuanlan.zhihu.com/p/30567264

激活函数的用途是进行输入的特征的保留以及映射。

sigmoid

历史上，sigmoid 函数曾非常常用，然而现在它已经不太受欢迎，实际很少使用了，因为它主要有两个缺点：

1. 函数饱和使梯度消失
sigmoid 神经元在值为 0 或 1 的时候接近饱和，这些区域，梯度几乎为 0。因此在反向传播时，这个局部梯度会与整个代价函数关于该单元输出的梯度相乘，结果也会接近为 0 。这样，几乎就没有信号通过神经元传到权重再到数据了，因此这时梯度就对模型的更新没有任何贡献。
除此之外，为了防止饱和，必须对于权重矩阵的初始化特别留意。比如，如果初始化权重过大，那么大多数神经元将会饱和，导致网络就几乎不学习。
2. sigmoid 函数不是关于原点中心对称的
这个特性会导致后面网络层的输入也不是零中心的，进而影响梯度下降的运作。
因为如果输入都是正数的话（如 f=wTx+b中每个元素都 x>0 ），那么关于 w 的梯度（即x）在反向传播过程中，要么全是正数，要么全是负数（具体依据整个表达式 f而定），这将会导致梯度下降权重更新时出现 z 字型的下降。当然，如果是按 batch 去训练，那么每个 batch 可能得到不同的信号，整个批量的梯度加起来后可以缓解这个问题。因此，该问题相对于上面的神经元饱和问题来说只是个小麻烦，没有那么严重。

tanh

tanh 函数同样存在饱和问题，但它的输出是零中心的，因此实际中 tanh 比 sigmoid 更受欢迎。tanh 函数实际上是一个放大的 sigmoid 函数，数学关系为：tanh(x)=2σ(2x)−1

Relu

是二维时，ReLU 的效果如图：
ReLU 的优点：
1.相较于 sigmoid 和 tanh 函数，ReLU 对于 SGD 的收敛有巨大的加速作用（Alex Krizhevsky 指出有 6 倍之多）。有人认为这是由它的线性、非饱和的公式导致的。
2. 相比于 sigmoid/tanh，ReLU 只需要一个阈值就可以得到激活值，而不用去算一大堆复杂的（指数）运算。
ReLU 的缺点是，它在训练时比较脆弱并且可能“死掉”。
举例来说：一个非常大的梯度经过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了。如果这种情况发生，那么从此所有流过这个神经元的梯度将都变成 0。
也就是说，这个 ReLU 单元在训练中将不可逆转的死亡，导致了数据多样化的丢失。实际中，如果学习率设置得太高，可能会发现网络中 40% 的神经元都会死掉（在整个训练集中这些神经元都不会被激活）。
合理设置学习率，会降低这种情况的发生概率。

Leakly Relu

Leaky ReLU 是为解决“ ReLU 死亡”问题的尝试。
ReLU 中当 x<0 时，函数值为 0。而 Leaky ReLU 则是给出一个很小的负数梯度值，比如 0.01。

如何选择激活函数？

通常来说，很少会把各种激活函数串起来在一个网络中使用的。
如果使用 ReLU，那么一定要小心设置 learning rate，而且要注意不要让你的网络出现很多 “dead” 神经元，如果这个问题不好解决，那么可以试试 Leaky ReLU、PReLU 或者 Maxout.
最好不要用 sigmoid，可以试试 tanh，不过可以预期它的效果会比不上 ReLU 和 Maxout.

参考资料
https://livc.io/blog/176
http://cs231n.github.io/neural-networks-1/
https://zhuanlan.zhihu.com/p/21462488
http://blog.csdn.net/cyh_24/article/details/50593400

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

说说激活函数

前言

正文

激活函数概览

sigmoid

tanh

Relu

Leakly Relu

如何选择激活函数？

探究职业发展的关键：能力模型解读

如何在低代码平台中引用 JavaScript ？

高效率使用windows

智能决策新时代：可视化大屏是否能够超越传统白板？

解密Prompt系列28. LLM Agent之金融领域摸索：FinMem & FinAgent

分享几个.NET开源的AI和LLM相关项目框架

matlab將二維灰度圖轉換爲三維圖，可以看出出像素值大小

包裝用於TensorFlow操作的Python函數

3D-DWT或者nD-DWT python下多維離散小波變換代碼

cv2.resize影響了我的實驗結果

Ubuntu14.04+tensorflow1.7+python3.6+CUDA8.0+CUDNN5.0(雙版本tensorflow+雙版本python)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結