1.激活函数的选择

使用一个神经网络时,需要决定使用哪种激活函数用隐藏层上,哪种用在输出节点上。

sigmoid: $a = \sigma(z) = \frac{1}{{1 + e}^{- z}}$

tanh: $a= tanh(z) = \frac{e^{z} - e^{- z}}{e^{z} + e^{- z}}$

ReLu: $a =max( 0,z)$

图像如下：

tanh 函数是 sigmoid 的向下平移和伸缩后的结果。对它进行了变形后,穿过了(0,0)点,并且值域介于+1 和-1 之间。
结果表明,如果在隐藏层上使用函数tanh效果总是优于 sigmoid 函数。因为函数值域在-1 和+1的激活函数,其均值是更接近零均值的。在训练一个算法模型时,如果使用 tanh 函数代替sigmoid 函数中心化数据,使得数据的平均值更接近 0 而不是 0.5。
tanh函数在所有场合都优于sigmoid函数。

但有一个例外：在二分类的问题中，对于输出层，因为 $y$ 的值是0或1，所以想让 $\hat{y}$ 的数值介于0和1之间，而不是在-1和+1之间。所以需要使用sigmoid激活函数。

sigmoid函数和tanh函数两者共同的缺点是，在 $z$ 特别大或者特别小的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于0，导致降低梯度下降的速度。

另一个很流行的函数是：修正线性单元的函数（ReLu）
只要 $z$ 是正值的情况下，导数恒等于1，当 $z$ 是负值的时候，导数恒等于0。从实际上来说，当使用 $z$ 的导数时， $z$ =0的导数是没有定义的。但是当编程实现的时候， $z$ 的取值刚好等于0.00000001，这个值相当小，所以，在实践中，不需要担心这个值， $z$ 是等于0的时候，假设一个导数是1或者0效果都可以。

选择激活函数的经验法则：

如果输出是0、1值（二分类问题），则输出层选择sigmoid函数，然后其它的所有单元都选择Relu函数。

这是很多激活函数的默认选择，如果在隐藏层上不确定使用哪个激活函数，那么通常会使用Relu激活函数。有时，也会使用tanh激活函数，但Relu的一个优点是：当 $z$ 是负值的时候，导数等于0。

这里也有另一个版本的Relu被称为Leaky Relu。

当 $z$ 是负值时，这个函数的值不是等于0，而是轻微的倾斜。

这个函数通常比Relu激活函数效果要好，尽管在实际中Leaky ReLu使用的并不多。

两者的优点是：

第一，在 $z$ 的区间变动很大的情况下，激活函数的导数或者激活函数的斜率都会远大于0，在程序实现就是一个if-else语句，而sigmoid函数需要进行浮点四则运算，在实践中，使用ReLu激活函数神经网络通常会比使用sigmoid或者tanh激活函数学习的更快。

第二，sigmoid和tanh函数的导数在正负饱和区的梯度都会接近于0，这会造成梯度弥散，而Relu和Leaky ReLu函数大于0部分都为常数，不会产生梯度弥散现象。(同时应该注意到的是，Relu进入负半区的时候，梯度为0，神经元此时不会训练，产生所谓的稀疏性，而Leaky ReLu不会有这问题)

$z$ 在ReLu的梯度一半都是0，但是，有足够的隐藏层使得z值大于0，所以对大多数的训练数据来说学习过程仍然可以很快。

概括一下不同激活函数的过程和结论

sigmoid激活函数：除了输出层是一个二分类问题基本不会用它。

tanh激活函数：tanh是非常优秀的，几乎适合所有场合。

ReLu激活函数：最常用的默认函数，如果不确定用哪个激活函数，就使用ReLu或者Leaky ReLu。
Leaky ReLu： $a = max( 0.01z,z)$
为什么常数是0.01？当然，可以为学习算法选择不同的参数。

在选择自己神经网络的激活函数时，有一定的直观感受，在深度学习中的经常遇到一个问题：在编写神经网络的时候，会有很多选择：隐藏层单元的个数、激活函数的选择、初始化权值……这些选择想得到一个对比较好的指导原则是挺困难的。

鉴于以上三个原因，以及在工业界的见闻，提供一种直观的感受，哪一种工业界用的多，哪一种用的少。但是，自己的神经网络的应用，以及其特殊性，是很难提前知道选择哪些效果更好。所以通常的建议是：如果不确定哪一个激活函数效果更好，可以把它们都试试，然后在验证集或者发展集上进行评价。然后看哪一种表现的更好，就去使用它。

2.为什么要用非线性激活函数

为什么神经网络需要非线性激活函数？事实证明：要让神经网络能够计算出有趣的函数，必须使用非线性激活函数。如果是用线性激活函数或者叫恒等激励函数，那么神经网络只是把输入线性组合再输出。

证明如下：
这是神经网络正向传播的方程，现在我们去掉函数 $g$ ，然后令 $a^{[1]} = z^{[1]}$ ，或者我们也可以令 $g(z)=z$ ，这个有时被叫做线性激活函数（更学术点的名字是恒等激励函数，因为它们就是把输入值输出）。为了说明问题我们把 $a^{[2]} = z^{[2]}$ ，那么这个模型的输出 $y$ 或仅仅只是输入特征 $x$ 的线性组合。

如果我们改变前面的式子，令：
(1) $a^{[1]} = z^{[1]} = W^{[1]}x + b^{[1]}$

(2) $a^{[2]} = z^{[2]} = W^{[2]}a^{[1]}+ b^{[2]}$
将式子(1)代入式子(2)中，则：
$a^{[2]} = z^{[2]} = W^{[2]}(W^{[1]}x + b^{[1]}) + b^{[2]}$

(3) $a^{[2]} = z^{[2]} = W^{[2]}W^{[1]}x + W^{[2]}b^{[1]} + b^{[2]}$
简化多项式得
$a^{[2]} = z^{[2]} = W^{'}x + b^{'}$

只有一个地方可以使用线性激活函数------ $g(z)=z$ ，就是在做机器学习中的回归问题。 $y$ 是一个实数，举个例子，比如你想预测房地产价格， $y$ 就不是二分类任务0或1，而是一个实数，从0到正无穷。如果 $y$ 是个实数，那么在输出层用线性激活函数也许可行，你的输出也是一个实数，从负无穷到正无穷。

总而言之，不能在隐藏层用线性激活函数，可以用ReLU或者tanh或者leaky ReLU或者其他的非线性激活函数，唯一可以用线性激活函数的通常就是输出层；除了这种情况，会在隐层用线性函数的，除了一些特殊情况，比如与压缩有关的。在这之外，在隐层使用线性激活函数非常少见。因为房价都是非负数，所以我们也可以在输出层使用ReLU函数这样你的 $\hat{y}$ 都大于等于0。

3.激活函数的导数

在神经网络中使用反向传播的时候，你真的需要计算激活函数的斜率或者导数。针对以下四种激活，求其导数如下：

1）sigmoid activation function

$\frac{d}{dz}g(z) = {\frac{1}{1 + e^{-z}} (1-\frac{1}{1 + e^{-z}})}=g(z)(1-g(z))$

代入数字验证：
当 $z$ = 10或 $z= -10$ ; $\frac{d}{dz}g(z)\approx0$

当 $z$ = 0 , $\frac{d}{dz}g(z)\text{=g(z)(1-g(z))=}{1}/{4}$

在神经网络中 $a= g(z)$ ; $g{{(z)}^{'}}=\frac{d}{dz}g(z)=a(1-a)$

Tanh activation function

$g(z) = tanh(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}$

导数为：
$\frac{d}{{d}z}g(z) = 1 - (tanh(z))^{2}$

代入数字验证：

当 $z$ = 10或 $z= -10$ $\frac{d}{dz}g(z)\approx0$

当 $z$ = 0, $\frac{d}{dz}g(z)\text{=1-(0)=}1$

在神经网络中 $a= g(z)$ ; $g{{(z)}^{'}}=\frac{d}{dz}g(z)=1 - (tanh(z))^{2}$

3）Rectified Linear Unit (ReLU)

$g(z)=\max(0,z) \\ \\ \\ g(z)^{'}= \begin{cases} 0& \text{if z < 0}\\ 1& \text{if z > 0}\\ undefined& \text{if z = 0} \end{cases}$

注：通常在 $z$ = 0的时候给定其导数1,0（虽然这一点并不可微）；当然 $z$ =0的情况很少

4）Leaky linear unit (Leaky ReLU)

与ReLU类似
$g(z)=\max(0.01z,z) \\ \\ \\ g(z)^{'}= \begin{cases} 0.01& \text{if z < 0}\\ 1& \text{if z > 0}\\ undefined& \text{if z = 0} \end{cases}$

注：通常在 $z = 0$ 的时候给定其导数1,0.01；当然 $z=0$ 的情况很少。

【DL】激活函数

1.激活函数的选择

2.为什么要用非线性激活函数

3.激活函数的导数

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

linux安装cuda和cudnn

Mellanox网卡开启SR-IOV

模拟手机设备：使用 Playwright 实现移动端自动化测试

HTML 00 Tutorial

全面系统的AI学习路径，帮助普通人也能玩转AI

从零开始：使用 Playwright 脚本录制实现自动化测试

uni-app实现上拉加载

【python模塊】turtle畫圖模塊

【python】numpy的廣播機制

【python】高級特性之裝飾器

【python】27_爬蟲初體驗之爬取微博用戶信息、爬取微博用戶發佈內容

【DL】激活函數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結