动手学（4）

动手学（4）

原創

2020-02-27 22:48

批量归一化（BatchNormalization）

对输入的标准化（浅层模型）
处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近

批量归一化（深度模型）
利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。
1.对全连接层做批量归一化
位置：全连接层中的仿射变换和激活函数之间。

2.对卷积层做批量归⼀化
位置：卷积计算之后、应⽤激活函数之前。
如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数。计算：对单通道，batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。

3.预测时的批量归⼀化
训练：以batch为单位,对每个batch计算均值和方差。
预测：用移动平均估算整个训练数据集的样本均值和方差。

nn.BatchNorm2d()表示卷积层的BN，参数为通道数。nn.BatchNorm1d()表示全连接层的BN，参数为输出神经元个数。

拉伸参数和转换参数为可学习参数。
卷积层的BN放在卷积计算之后，激活函数之前。
预测时用移动平均预期整个训练数据集的样本均值和方差。
BN层能使整个神经网络在各层的中间输出的数值更稳定。

稠密连接网络过渡层中，1 * 1卷积层的主要作用是间接通道数

梯度下降是渐变的反方向移动自变量从而偏移函数值的。
局部极小值是渐变下降算法面临的一个挑战。

牛顿法比例梯度下降的一个优势在于：梯度下降“步幅”的确定比较困难，而牛顿法相当于可以通过Hessian矩阵来调整“步幅”。
牛顿法需要计算Hessian矩阵的逆，计算量比较大。
等级梯度下降法，牛顿法不可以避免局部极小值的问题。
在牛顿法中，局部极小值也可以通过调整学习率来解决。

关于动态学习率的说法，错误是（4）。

在最开始学习率设计比较大，加速收敛

学习率可以设计为指数衰减或多重式衰减

在优化进行的后可以适当过渡学习率来避免振荡

动态学习率可以通过迭代次数增加而增加学习率（应该通过转换次数增加重组学习率。）

关于特征抽取部分，以下陈述中正确的是：（3）

通过拾取靠近输出的层来抽取样式特征（选取靠近输入的层来抽取样式特征）

我们通过训练网络模型来收回更好的特征（我们不改变网络模型参数，只对合成图像的内容进行训练更新）

我们通过逐层计算来抽取输入图像的特征

用VGG网络各个卷积块的最后一层作为样式层（我们使用VGG网络各个卷积块的第一层作为样式层）

关于损失函数，下列陈述中错误的是：（2）

用Gram矩阵垂直各个通道上的样式特征的相关性

用样式图像与合成图像在样式层输出的平方误差上下样式损失（我们需要先求得Gram矩阵，用两个Gram矩阵的平方误差尺寸样式损失）

计算得的Gram矩阵尺寸与原图像高宽无关（Gram矩阵尺寸仅与通道数有关，所以与原图像的高和宽无关）

约会总变差损失减少噪声点

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

批量归一化（BatchNormalization）

如何使用 JS 判断用户是否处于活跃状态

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

mysql學習筆記(4)

mysql學習筆記(2)

動手學（4）

動手學（2）

動手深度學習（1）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結