动手学(4)

批量归一化(BatchNormalization)

对输入的标准化(浅层模型)
处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近

批量归一化(深度模型)
利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。
1.对全连接层做批量归一化
位置:全连接层中的仿射变换和激活函数之间。
在这里插入图片描述
2.对卷积层做批量归⼀化
位置:卷积计算之后、应⽤激活函数之前。
如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数。 计算:对单通道,batchsize=m,卷积计算输出=pxq 对该通道中m×p×q个元素同时做批量归一化,使用相同的均值和方差。

3.预测时的批量归⼀化
训练:以batch为单位,对每个batch计算均值和方差。
预测:用移动平均估算整个训练数据集的样本均值和方差。

nn.BatchNorm2d()表示卷积层的BN,参数为通道数。nn.BatchNorm1d()表示全连接层的BN,参数为输出神经元个数。

拉伸参数和转换参数为可学习参数。
卷积层的BN放在卷积计算之后,激活函数之前。
预测时用移动平均预期整个训练数据集的样本均值和方差。
BN层能使整个神经网络在各层的中间输出的数值更稳定。

稠密连接网络过渡层中,1 * 1卷积层的主要作用是间接通道数

梯度下降是渐变的反方向移动自变量从而偏移函数值的。
局部极小值是渐变下降算法面临的一个挑战。

牛顿法比例梯度下降的一个优势在于:梯度下降“步幅”的确定比较困难,而牛顿法相当于可以通过Hessian矩阵来调整“步幅”。
牛顿法需要计算Hessian矩阵的逆,计算量比较大。
等级梯度下降法,牛顿法不可以避免局部极小值的问题。
在牛顿法中,局部极小值也可以通过调整学习率来解决。

关于动态学习率的说法,错误是(4)。

  1. 在最开始学习率设计比较大,加速收敛
  2. 学习率可以设计为指数衰减或多重式衰减
  3. 在优化进行的后可以适当过渡学习率来避免振荡
  4. 动态学习率可以通过迭代次数增加而增加学习率(应该通过转换次数增加重组学习率。)

关于特征抽取部分,以下陈述中正确的是:(3)

  1. 通过拾取靠近输出的层来抽取样式特征(选取靠近输入的层来抽取样式特征)
  2. 我们通过训练网络模型来收回更好的特征(我们不改变网络模型参数,只对合成图像的内容进行训练更新)
  3. 我们通过逐层计算来抽取输入图像的特征
  4. 用VGG网络各个卷积块的最后一层作为样式层(我们使用VGG网络各个卷积块的第一层作为样式层)

关于损失函数,下列陈述中错误的是:(2)

  1. 用Gram矩阵垂直各个通道上的样式特征的相关性
  2. 用样式图像与合成图像在样式层输出的平方误差上下样式损失(我们需要先求得Gram矩阵,用两个Gram矩阵的平方误差尺寸样式损失)
  3. 计算得的Gram矩阵尺寸与原图像高宽无关(Gram矩阵尺寸仅与通道数有关,所以与原图像的高和宽无关)
  4. 约会总变差损失减少噪声点
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章