对原始的BN来说,
y=σx−μ
∂x∂L=σ1[∂y∂L−N(∂y∂L,1)1−N(∂y∂L,y)y]
为方便表示,令:
gB=N(∂y∂L,1)1,ψB=N(∂y∂L,y)y
我们现在的猜想,可以分为以下几点:
- σ的重要性更多的体现在自身的数值上,只要数值近似等于方差即可,可以利用这个数值来对该层的输出和导数做一个大小上的规范,所以可以采用多种方式来进行计算。而其对应的导数ψB就没那么重要。
- 均值方面的信息比较少。但是根据MABN在valina BN上的实验结果,在对均值方差做EMA,对gB,ψB做SMA的情况下,完全不收敛。再结合猜想1,大胆假设问题是出在均值的导数上gB
结合这两点假设,要做以下实验验证猜想:
- 统计∂y∂L,gB,ψB,∂x∂L,画图,看他们的分布。
- 在valina BN上,去掉ψB,看实验结果。画图,看∂y∂L,gB,ψB,∂x∂L的分布
- 将MABN的方法用在valina BN上,但是对gB不做处理,看实验结果是否能收敛;
- 将MABN的方法用在valina BN上,但是对ψB不做处理,看实验结果是否能收敛;