BN实验计划

对原始的BN来说,
y=xμσ\overrightarrow{y}=\frac{\overrightarrow{x}-\mu}{\sigma}
Lx=1σ[Ly(Ly,1)N1(Ly,y)Ny]\frac{\partial L}{\partial \overrightarrow{x}}=\frac{1}{\sigma}[\frac{\partial L}{\partial \overrightarrow{y}}-\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{1})}{N}\overrightarrow{1}- \frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{y})}{N}\overrightarrow{y}]
为方便表示,令:
gB=(Ly,1)N1,ψB=(Ly,y)Nyg_B=\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{1})}{N}\overrightarrow{1},\psi_B=\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{y})}{N}\overrightarrow{y}
我们现在的猜想,可以分为以下几点:

  • σ\sigma的重要性更多的体现在自身的数值上,只要数值近似等于方差即可,可以利用这个数值来对该层的输出和导数做一个大小上的规范,所以可以采用多种方式来进行计算。而其对应的导数ψB\psi_B就没那么重要。
  • 均值方面的信息比较少。但是根据MABN在valina BN上的实验结果,在对均值方差做EMA,对gB,ψBg_B,\psi_B做SMA的情况下,完全不收敛。再结合猜想1,大胆假设问题是出在均值的导数上gBg_B

结合这两点假设,要做以下实验验证猜想:

  • 统计Ly,gB,ψBLx\frac{\partial L}{\partial \overrightarrow{y}},g_B,\psi_B,\frac{\partial L}{\partial \overrightarrow{x}},画图,看他们的分布。
  • 在valina BN上,去掉ψB\psi_B,看实验结果。画图,看Ly,gB,ψBLx\frac{\partial L}{\partial \overrightarrow{y}},g_B,\psi_B,\frac{\partial L}{\partial \overrightarrow{x}}的分布
  • 将MABN的方法用在valina BN上,但是对gBg_B不做处理,看实验结果是否能收敛;
  • 将MABN的方法用在valina BN上,但是对ψB\psi_B不做处理,看实验结果是否能收敛;
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章