BN实验计划

BN实验计划

原創

2020-03-02 14:00

对原始的BN来说，
$\overrightarrow{y}=\frac{\overrightarrow{x}-\mu}{\sigma}$
$\frac{\partial L}{\partial \overrightarrow{x}}=\frac{1}{\sigma}[\frac{\partial L}{\partial \overrightarrow{y}}-\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{1})}{N}\overrightarrow{1}- \frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{y})}{N}\overrightarrow{y}]$
为方便表示，令：
$g_B=\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{1})}{N}\overrightarrow{1},\psi_B=\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{y})}{N}\overrightarrow{y}$
我们现在的猜想，可以分为以下几点：

$\sigma$ 的重要性更多的体现在自身的数值上，只要数值近似等于方差即可，可以利用这个数值来对该层的输出和导数做一个大小上的规范，所以可以采用多种方式来进行计算。而其对应的导数 $\psi_B$ 就没那么重要。
均值方面的信息比较少。但是根据MABN在valina BN上的实验结果，在对均值方差做EMA，对 $g_B,\psi_B$ 做SMA的情况下，完全不收敛。再结合猜想1，大胆假设问题是出在均值的导数上 $g_B$

结合这两点假设，要做以下实验验证猜想：

统计 $\frac{\partial L}{\partial \overrightarrow{y}},g_B,\psi_B，\frac{\partial L}{\partial \overrightarrow{x}}$ ，画图，看他们的分布。
在valina BN上，去掉 $\psi_B$ ，看实验结果。画图，看 $\frac{\partial L}{\partial \overrightarrow{y}},g_B,\psi_B，\frac{\partial L}{\partial \overrightarrow{x}}$ 的分布
将MABN的方法用在valina BN上，但是对 $g_B$ 不做处理，看实验结果是否能收敛；
将MABN的方法用在valina BN上，但是对 $\psi_B$ 不做处理，看实验结果是否能收敛；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

工作中用到的脚本合集

微服务实践Aspire项目发布到远程k8s集群

通过f-string编写简洁高效的Python格式化输出代码

[转帖]20个常用的Linux工具命令

[转帖]PostgreSQL从小白到高手教程 - 第46讲：poc-tpch测试

24-5-18 X

開題內容

detach_channel_max試驗記錄

The Lottery Ticket Hypothesis

FRN提升方法

目前做法整理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結