對原始的BN來說,
y=σx−μ
∂x∂L=σ1[∂y∂L−N(∂y∂L,1)1−N(∂y∂L,y)y]
爲方便表示,令:
gB=N(∂y∂L,1)1,ψB=N(∂y∂L,y)y
我們現在的猜想,可以分爲以下幾點:
- σ的重要性更多的體現在自身的數值上,只要數值近似等於方差即可,可以利用這個數值來對該層的輸出和導數做一個大小上的規範,所以可以採用多種方式來進行計算。而其對應的導數ψB就沒那麼重要。
- 均值方面的信息比較少。但是根據MABN在valina BN上的實驗結果,在對均值方差做EMA,對gB,ψB做SMA的情況下,完全不收斂。再結合猜想1,大膽假設問題是出在均值的導數上gB
結合這兩點假設,要做以下實驗驗證猜想:
- 統計∂y∂L,gB,ψB,∂x∂L,畫圖,看他們的分佈。
- 在valina BN上,去掉ψB,看實驗結果。畫圖,看∂y∂L,gB,ψB,∂x∂L的分佈
- 將MABN的方法用在valina BN上,但是對gB不做處理,看實驗結果是否能收斂;
- 將MABN的方法用在valina BN上,但是對ψB不做處理,看實驗結果是否能收斂;