BN實驗計劃

對原始的BN來說,
y=xμσ\overrightarrow{y}=\frac{\overrightarrow{x}-\mu}{\sigma}
Lx=1σ[Ly(Ly,1)N1(Ly,y)Ny]\frac{\partial L}{\partial \overrightarrow{x}}=\frac{1}{\sigma}[\frac{\partial L}{\partial \overrightarrow{y}}-\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{1})}{N}\overrightarrow{1}- \frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{y})}{N}\overrightarrow{y}]
爲方便表示,令:
gB=(Ly,1)N1,ψB=(Ly,y)Nyg_B=\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{1})}{N}\overrightarrow{1},\psi_B=\frac{(\frac{\partial L}{\partial \overrightarrow{y}},\overrightarrow{y})}{N}\overrightarrow{y}
我們現在的猜想,可以分爲以下幾點:

  • σ\sigma的重要性更多的體現在自身的數值上,只要數值近似等於方差即可,可以利用這個數值來對該層的輸出和導數做一個大小上的規範,所以可以採用多種方式來進行計算。而其對應的導數ψB\psi_B就沒那麼重要。
  • 均值方面的信息比較少。但是根據MABN在valina BN上的實驗結果,在對均值方差做EMA,對gB,ψBg_B,\psi_B做SMA的情況下,完全不收斂。再結合猜想1,大膽假設問題是出在均值的導數上gBg_B

結合這兩點假設,要做以下實驗驗證猜想:

  • 統計Ly,gB,ψBLx\frac{\partial L}{\partial \overrightarrow{y}},g_B,\psi_B,\frac{\partial L}{\partial \overrightarrow{x}},畫圖,看他們的分佈。
  • 在valina BN上,去掉ψB\psi_B,看實驗結果。畫圖,看Ly,gB,ψBLx\frac{\partial L}{\partial \overrightarrow{y}},g_B,\psi_B,\frac{\partial L}{\partial \overrightarrow{x}}的分佈
  • 將MABN的方法用在valina BN上,但是對gBg_B不做處理,看實驗結果是否能收斂;
  • 將MABN的方法用在valina BN上,但是對ψB\psi_B不做處理,看實驗結果是否能收斂;
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章