∂W∂L=XT∗∂Y∂L
矩陣形狀以圖中樣例爲例,W 矩陣爲 (2,3) ,X 矩陣爲 (1,2),令 M = X * W ,假設 wij 爲對 mi 而言,xj 的權重,由全連接層計算公式,有 : mi=∑wij∗xj
所以可知 : wij 在全連接層輸出Y的計算中,出現且只出現一次,所以 : ∂wij∂Y=xj
又 : 對 mi 而言,上層傳遞的導數爲∂yi∂L。
以該圖爲例構造L對參數W的導數矩陣U,以實現更新公式 : W = W - α * U,則有 :
∂W∂L=∂Y∂L∗∂W∂Y=[∂y1∂L∗x1∂y1∂L∗x2∂y2∂L∗x1∂y2∂L∗x2∂y3∂L∗x1∂y3∂L∗x2]=[x1x2]∗[∂y1∂L∂y2∂L∂y3∂L]=XT∗∂Y∂L
∂X∂L=∂Y∂L∗WT
假設 Y( x1,x2 ) = Y( u( x1 , x2 ) , f( x1, x2 ) , φ( x1, x2 ) ),其中 u , f , φ 對應着 y1 , y2 , y3 的輸出,以 x1 爲例,有 :
∂x1∂L=∂Y∂L∗∂x1∂Y=∂Y∂L∗(∂u∂Y∗∂x1∂u,∂f∂Y∗∂x1∂f,∂φ∂Y∗∂x1∂φ)=∂Y∂L∗(w11,w12,w13)T=w11∗∂y1∂L+w12∗∂y2∂L+w13∗∂y3∂L
即 :
∂x1∂L=∂Y∂L∗(w11,w12,w13)T
∂x2∂L=∂Y∂L∗(w21,w22,w23)T
所以 :
∂X∂L=∂Y∂L∗[w11w21w12w22w13w23]=∂Y∂L∗WT