損失函數 J(θ)
J(θ)=−1m∑i=1m∑k=1K[y(i)kln(hθ(X(i))k)+(1−y(i)k)ln(1−hθ(X(i))k)]
+λ2m∑l=1L−1∑i=1sl+1∑j=1sl(θ(l)i,j)2
λ=0 時的單樣本損失函數 cost(θ;X,Y)
λ=0 時,單一樣本 X=⎛⎝⎜⎜x1⋮xs1⎞⎠⎟⎟,Y=⎛⎝⎜⎜y1⋮yK⎞⎠⎟⎟ 的損失函數:
cost(θ;X,Y)=−∑k=1K[ykln(hθ(X)k)+(1−yk)ln(1−hθ(X)k)]
令 a(1)=X
Z(l+1)=θ(l)a(l),1≤l≤L−1
a(l)=g(Z(l)),2≤l≤L, 其中函數 g 是 Logistic 函數。
則 a(L)=hθ(X)
於是 cost(θ;X,Y)=−∑k=1K[yklna(L)k+(1−yk)ln(1−a(L)k)]
則 J(θ)=1m∑i=1mcost(θ;X(i),Y(i))+λ2m∑l=1L−1∑i=1sl+1∑j=1sl(θ(l)i,j)2
cost(θ;X,Y) 關於 Z(l) 的梯度
令 δ(l)=∂∂Z(l)cost(θ;X,Y)=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜∂∂z(l)1cost(θ;X,Y)⋮∂∂z(l)slcost(θ;X,Y)⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,2≤l≤L,
則 δ(l)={a(L)−Y,(θ(l))⊺δ(l+1) .∗ a(l) .∗ (1−a(l)),l=L,2≤l≤L−1,
其中運算符 .∗ 爲 element-wise 的乘積,如 ⎛⎝⎜⎜x1⋮xn⎞⎠⎟⎟ .∗ ⎛⎝⎜⎜y1⋮yn⎞⎠⎟⎟=⎛⎝⎜⎜x1y1⋮xnyn⎞⎠⎟⎟ 。
證明
命題等價於:
δ(l)j=⎧⎩⎨⎪⎪a(L)j−yj,[∑i=1sl+1θ(l)i,jδ(l+1)i]⋅δ(l)j(1−a(l)j),l=L,2≤l≤L−1,1≤j≤sl
由 {Z(l+1)=θ(l)a(l),a(l)=g(Z(l)),1≤l≤L−1,2≤l≤L, 得:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∂z(l+1)i∂a(l)j=θ(l)i,j,1≤l≤L−1,da(l)jdz(l)j=g′(z(l)j)=a(l)j(1−a(l)j),2≤l≤L,
因此 ∂z(l+1)i∂z(l)j=θ(l)i,ja(l)j(1−a(l)j),2≤l≤L−1,
所以 δ(l)j=∑i=1sl+1δ(l+1)i∂z(l+1)i∂z(l)j
=∑i=1sl+1δ(l+1)iθ(l)i,ja(l)j(1−a(l)j)
=[∑i=1sl+1θ(l)i,jδ(l+1)i]⋅δ(l)j(1−a(l)j),2≤l≤L−1,
由於 ∂∂a(L)kcost(θ;X,Y)=−[yk1a(L)k−(1−yk)11−a(L)k]
=−(yk−a(L)k)1a(L)k(1−a(L)k)
=(a(L)k−yk)1a(L)k(1−a(L)k),1≤k≤sL=K
因此 (δ(L))j=∂∂aL,jcost(θ;X,Y)da(L)jdzL,j
=(a(L)j−yj)1a(L)j(1−a(L)j)a(L)j(1−a(L)j)
=a(L)j−yj,1≤j≤sL
因此,命題成立。
cost(θ;X,Y) 關於 θ 的梯度
∂∂θ(l)i,jcost(θ;X,Y)=δ(l+1)ia(l)j,1≤l<L−1
證明
由 ∂z(l+1)i∂θ(l)i,j=a(l)j,1≤l≤L−1,
得 ∂∂θ(l)i,jcost(θ;X,Y)=δ(l+1)i∂z(l+1)i∂θ(l)i,j=δ(l+1)ia(l)j,1≤l<L−1
推論
∂∂θ(l)cost(θ;X,Y)=δ(l+1)(a(l))⊺,1≤l<L−1
損失函數 J(θ) 關於 θ 的梯度
∀t∈N,1≤t≤m,
令 a(t,1)=X(t),
Z(t,l+1)=θ(l)a(t,l),1≤l≤L−1,
a(t,l)=g(Z(t,l)),2≤l≤L,
則 a(t,L)=hθ(X(t))
令 δ(t,l)=∂∂Z(t,l)cost(θ;X(t),Y(t))=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜∂∂z(t,l)1cost(θ;X(t),Y(t))⋮∂∂z(t,l)slcost(θ;X(t),Y(t))⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,2≤l≤L,
則 δ(t,l)={a(t,L)−Y(t),(θ(l))⊺δ(t,l+1) .∗ a(t,l) .∗ (1−a(t,l)),l=L,2≤l≤L−1,
於是 ∂∂θ(l)i,jcost(θ;X(t),Y(t))=δ(t,l+1)ia(t,l)j,1≤l<L−1
因此 ∂∂θ(l)i,jJ(θ)=1m∑t=1m∂∂θ(l)i,jcost(θ;X(t),Y(t))+λmθ(l)i,j
=1m∑i=1mδ(t,l+1)ia(t,l)j+λmθ(l)i,j,1≤l≤L−1
推論
∂∂θ(l)J(θ)=1m∑i=1mδ(t,l+1)(a(t,l))⊺+λmθ(l),1≤l≤L−1