logistic regression 中的反向傳播 (back propagation)
梯度下降
在《深度學習中的 logistic regression》 一文中,最後我們得到了 logistic regression 的 cost function :
J(ω,β)=m1i∑L(y^,P(y∣x))
接下來只需要用梯度下降求解 cost function 的極小值。
現在我們在 logistic regression 中有 兩個參數,z=xTω+β,權重 ω,偏置 β。
因此梯度下降爲:
{}ω:=ω−α∂ω∂J(ω,β)β:=β−α∂β∂J(ω,β)
其中 α 爲學習率(超參數)。
接下來的未知量只有 ∂ω∂J(ω,β) 和 ∂β∂J(ω,β) 。所以接下來的問題就是求解這兩個值,這兩個值我們會把它叫做 J(ω,β) 的梯度,記爲 ∇J(ω,β)。即:
∇J(ω,β)=[∂ω∂J(ω,β)∂β∂J(ω,β)]
因此我們把這個算法叫做梯度下降。
現在我們要求解梯度,就需要用到 反向傳播 求梯度下降。
反向傳播
我們先來看一個普遍的正向傳播。
那它的反向傳播長什麼樣呢?
紅色線就是表示的反向傳播,每條線代表
我們先看一下在 loss function 前的反向傳播。
這個是正向的傳播,有目前的 ω 和 β 計算 z,然後通過 σ(z) 計算 y^,其中 y^ 表示 P(y=1∣x),然後通過 lossfunction 計算出 loss。
接下來如果我們已經求出 loss 了,我們要對 ω 和 β 進行修正。
也就是要求反向傳播。
先把舊稿發出,未完待續。(或許沒有後續???)
想被催更