深度學習相關知識學習筆記

1基本概念

(1)機器學習

解釋
解釋
解釋
機器學習
監督學習
無監督學習
強化學習
輸入,正確輸出
輸入
輸入,部分輸出,相應輸出的等級

(2)用於神經網絡的監督學習過程的三種典型算法

  • 隨機梯度下降算法(SGD):Δωij=αδixj\Delta \omega _{ij}= \alpha \delta _{i}x_{j}
    訓練完一個數據就更新一次權值

  • 批量算法(batch):
    每次用到所有的訓練數據,最後取更新權值的平均值,最後只更新一次權值。
    Δωij=1Nk=1NΔωij(k)\Delta \omega_{ij}= \frac{1}{N}\sum_{k=1}^{N}\Delta \omega_{ij}(k)
    Δωij(k)\Delta \omega_{ij}(k)是第k個訓練數據的權值更新值
    N爲訓練數據的總數
    批量算法所需要的訓練時間較長。

  • 小批量算法(minibatch)
    是批量算法與SGD的結合

小結:輪數(epoch):全部數據都參與訓練的循環次數。即全部數據都參與了訓練,稱爲一輪。而改變一次權值,被稱爲網絡被訓練了1次。在有N個訓練數據的前提下,對於批量算法而言,每一輪訓練的次數爲1,因爲其只在所有權值誤差計算完以後才更新一次權值。而對於SGD而言,每一輪的訓練次數爲N,因爲其每一組數據計算完都要更新一次權值。而對於小批量法,需要具體考慮其每次從中選擇多少數據進行小批量處理。SGD的學習速度更快。

(3)單層神經網絡僅能解決線性可分割問題,多層神經網絡可以克服單層神經網絡的侷限性。另外,隱含層激活函數,不能採用線性函數,這樣化簡後,隱含層將失效。

(4)神經網絡的分類

單層神經網絡 多層神經網絡
淺層神經網絡 /深度神經網絡
輸入—輸出 輸入-單隱層-輸出/輸入-多隱層-輸出

(5)代價函數,也稱損失函數或目標函數。
代價函數與神經網絡的監督學習有關,神經網絡的誤差越大,代價函數的值越大。

  • 誤差的平方和
    J=i=1M12(diyi)2J=\sum_{i=1}^{M}\frac{1}{2}(d_{i}-y_{i})^{2}
  • 交叉熵函數
    交叉熵驅動的訓練降低誤差的速度更快。
    其隨誤差的增大而呈幾何上升趨勢,即交叉熵函數對誤差更敏感。在迴歸中,可不使用交叉熵函數驅動的學習規則,其他情況下,推薦使用。
    J=i=1M[diln(yi)(1di)ln(1yi)]J=\sum_{i=1}^{M}[-d_{i}ln(y_{i})-(1-d_{i})ln(1-y_{i})]

(6)克服過擬合的重要方法:採用正則化將模型變得儘可能簡單。
正則化的精華在於將權重之和引入到代價函數中。
J=i=1M12(diyi)2+λ12ω2J=\sum_{i=1}^{M}\frac{1}{2}(d_{i}-y_{i})^{2}+\lambda \frac{1}{2}||\omega ||^{2}
J=i=1M[diln(yi)(1di)ln(1yi)]+λ12ω2J=\sum_{i=1}^{M}[-d_{i}ln(y_{i})-(1-d_{i})ln(1-y_{i})]+\lambda \frac{1}{2}||\omega ||^{2}

正則化原理:當輸出誤差和權重保持較大時,代價函數爲較大值,僅將誤差變爲0,不足以減小代價函數的值。爲了減小代價函數的值,應當控制誤差和權重都儘可能減小。這樣,當一個權值變得足夠小時,相關結點實際上將被斷開,這樣將使得不必要的連接被消除,從而簡化了 網絡結構,可以一定程度上改善過擬合。

(7)二分類神經網絡的輸出層只有一個節點,採用Sigmoid函數作爲激活函數。對於多分類器則多采用Softmax函數作爲輸出節點的激活函數,其反應的是輸出各類別所佔百分比。即多大概率被判定爲某一類。

(8)深度神經網絡

  • 引入ReLU(整流線型單元Rectified Linear Unit)作爲激活函數,解決梯度消失問題
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章