第五週【任務1】簽到作業 過兒--《深度學習》花書訓練營【第五期】

a. 用公式說明爲何L2正則化又常被稱作“weight decay”

 

L2 regularization 又被叫做“權重衰減”,主要源於其在代價函數後面增加了一個正則化項。公式如下:

導致在L@正則化後,代價函數進行求導如下:

可以發現L2正則化對b沒有影響,但是對w的更新產生了影響:

相比之下,w每次更新都會比沒有正則化的情況下小一些,因此起到了權重衰減(weight decay)的作用。

參考資料:

爲什麼weight decay能夠防止過擬合?

 


b. L1正則化使得模型參數具有稀疏性的原理是什麼?(查閱資料找到L1與L0在一定條件下等價性)

 

        稀疏性就是很多參數爲0的情況,對於維度很高的模型,稀疏性意味着抓住主要矛盾,可以提升模型的泛化性能。
L1正則化:

W*=argmin \sum_{j}^{ } \left ( t\left ( X_{j} \right ) - \sum_{i}^{ } \omega_i h_{i}\left ( X_i \right ) \right )^2 + \lambda \sum_{i=1}^{k} \left | \omega_i \right |

L2正則化:

 

W*=argmin \sum_{j}^{ } \left ( t\left ( X_{j} \right ) - \sum_{i}^{ } \omega_i h_{i}\left ( X_i \right ) \right )^2 + \lambda \sum_{i=1}^{k} \omega_i^2

從梯度下降的角度理解

在這裏插入圖片描述

 

用梯度下降的方法,當w小於1的時候,L2正則項的懲罰效果越來越小,L1正則項懲罰效果依然很大,L1可以懲罰到0,而L2很難。

L2的求導後爲一階函數,對於大的www參數,懲罰作用大,對於小的www參數,懲罰作用小,很難懲罰到0,實際上起到了把大參數和小參數趨向於平均的作用;L1求導後爲常數,無論對於大小參數,其懲罰作用一樣,所以可以把小參數懲罰到0。

 

參考資料:

【理論與實例】L1正則化爲什麼可以使模型參數具有稀疏性?
 


c. 多任務學習通常可以獲得比單任務學習更好的泛化能力,主要原因有哪些?

        多任務學習(Multi-task learning)是和單任務學習(Single-task learning)相對的一種機器學習方法,可以同時學習多個任務,一般用於分類和迴歸。

多任務學習的基本假設是多個任務之間具有相關性(預測一張人臉是男性還是女性可能有利於預測這張人臉是大人還是小孩)、訓練集的分佈具有相關性、或者各個任務的域是相似的(比如所有任務涉及的圖像都是室外風景)。因此能夠利用任務之間的相關性互相促進,提高分類結果。

下面有一些常見理論:

  1. 如果兩個任務是處理輸入的相同函數,但是在任務信號中加入獨立的噪聲處理,很明顯這兩個任務是相關的。
  2. 如果兩個任務用於預測同個個體的屬性的不同方面,這些任務比預測不同個體的屬性的不同方面更相關。
  3. 兩個任務共同訓練時能相互幫助並不意味着它們是相關的:有時通過在後向傳播網絡的一個額外輸出加入噪聲可以提高泛化能力,但是這個噪聲任務與其它任務不相關。

例如,在屬性分類中,抹口紅和戴耳環有一定的相關性,單獨訓練的時候是無法利用這些信息的,而多任務學習則可以利用任務相關性聯合提高多個屬性分類的精度。

 

首先,多任務學習可以學到多個任務的共享表示,這個共享表示具有較強的抽象能力,能夠適應多個不同但相關的目標,通常可以使主任務獲得更好的泛化能力。

此外,由於使用共享表示,多個任務同時進行預測時,減少了數據來源的數量以及整體模型參數的規模,使預測更加高效。

因此,在多個應用領域中,可以利用多任務學習來提高效果或性能,比如垃圾郵件過濾、網頁檢索、自然語言處理、圖像識別、語音識別等。

單任務學習(SLT)如下圖:

 

mt1

多任務學習(MLT)入下圖:

mt2

 

        單任務學習的過程中忽略了任務之間的聯繫,而現實生活中的學習任務往往是有千絲萬縷的聯繫的。

例如,當一名守門員在學習如何撲救時,並不是單純地學習如何去撲球,而是會涉及許多相關的學習內容,比如如何進行預判,如何移動腳步,如何騰身起跳,如何平穩落地等。相似的,在計算機領域,多標籤圖像的分類,人臉的識別等等,這些任務都可以分爲多個子任務去學習,多任務學習的優勢就在於能發掘這些子任務之間的關係,同時又能區分這些任務之間的差別。

目前多任務學習方法大致可以總結爲兩類,一是不同任務之間共享相同的參數(common parameter),二是挖掘不同任務之間隱藏的共有數據特徵(latent feature)。

 

相關參考資料:

多任務學習(Multi-task learning)

 


d. 爲什麼在神經網絡中,dropout可以起到正則化的作用?

 

  • 由於每次用輸入網絡的樣本進行權值更新時,隱含節點都是以一定概率隨機出現,因此不能保證每2個隱含節點每次都同時出現,這樣權值的更新不再依賴於有固定關係隱含節點的共同作用,阻止了某些特徵僅僅在其它特定特徵下才有效果的情況,減少神經元之間複雜的共適應性。
  • 由於每一次都會隨機地刪除節點,下一個節點的輸出不再那麼依靠上一個節點,也就是說它在分配權重時,不會給上一層的某一結點非配過多的權重,起到了和L2正則化壓縮權重差不多的作用。
  • 可以將dropout看作是模型平均的一種,平均一個大量不同的網絡。不同的網絡在不同的情況下過擬合,雖然不同的網絡可能會產生不同程度的過擬合,但是將其公用一個損失函數,相當於對其同時進行了優化,取了平均,因此可以較爲有效地防止過擬合的發生。對於每次輸入到網絡中的樣本(可能是一個樣本,也可能是一個batch的樣本),其對應的網絡結構都是不同的,但所有的這些不同的網絡結構又同時共享隱含節點的權值,這種平均的架構被發現通常是十分有用的來減少過擬合方法。



參考資料:

理解神經網絡中的Dropout

Dropout正則化

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章