乾貨|PRML讀書後記(一): 擬合學習

1

優美的高斯分佈

乾貨|PRML讀書後記(一): 擬合學習
乾貨|PRML讀書後記(一): 擬合學習
乾貨|PRML讀書後記(一): 擬合學習

[P29]圖1.16很好的描繪了這樣表達的優美之處:
乾貨|PRML讀書後記(一): 擬合學習

2

極大似然估計的病態擬合

乾貨|PRML讀書後記(一): 擬合學習

3

參數-Regularizer

乾貨|PRML讀書後記(一): 擬合學習
乾貨|PRML讀書後記(一): 擬合學習

4

先驗分佈:高斯分佈

高斯分佈應該算是我們認知中,描繪一切連續型數值不確定性的最基本、最硬派的先驗知識了。

甭管你是什麼妖魔鬼怪,只要你是連續的,不是離散的,先給你套個高斯分佈的罪狀。

當然,欽定高斯分佈從數學角度是由原因的,和其優美的數學共軛形式有關。

[P98]的練習證明了,高斯似然分佈 x 高斯先驗分佈,結果仍然是一個高斯分佈。

(此證明需要熟讀第二章關於高斯分佈的 150 個公式,需要很好的概率論、線代基礎。)

高斯分佈在數學形式上有許多便利,比如下面提到的零均值簡化版高斯分佈,這爲貝葉斯方法招來很多

惡評,[P23] 是這樣解釋的:貝葉斯方法廣受批判的原因之一,是因爲其在選取先驗概率分佈上,根據的是

數學形式的便利爲基礎而不是 先驗分佈的信度 。

貝葉斯方法講究推導嚴謹,公式齊全,對於那些奇怪的、無法用數學語言表達原理的、廣佈自然界的先驗知識,

如Deep Learning思想,自然不會考慮,這也是爲什麼有人會認爲Deep Learning與Bayesian是對着幹的。[Quroa]

5

波動性懲罰:簡化高斯分佈

乾貨|PRML讀書後記(一): 擬合學習
乾貨|PRML讀書後記(一): 擬合學習
乾貨|PRML讀書後記(一): 擬合學習
乾貨|PRML讀書後記(一): 擬合學習


6

稀疏性懲罰:L1 Regularizer

乾貨|PRML讀書後記(一): 擬合學習
乾貨|PRML讀書後記(一): 擬合學習

I、大腦中有1000億以上的神經元,但是同時只有1%~4%激活,而且每次激活的區域都不一樣。

這是生物神經中的稀疏性。

II、稀疏性將原本信息纏繞密集數據給稀疏化,得到稀疏特徵表達。比如將實數5,稀疏爲一個[1,0,1]向量,

很容易線性可分了。又比如識別一直鳥,只要把噪聲給稀疏掉,保留關鍵部位,最後就有更好的特徵表達。

這是特徵表達上的稀疏性,實際應用有[稀疏編碼][深度神經網絡],當然還有我們的生物神經網絡。

當然,以上和L1 Regularizer毫無關係,因爲它稀疏的姿勢錯了,要不然還要Deep Learning作甚。

首先,這個稀疏策略沒有Adaptive性,它並不會智能地的發現哪裏需要稀疏,哪裏不需要稀疏。

從數學規劃問題角度理解,它就是一個多元的約束條件,至於哪個元倒黴到被約束至0,這個沒人能確定。

其次,參數W直接影響着模型擬合能力,對它錯誤地稀疏0化,會造成嚴重的欠擬合。

基於以上兩點,不能認爲L1與L2類似,就認爲L1也能緩解過擬合,實際上它更有可能造成欠擬合。

7

L1&L2 Regularizer圖形化理解

來自[P146]、[P107].CHS.HIT.馬春鵬的有趣配圖,似乎能解釋爲什麼L1會直接得到0,而L2卻是無限接近0。
乾貨|PRML讀書後記(一): 擬合學習

8

更好地發現特徵:Adaptive Represention Regularizer

Hinton組的[Erhan10] 認爲Deep Learning的Pre-Training也是一個Regularizer,原因有二:

其一,預訓練後參數W的搜索方向,有更大可能從局部最小值中逃逸。

其二,預訓練後參數W的搜索方向,讓似然函數值變大,但是得到了更好的歸納能力(測試錯誤率變低)。

第一點是比較神奇的Regularizer效果,即使是身披圖靈獎的Bayesian方法,也是無法解釋的。

第二點有點像是L2 Regularizer的效果,但是更大可能是與模型內部存有的Attention機制有關。

若是固定Pre-Training之後的參數W,那麼Pre-Training等效於一個非線性的PCA,預先注入了

對無標籤觀測數據的先驗知識,即得到了更合理的P(W),這又是Bayesian方法所無法解釋的。

9

可靠的稀疏性:Adaptive Sparsity Regularizer

Deep Learning中有兩個能夠自適應引入稀疏性的方法,[ReLU]&[Dropout]。

I、[ReLU]對神經元的輸出稀疏,而神經元的輸出顯然是可變的。

II、[Dropout]是對神經元的輸出稀疏,不過方式有點特別,採用隨機概率來決定,而不是自適應方法。

但這並不能表明[Dropout]得不到自適應稀疏,它的自適應恰恰來自於隨機本身。

由於隨機性,每次網絡結構都不同,這壓迫了參數W朝一個穩定方向調整。

如2.1.2分析,[I]可以認爲是發現了稀疏特徵,替代L1。[II]可以認爲是類似生物神經網絡的稀疏激活機制,替代L2。

這兩者並不衝突,所以常規Deep Learning模型中,[I]+[II]是標配手段。

博客園:http://www.cnblogs.com/neopenx/p/4820567.html

推薦閱讀:

精選乾貨|近半年乾貨目錄彙總
乾貨|臺灣大學林軒田機器學習基石課程學習筆記5 -- Training versus Testing
乾貨|MIT線性代數課程精細筆記[第一課]

           歡迎關注公衆號學習交流~          

乾貨|PRML讀書後記(一): 擬合學習
歡迎加入交流羣交流學習

乾貨|PRML讀書後記(一): 擬合學習

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章