1
優美的高斯分佈
[P29]圖1.16很好的描繪了這樣表達的優美之處:
2
極大似然估計的病態擬合
3
參數-Regularizer
4
先驗分佈:高斯分佈
高斯分佈應該算是我們認知中,描繪一切連續型數值不確定性的最基本、最硬派的先驗知識了。
甭管你是什麼妖魔鬼怪,只要你是連續的,不是離散的,先給你套個高斯分佈的罪狀。
當然,欽定高斯分佈從數學角度是由原因的,和其優美的數學共軛形式有關。
[P98]的練習證明了,高斯似然分佈 x 高斯先驗分佈,結果仍然是一個高斯分佈。
(此證明需要熟讀第二章關於高斯分佈的 150 個公式,需要很好的概率論、線代基礎。)
高斯分佈在數學形式上有許多便利,比如下面提到的零均值簡化版高斯分佈,這爲貝葉斯方法招來很多
惡評,[P23] 是這樣解釋的:貝葉斯方法廣受批判的原因之一,是因爲其在選取先驗概率分佈上,根據的是
數學形式的便利爲基礎而不是 先驗分佈的信度 。
貝葉斯方法講究推導嚴謹,公式齊全,對於那些奇怪的、無法用數學語言表達原理的、廣佈自然界的先驗知識,
如Deep Learning思想,自然不會考慮,這也是爲什麼有人會認爲Deep Learning與Bayesian是對着幹的。[Quroa]
5
波動性懲罰:簡化高斯分佈
6
稀疏性懲罰:L1 Regularizer
I、大腦中有1000億以上的神經元,但是同時只有1%~4%激活,而且每次激活的區域都不一樣。
這是生物神經中的稀疏性。
II、稀疏性將原本信息纏繞密集數據給稀疏化,得到稀疏特徵表達。比如將實數5,稀疏爲一個[1,0,1]向量,
很容易線性可分了。又比如識別一直鳥,只要把噪聲給稀疏掉,保留關鍵部位,最後就有更好的特徵表達。
這是特徵表達上的稀疏性,實際應用有[稀疏編碼][深度神經網絡],當然還有我們的生物神經網絡。
當然,以上和L1 Regularizer毫無關係,因爲它稀疏的姿勢錯了,要不然還要Deep Learning作甚。
首先,這個稀疏策略沒有Adaptive性,它並不會智能地的發現哪裏需要稀疏,哪裏不需要稀疏。
從數學規劃問題角度理解,它就是一個多元的約束條件,至於哪個元倒黴到被約束至0,這個沒人能確定。
其次,參數W直接影響着模型擬合能力,對它錯誤地稀疏0化,會造成嚴重的欠擬合。
基於以上兩點,不能認爲L1與L2類似,就認爲L1也能緩解過擬合,實際上它更有可能造成欠擬合。
7
L1&L2 Regularizer圖形化理解
來自[P146]、[P107].CHS.HIT.馬春鵬的有趣配圖,似乎能解釋爲什麼L1會直接得到0,而L2卻是無限接近0。
8
更好地發現特徵:Adaptive Represention Regularizer
Hinton組的[Erhan10] 認爲Deep Learning的Pre-Training也是一個Regularizer,原因有二:
其一,預訓練後參數W的搜索方向,有更大可能從局部最小值中逃逸。
其二,預訓練後參數W的搜索方向,讓似然函數值變大,但是得到了更好的歸納能力(測試錯誤率變低)。
第一點是比較神奇的Regularizer效果,即使是身披圖靈獎的Bayesian方法,也是無法解釋的。
第二點有點像是L2 Regularizer的效果,但是更大可能是與模型內部存有的Attention機制有關。
若是固定Pre-Training之後的參數W,那麼Pre-Training等效於一個非線性的PCA,預先注入了
對無標籤觀測數據的先驗知識,即得到了更合理的P(W),這又是Bayesian方法所無法解釋的。
9
可靠的稀疏性:Adaptive Sparsity Regularizer
Deep Learning中有兩個能夠自適應引入稀疏性的方法,[ReLU]&[Dropout]。
I、[ReLU]對神經元的輸出稀疏,而神經元的輸出顯然是可變的。
II、[Dropout]是對神經元的輸出稀疏,不過方式有點特別,採用隨機概率來決定,而不是自適應方法。
但這並不能表明[Dropout]得不到自適應稀疏,它的自適應恰恰來自於隨機本身。
由於隨機性,每次網絡結構都不同,這壓迫了參數W朝一個穩定方向調整。
如2.1.2分析,[I]可以認爲是發現了稀疏特徵,替代L1。[II]可以認爲是類似生物神經網絡的稀疏激活機制,替代L2。
這兩者並不衝突,所以常規Deep Learning模型中,[I]+[II]是標配手段。
博客園:http://www.cnblogs.com/neopenx/p/4820567.html
推薦閱讀:
精選乾貨|近半年乾貨目錄彙總
乾貨|臺灣大學林軒田機器學習基石課程學習筆記5 -- Training versus Testing
乾貨|MIT線性代數課程精細筆記[第一課]
歡迎關注公衆號學習交流~
歡迎加入交流羣交流學習