乾貨|PRML讀書後記(一): 擬合學習

原創

osc_lgbm94am

2021-01-30 09:31

1 優美的高斯分佈

[P29]圖1.16很好的描繪了這樣表達的優美之處：

2 極大似然估計的病態擬合

3 參數-Regularizer

4 先驗分佈：高斯分佈

高斯分佈應該算是我們認知中，描繪一切連續型數值不確定性的最基本、最硬派的先驗知識了。

甭管你是什麼妖魔鬼怪，只要你是連續的，不是離散的，先給你套個高斯分佈的罪狀。

當然，欽定高斯分佈從數學角度是由原因的，和其優美的數學共軛形式有關。

[P98]的練習證明了，高斯似然分佈 x 高斯先驗分佈，結果仍然是一個高斯分佈。

(此證明需要熟讀第二章關於高斯分佈的 150 個公式，需要很好的概率論、線代基礎。)

高斯分佈在數學形式上有許多便利，比如下面提到的零均值簡化版高斯分佈，這爲貝葉斯方法招來很多

惡評，[P23] 是這樣解釋的：貝葉斯方法廣受批判的原因之一，是因爲其在選取先驗概率分佈上，根據的是

數學形式的便利爲基礎而不是先驗分佈的信度。

貝葉斯方法講究推導嚴謹，公式齊全，對於那些奇怪的、無法用數學語言表達原理的、廣佈自然界的先驗知識，

如Deep Learning思想，自然不會考慮，這也是爲什麼有人會認爲Deep Learning與Bayesian是對着幹的。[Quroa]

5 波動性懲罰：簡化高斯分佈

6 稀疏性懲罰：L1 Regularizer

I、大腦中有1000億以上的神經元，但是同時只有1%~4%激活，而且每次激活的區域都不一樣。

這是生物神經中的稀疏性。

II、稀疏性將原本信息纏繞密集數據給稀疏化，得到稀疏特徵表達。比如將實數5，稀疏爲一個[1,0,1]向量，

很容易線性可分了。又比如識別一直鳥，只要把噪聲給稀疏掉，保留關鍵部位，最後就有更好的特徵表達。

這是特徵表達上的稀疏性，實際應用有[稀疏編碼][深度神經網絡]，當然還有我們的生物神經網絡。

當然，以上和L1 Regularizer毫無關係，因爲它稀疏的姿勢錯了，要不然還要Deep Learning作甚。

首先，這個稀疏策略沒有Adaptive性，它並不會智能地的發現哪裏需要稀疏，哪裏不需要稀疏。

從數學規劃問題角度理解，它就是一個多元的約束條件，至於哪個元倒黴到被約束至0，這個沒人能確定。

其次，參數W直接影響着模型擬合能力，對它錯誤地稀疏0化，會造成嚴重的欠擬合。

基於以上兩點，不能認爲L1與L2類似，就認爲L1也能緩解過擬合，實際上它更有可能造成欠擬合。

7 L1&L2 Regularizer圖形化理解

來自[P146]、[P107].CHS.HIT.馬春鵬的有趣配圖，似乎能解釋爲什麼L1會直接得到0，而L2卻是無限接近0。

8 更好地發現特徵：Adaptive Represention Regularizer

Hinton組的[Erhan10] 認爲Deep Learning的Pre-Training也是一個Regularizer，原因有二：

其一，預訓練後參數W的搜索方向，有更大可能從局部最小值中逃逸。

其二，預訓練後參數W的搜索方向，讓似然函數值變大，但是得到了更好的歸納能力(測試錯誤率變低)。

第一點是比較神奇的Regularizer效果，即使是身披圖靈獎的Bayesian方法，也是無法解釋的。

第二點有點像是L2 Regularizer的效果，但是更大可能是與模型內部存有的Attention機制有關。

若是固定Pre-Training之後的參數W，那麼Pre-Training等效於一個非線性的PCA，預先注入了

對無標籤觀測數據的先驗知識，即得到了更合理的P(W)，這又是Bayesian方法所無法解釋的。

9 可靠的稀疏性：Adaptive Sparsity Regularizer

Deep Learning中有兩個能夠自適應引入稀疏性的方法，[ReLU]&[Dropout]。

I、[ReLU]對神經元的輸出稀疏，而神經元的輸出顯然是可變的。

II、[Dropout]是對神經元的輸出稀疏，不過方式有點特別，採用隨機概率來決定，而不是自適應方法。

但這並不能表明[Dropout]得不到自適應稀疏，它的自適應恰恰來自於隨機本身。

由於隨機性，每次網絡結構都不同，這壓迫了參數W朝一個穩定方向調整。

如2.1.2分析，[I]可以認爲是發現了稀疏特徵，替代L1。[II]可以認爲是類似生物神經網絡的稀疏激活機制，替代L2。

這兩者並不衝突，所以常規Deep Learning模型中，[I]+[II]是標配手段。

博客園：http://www.cnblogs.com/neopenx/p/4820567.html

乾貨|PRML讀書後記(一): 擬合學習

1

優美的高斯分佈

2

極大似然估計的病態擬合

3

參數-Regularizer

4

先驗分佈：高斯分佈

5

波動性懲罰：簡化高斯分佈

6

稀疏性懲罰：L1 Regularizer

7

L1&L2 Regularizer圖形化理解

8

更好地發現特徵：Adaptive Represention Regularizer

9

可靠的稀疏性：Adaptive Sparsity Regularizer

推薦閱讀：

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

因Flash停服，國內某鐵路系統一夜癱瘓還遭網友羣嘲

wordpress國內網速慢加速及防DDOS***快速CF切換教程

ES6 類的繼承

絕殺！Debug 大法，讓運維不再尷尬

Android進階解密④—插件化原理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結