最優化問題之如何逃離(跳出)鞍點（Saddle Points）

原創

2020-06-04 02:41

看了點鞍點相關的知識，做一下備錄。

我們知道在，優化問題中，深度學習的優化問題中，經常存在鞍點，就是這一點的導數爲0，從某些維度看是極小值，從另一些維度看是極大值，比如：

深度學習的尋優過程中，鞍點所造成的困難，遠比局部最小值大的多，因爲

1）在高維參數空間，鞍點存在較多
2）大量工作表面局部最優解，對於模型而言已經足夠好。

此外，正是因爲深度學習中鞍點的大量存在，傳統的牛頓法不適合，來尋優，因爲牛頓法是通過直接尋找梯度爲0的點，來尋優的,那麼極有可能陷入鞍點。
（ps: 也正因爲如此，牛頓法在Hessian爲正定的時候，比梯度下降速度快，因爲牛頓法直接找梯度爲0 的點，而梯度下降則是一次一次的尋找當前點的最優梯度）

那麼如何逃離，跳出鞍點呢？

1）利用Hessian矩陣，判斷是否爲鞍點，因爲，Hessian在鞍點具有正負特徵值，而在局部最小值點正定。

2）隨機梯度，相當於給正確的梯度加了一點noise，一定程度上避免了鞍點（但是隻是一定程度）,達到類似於如下公式的效果

3）隨機初始化起點，也有助於逃離鞍點，原因見here

4）增加偶爾的隨機擾動，詳見here

上一張各算法逃離鞍點的效果圖，有一個直觀的感覺：

最後，推薦大家看這兩篇博客，幫助大家理解：

Escaping from Saddle Points

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Deep Learning 之參數初始化

本文僅對常見的參數初始化方法進行總結（大部分內容來自deep learning一書），原理性的問題不進行過多的探討。 Deep Learning中參數初始化十分重要，一般來說有以下這些原因： 1.初始點的選取，有時候能夠決定算法

2020-07-08 10:23:34

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

神經網絡動量因子

其中動量係數一般取（0,1），直觀上理解就是要是當前梯度方向與前一步的梯度方向一樣，那麼就增加這一步的權值更新，要是不一樣就減少更新。更詳細的介紹參見《DeepLearning最優化方法之Momentum（動量）》

2020-07-08 10:23:34

BERT預訓練模型的演進過程！(附代碼)

文章目錄1. 什麼是BERT2. 從Word Embedding到Bert模型的發展2.1 圖像的預訓練2.2 Word Embedding2.3 ELMO2.4 GPT2.5 BERT2.5.1 Embedding2.5.2 M

2020-07-07 14:42:00

Transformer各層網絡結構詳解！面試必備！(附代碼實現)

文章目錄1. 什麼是Transformer2. Transformer結構2.1 總體結構2.2 Encoder層結構2.2.1 Positional Encoding2.2.2 Self-Attention2.2.3 Multi

2020-07-07 14:42:00

XLNet預訓練模型，看這篇就夠了！(代碼實現)

文章目錄1. 什麼是XLNet2. 自迴歸語言模型（Autoregressive LM）3. 自編碼語言模型（Autoencoder LM）4. XLNet模型4.1 排列語言建模（Permutation Language Mod

2020-07-07 14:41:58

seq2seq通俗理解----編碼器和解碼器(TensorFlow實現)

文章目錄1. 什麼是seq2seq2. 編碼器3. 解碼器4. 訓練模型5. seq2seq模型預測5.1 貪婪搜索5.2 窮舉搜索5.3 束搜索6. Bleu得分7. 代碼實現8. 參考文獻 1. 什麼是seq2seq 在⾃然語

2020-07-07 14:41:58

【Model Log】模型評估指標可視化，自動畫Loss、Accuracy曲線圖工具，無需人工參與!

文章目錄1. Model Log 介紹2. Model Log 特性3. Model Log 演示地址4. Model Log 安裝5. Model Log 使用5.1 啓動 web 端5.2 Model Log API使用5.3

2020-07-07 14:41:56

OpenCV學習教程入門篇

OpenCV，是Inter公司開發的免費開源專門由於圖像處理和機器視覺的C/C++庫，英文全稱是Open Source Computer Vision。 1. 可視化語言Matlab與OpenCV都可以用於圖像處理，學哪種比較好

2020-07-07 04:51:46

NLP筆記 CS224n（1）—— 詞向量

詞向量 NLP 處理文本，所以在進行處理之前，要先解決文本的表示。文本由詞組成，本文討論了表示詞彙的幾種方案。 WordNet 這種方法基於如下思想：用詞彙的意義來代表詞。所以我們可以建立若干個集合，每個集合代表一組同義詞，每個詞

是不是测评机针对我

2020-07-06 12:37:25

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

自然語言幾個重要的模型

自然語言幾個重要的模型。循環神經網絡 (序列模型序列依賴問題) 雙向循環神經網絡（輸入序列正向和反向依賴問題）深度雙向循環神經網絡 LSTM（梯度消失問題） GRU text CNN（一維卷積和池化） seq2seq（序列到

2020-07-06 22:44:07

模型實踐（二）bert 中文語料分類

1.下載bert源代碼和中文預訓練模型 bert代碼模型下載 Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameter

2020-07-06 22:44:07

關鍵詞提取-TFIDF 自定義逆文檔IDF的值

TF-IDF 用於提取關鍵詞，那麼如何從多個文檔中提取出關鍵詞。文章的關鍵詞可能有什麼規律，表示文章主要意思，那這個詞應該在該文章中出現多次，但是在其他文章中出現次數不多。 TF 詞頻（Term Frequency）表示w在文檔

2020-07-06 22:43:56

模型實踐（一）RNN LSTM 中文分類

對之前一節部分進行實踐，使用keras進行實現，keras關於循環神經網絡有多個方法。https://keras.io/zh/layers/recurrent/ SimpleRNN LSTM+CNN 樣本使用ai挑戰賽用戶評

2020-07-06 22:43:56

24小時熱門文章

最新文章

最新評論文章