NosAdam論文解析

原創

2020-03-31 03:47

該篇論文借鑑了Adashift中的核心思想，即梯度越大，更新步長越小。論文中，通過加強過去的梯度的權重，以避免神經網絡參數優化時，因爲遇到某個過大的梯度，進而導致後面整個參數優化速度降低、陷入局部最優解以至於不收斂。
論文使用下面的公式來定義二階動量更新的權重參數 $\beta_2$ 。
$\beta_{2,t}=\frac{B_{t-1}}{B_{t}}$
此處 $B_t=\sum_{k=1}^t b_k$ ，而 $b_k$ 在後面的論文中，作者證明了 $b_k=k^{-\gamma}$ 時符合理論要求。
對於Adam的參數更新，其二階動量 $v_t$ 更新公式，即：
$v_t^{Adam}=\sum_{k=1}^{t} (1-\beta_2)\beta_2^{t-k}g_k^2$
可以看到隨着 $k$ 值的增減 $g_t^2$ 的係數逐漸增大。而對於作者提出的NosAdam，其二階動量的更新公式可寫爲：
$v_t^{NosAdam}=\sum_{k=1}^{t} g_k^2\frac{b_k}{B_t}$
在NosAdam的二階動量更新公式中， $g_t^2$ 的係數逐漸降低，相對來說，即增加了過去的梯度對參數更新的影響。

作者也對爲何增加過去梯度的權重的原因，做了解釋。在下面的實驗中，作者通過引入一個large gradient展示了AMSGrad與NosAdam在面對這樣的梯度時，不同的結果。可以看到，AMSGrad由於large gradient的出現，導致 $v_t$ 的值增大，進而導致參數優化收斂速度降低，甚至不收斂。而NosAdam則避開這個問題，實現了較好的收斂。

下面貼上作者的算法僞碼，論文鏈接：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AAAI 2020 收錄的百度騰訊優圖螞蟻金服的論文

會議官網：https://aaai.org/Conferences/AAAI-20/ 關注公衆號code4fun，回覆 “百度28” ，打包下載會議收錄的百度研究院的論文。注：暫缺3篇，已標註，後續更新。百度28篇論文清單，來自

2020-07-08 08:24:13

基於深度學習的惡意 URL 識別

基於深度學習的惡意 URL 識別原文作者：陳康, 付華崢, 向勇原文期刊：計算機系統應用,2018,27(6):27–33 原文鏈接：http://www.c-s-a.org.cn/1003-3254/6370.html

2020-07-07 20:13:37

基於PU-Learning的惡意URL檢測

基於PU-Learning的惡意URL檢測原文作者：Ya-Lin Zhang, Longfei Li, Jun Zhou, Xiaolong Li, Yujiang Liu, Yuanchao Zhang, Zhi-Hua Zh

2020-07-07 20:13:37

基於機器學習的惡意URL識別--選自《通信技術》

基於機器學習的惡意URL識別原文作者：李澤宇，施勇，薛質原文期刊：信息安全與通信保密雜誌社選自《通信技術》2020年第二期 2020-03-10 原文鏈接：https://www.secrss.com/articles/

2020-07-07 20:13:37

A Deep Learning Approach to Fast, Format-Agnostic Detection of Malicious Web Content

一種快速、不區分格式的檢測惡意Web內容的深度學習方法作者：fish@DAS 原文作者：Joshua Saxe(主頁[1]), Richard Harang, Cody Wild, Hillary Sanders 原文標題：A

2020-07-07 20:13:37

ApproxANN——神經元關鍵性分析

ApproxANN: An Approximate Computing Framework for Artificial Neural Network 主要是解讀自己閱讀的這篇論文裏的3.1節部分——神經元關鍵性分析定義關鍵性

2020-07-07 13:28:57

論文閱讀：Meta-Learning in Neural Networks: A Survey

題目：Meta-Learning in Neural Networks: A Survey 論文地址：https://arxiv.org/abs/2004.05439 作者：Timothy Hospedales, Antreas Ant

2020-07-07 02:03:34

論文閱讀：A Baseline for Few-Shot Image Classification

題目：A Baseline for Few-Shot Image Classification 論文地址：https://arxiv.org/abs/1909.02729v2 作者：Guneet S. Dhillon, Pratik C

2020-07-07 02:03:34

跨領域遷移的連貫性模型（ACL 2019）

本文爲ACL 2019的論文A Cross-Domain Transferable Neural Coherence Model的讀後感。 1. 論文主旨本文主要是面向跨領域的連貫性建模的相關研究。採用的是一個局部判別模型，可以

2020-07-06 04:27:44

【論文閱讀】【綜述】從Optical Flow到Scene Flow

文章目錄Optical FlowFlowNet（2015ICCV）FlowNet2.0（2017CVPR）PWCNet（2018CVPR）MaskFlowNet（2020CVPR）Sene FlowPoint-basedPoint

2020-07-06 04:03:20

對Visualizing and Understanding Convolutional Networks的一些理解

本文通過引入CNN網絡的可視化技術分析AlexNet網絡結構，主要告訴我們CNN的每一層到底學習到了什麼特徵，讓我們在調參、改進網絡結構的時候提供一定的參考。 CNN網絡性能的顯著提高，得益於三個因素：（1）大量的帶標註的訓練數據

2020-07-05 22:19:52

01.Optimal,Sampling-Based Manipulaiton

本論文爲2017 ICRA的5篇最佳操作機械手論文之一。在實際應用中，機械臂的路徑規劃存在如下問題，目前還沒有哪個規劃方案能同時解決上述三個問題： 1、抓取、放置和其他動作的連續性； 2、運動規劃的完備

2020-07-05 21:02:30

求最大李雅普諾夫指數（Largest Lyapunov Exponents，LLE）的 Rosenstein 算法

文章目錄原始論文python 相關代碼混沌系統的常見指標最大李亞普諾夫指數的含義算法流程圖python 代碼模塊最近鄰maximum Lyapunov exponentRANSAC 擬合曲線例子：計算洛倫茲系統的最大李雅普諾夫指數

2020-07-05 17:46:29

IOTFUZZER: Discovering Memory Corruptions in IoT Through App-based Fuzzing

IOTFUZZER: Discovering Memory Corruptions in IoT Through App-based Fuzzing 隨着越來越多的物聯網設備進入消費市場，迫切需要在攻擊者之前檢測其安全漏洞。現有的

2020-07-05 14:36:27

匈牙利算法計算GED

time:2020.5.20 文章標題《approximate graph edit distance computation by means of bipartite graphs matching》 GED計算通常構建一個搜

2020-07-05 12:25:18

24小時熱門文章

最新文章

最新評論文章