Adashift論文解讀

原創

2020-03-31 03:47

論文提出了一個估計梯度對神經網絡影響的函數 $net(g_t)$ ，這個函數基於Adam二階動量更新規則

作者根據該公式分析，指出Adam存在的幾個個問題：

神經網絡在通過Adam優化的過程中，二階動量 $v_t$ 與梯度 $g_t$ 存在正相關，所以當一個 $g_t$ 更新到錯誤方向時， $v_t$ 更新也會出現錯誤，見公式 $v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2$ 。
Adam的步長更新存在不均衡問題，見公式 $\frac{\alpha}{\sqrt{v_t}}$ ，即梯度越大的時候，步長更新越小，梯度越小是步長更新越大。最終導致了Adam算法可能不收斂。
因此，在Adam的優化中，正確的梯度方向 $C$ 對結果產生的影響小於錯誤的梯度方向 $-1$ 。

作者提出來解決方案，

將 $g_t$ 與 $v_t$ 解相關，使用 $g_{t-n}$ 計算 $v_t$ 。
將 $g_t(t=1......n)$ ，分爲兩部分，分別用來計算一階動量 $m_t$ 與二階動量 $v_t$ ，即將 $v_t$ 與 $m_t$ 解相關（這塊沒理解爲啥）。
對神經網絡不同的層的參數更新使用不同的步長，每層一個步長。每層的參數更新只使用這一層前面參數。

存在的問題：
爲何 $g_t$ 與 $g_{t-n}$ 相互獨立，我認爲，這兩個變量必然是 $g_t$ 依賴於 $g_{t-n}$ ，因爲每次更新 $\theta$ 必然依賴於 $g$ ，新的 $\theta_{t+1}$ 更新依賴於 $g_t$ ， $\theta_{t+1}$ 又影響 $g_{t+1}$ ，所以 $g_t、g_{t+1}$ 相互依賴。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AAAI 2020 收錄的百度騰訊優圖螞蟻金服的論文

會議官網：https://aaai.org/Conferences/AAAI-20/ 關注公衆號code4fun，回覆 “百度28” ，打包下載會議收錄的百度研究院的論文。注：暫缺3篇，已標註，後續更新。百度28篇論文清單，來自

2020-07-08 08:24:13

基於深度學習的惡意 URL 識別

基於深度學習的惡意 URL 識別原文作者：陳康, 付華崢, 向勇原文期刊：計算機系統應用,2018,27(6):27–33 原文鏈接：http://www.c-s-a.org.cn/1003-3254/6370.html

2020-07-07 20:13:37

基於PU-Learning的惡意URL檢測

基於PU-Learning的惡意URL檢測原文作者：Ya-Lin Zhang, Longfei Li, Jun Zhou, Xiaolong Li, Yujiang Liu, Yuanchao Zhang, Zhi-Hua Zh

2020-07-07 20:13:37

基於機器學習的惡意URL識別--選自《通信技術》

基於機器學習的惡意URL識別原文作者：李澤宇，施勇，薛質原文期刊：信息安全與通信保密雜誌社選自《通信技術》2020年第二期 2020-03-10 原文鏈接：https://www.secrss.com/articles/

2020-07-07 20:13:37

A Deep Learning Approach to Fast, Format-Agnostic Detection of Malicious Web Content

一種快速、不區分格式的檢測惡意Web內容的深度學習方法作者：fish@DAS 原文作者：Joshua Saxe(主頁[1]), Richard Harang, Cody Wild, Hillary Sanders 原文標題：A

2020-07-07 20:13:37

ApproxANN——神經元關鍵性分析

ApproxANN: An Approximate Computing Framework for Artificial Neural Network 主要是解讀自己閱讀的這篇論文裏的3.1節部分——神經元關鍵性分析定義關鍵性

2020-07-07 13:28:57

論文閱讀：Meta-Learning in Neural Networks: A Survey

題目：Meta-Learning in Neural Networks: A Survey 論文地址：https://arxiv.org/abs/2004.05439 作者：Timothy Hospedales, Antreas Ant

2020-07-07 02:03:34

論文閱讀：A Baseline for Few-Shot Image Classification

題目：A Baseline for Few-Shot Image Classification 論文地址：https://arxiv.org/abs/1909.02729v2 作者：Guneet S. Dhillon, Pratik C

2020-07-07 02:03:34

跨領域遷移的連貫性模型（ACL 2019）

本文爲ACL 2019的論文A Cross-Domain Transferable Neural Coherence Model的讀後感。 1. 論文主旨本文主要是面向跨領域的連貫性建模的相關研究。採用的是一個局部判別模型，可以

2020-07-06 04:27:44

【論文閱讀】【綜述】從Optical Flow到Scene Flow

文章目錄Optical FlowFlowNet（2015ICCV）FlowNet2.0（2017CVPR）PWCNet（2018CVPR）MaskFlowNet（2020CVPR）Sene FlowPoint-basedPoint

2020-07-06 04:03:20

對Visualizing and Understanding Convolutional Networks的一些理解

本文通過引入CNN網絡的可視化技術分析AlexNet網絡結構，主要告訴我們CNN的每一層到底學習到了什麼特徵，讓我們在調參、改進網絡結構的時候提供一定的參考。 CNN網絡性能的顯著提高，得益於三個因素：（1）大量的帶標註的訓練數據

2020-07-05 22:19:52

01.Optimal,Sampling-Based Manipulaiton

本論文爲2017 ICRA的5篇最佳操作機械手論文之一。在實際應用中，機械臂的路徑規劃存在如下問題，目前還沒有哪個規劃方案能同時解決上述三個問題： 1、抓取、放置和其他動作的連續性； 2、運動規劃的完備

2020-07-05 21:02:30

求最大李雅普諾夫指數（Largest Lyapunov Exponents，LLE）的 Rosenstein 算法

文章目錄原始論文python 相關代碼混沌系統的常見指標最大李亞普諾夫指數的含義算法流程圖python 代碼模塊最近鄰maximum Lyapunov exponentRANSAC 擬合曲線例子：計算洛倫茲系統的最大李雅普諾夫指數

2020-07-05 17:46:29

IOTFUZZER: Discovering Memory Corruptions in IoT Through App-based Fuzzing

IOTFUZZER: Discovering Memory Corruptions in IoT Through App-based Fuzzing 隨着越來越多的物聯網設備進入消費市場，迫切需要在攻擊者之前檢測其安全漏洞。現有的

2020-07-05 14:36:27

匈牙利算法計算GED

time:2020.5.20 文章標題《approximate graph edit distance computation by means of bipartite graphs matching》 GED計算通常構建一個搜

2020-07-05 12:25:18

24小時熱門文章

最新文章

最新評論文章