DistBelief 框架下的並行隨機梯度下降法 - Downpour SGD

原創

2020-02-24 06:31

from:http://blog.csdn.net/itplus/article/details/31831661
可以閱讀：http://martin.zinkevich.org/publications/nips2010.pdf
SDG的並行算法，適用於採用SGD進行優化的算法，比如LR，神經網絡等。

本文是讀完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 後的一則讀書筆記，重點介紹在 Google 的軟件框架 DistBelief 下設計的一種用來訓練大規模深度神經網絡的隨機梯度下降法 — Downpour SGD，該方法通過分佈式地部署多個模型副本和一個“參數服務器”，同時實現了模型並行和數據並行，且對機器失效問題具有很好的容錯性。結合 Adagrad 自適應學習率使用，對非凸優化問題有很好的效果。