Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent 閱讀報告矩陣分解的分佈式SSGD優化

原創

Hagtaril

2019-09-22 18:47

劉平

2019年9月4日

核心思想

基於DSGD對NMF非負矩陣分解算法進行優化。
DSGD指通過對訓練數據集進行一定的劃分，在劃分的每個數據子集裏運行SSGD，通過每個子結果得到整個訓練數據的結果。

算法流程和感想

NMF非負矩陣分解：
$V_{n \times m}=W_{m \times k}H_{k \times n}$
NMF矩陣分解常採用的損失函數是：
$\mathbf{1}.平方距離：||A-B||^2=\sum_{i,j}(A_{i,j}-B_{i,j})^2$

$\mathbf{2}.KL散度：D(A||B)=\sum_{i,j}(A_{i,j}log\frac{A_{i,j}}{B_{i,j}}-A_{i,j}+B_{i,j})$
優化損失函數時，採用隨機梯度下降法（SGD），在每一次迭代時不同於梯度下降法每一次迭代都是用所有訓練數據來計算，而是一次迭代僅採用一個樣本來計算，進而大大加快算法運行速度。
標準的隨機梯度下降法（SSGD）要實現收斂，對步長、損失函數的形式等有一定的要求，在滿足條件：
$\frac{\epsilon _ n - \epsilon _{n+1}}{\epsilon _n}=O(\epsilon _ n),\{ {\epsilon _n } \}爲步長序列；並且 \forall \theta\in H, \lim_{n\rightarrow \infin}\epsilon _n\sum_{i=0}^{n-1}[L_{\gamma_i}^{\prime}(\theta)-L^{\prime}(\theta)]=0.$
之後，通過對算法的具體設計來滿足步長不在目標處無限振盪、有足夠速度收斂到目標點，損失函數一階可微等其他可被調整設計進而滿足的條件。
有以上基礎準備後，DSGD優化的大規模矩陣的分解算法可以描述爲：對總體訓練數據進行分層，較優的分層方法是隨機不放回分層（Without-replacement selection），利用MapReduce的框架實現分佈式計算，將每一層的計算分配到不同主機，再分別獨立運行SSGD，每一層的結果的再彙總，進而得到整體訓練數據的結果。
每層的訓練結果可以進行彙總，主要是因爲：
$對於每一層數據\{\gamma_i\ | i=1...n\}，其兩兩之間具有互換性（Interhangeability）,$

$也就是說整個參數更新的過程是再生過程（Regenerative\ process）.$

因而可以直接將分佈式的每個層次更新的結果累加到整體的結果上。
- 在這種更新條件下，WRS選擇的不同的層次貢獻的更新有可能存在衝突重寫，即兩者對於總體的貢獻抵消，這種情況下似乎會存在某種情況使得總體結果不收斂。但我們討論的是Large-Scale的矩陣，在其足夠稀疏的情況下，即使有衝突重寫，結果依然可以收斂。(Hsieh C,Dhillon I S.Fast coordinate descent methods with variable selection for non-negative matrix factorization)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent 閱讀報告矩陣分解的分佈式SSGD優化

核心思想

算法流程和感想

寒假集訓Day 3 D題 Uva 1589 象棋

寒假集訓 Day2 D CodeForces - 825B:五子棋

寒假集訓 Day 11 G題孰先孰後 HDU 4857

寒假集訓 Day 7 E題 CodeForces 915C Permute Digits

寒假集訓 Day2 F Wooden Sticks HDU1051:木條排序

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent 閱讀報告 矩陣分解的分佈式SSGD優化

核心思想

算法流程和感想

Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent 閱讀報告矩陣分解的分佈式SSGD優化