Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent 閱讀報告 矩陣分解的分佈式SSGD優化

劉平

2019年9月4日


核心思想

  • 基於DSGD對NMF非負矩陣分解算法進行優化。

  • DSGD指通過對訓練數據集進行一定的劃分,在劃分的每個數據子集裏運行SSGD,通過每個子結果得到整個訓練數據的結果。


算法流程和感想

  1. NMF非負矩陣分解:
    Vn×m=Wm×kHk×n V_{n \times m}=W_{m \times k}H_{k \times n}
    NMF矩陣分解常採用的損失函數是:
    1.AB2=i,j(Ai,jBi,j)2 \mathbf{1}.平方距離:||A-B||^2=\sum_{i,j}(A_{i,j}-B_{i,j})^2

    2.KLD(AB)=i,j(Ai,jlogAi,jBi,jAi,j+Bi,j) \mathbf{2}.KL散度:D(A||B)=\sum_{i,j}(A_{i,j}log\frac{A_{i,j}}{B_{i,j}}-A_{i,j}+B_{i,j})

  2. 優化損失函數時,採用隨機梯度下降法(SGD),在每一次迭代時不同於梯度下降法每一次迭代都是用所有訓練數據來計算,而是一次迭代僅採用一個樣本來計算,進而大大加快算法運行速度。

  3. 標準的隨機梯度下降法(SSGD)要實現收斂,對步長、損失函數的形式等有一定的要求,在滿足條件:
    ϵnϵn+1ϵn=O(ϵn),{ϵn}θH,limnϵni=0n1[Lγi(θ)L(θ)]=0. \frac{\epsilon _ n - \epsilon _{n+1}}{\epsilon _n}=O(\epsilon _ n),\{ {\epsilon _n } \}爲步長序列;並且 \forall \theta\in H, \lim_{n\rightarrow \infin}\epsilon _n\sum_{i=0}^{n-1}[L_{\gamma_i}^{\prime}(\theta)-L^{\prime}(\theta)]=0.
    之後,通過對算法的具體設計來滿足步長不在目標處無限振盪、有足夠速度收斂到目標點,損失函數一階可微等其他可被調整設計進而滿足的條件。

  4. 有以上基礎準備後,DSGD優化的大規模矩陣的分解算法可以描述爲:對總體訓練數據進行分層,較優的分層方法是隨機不放回分層(Without-replacement selection),利用MapReduce的框架實現分佈式計算,將每一層的計算分配到不同主機,再分別獨立運行SSGD,每一層的結果的再彙總,進而得到整體訓練數據的結果。

  5. 每層的訓練結果可以進行彙總,主要是因爲:
    {γi i=1...n}Interhangeability, 對於每一層數據\{\gamma_i\ | i=1...n\},其兩兩之間具有互換性(Interhangeability),

    Regenerative process. 也就是說整個參數更新的過程是再生過程(Regenerative\ process).

    因而可以直接將分佈式的每個層次更新的結果累加到整體的結果上。

    • 在這種更新條件下,WRS選擇的不同的層次貢獻的更新有可能存在衝突重寫,即兩者對於總體的貢獻抵消,這種情況下似乎會存在某種情況使得總體結果不收斂。但我們討論的是Large-Scale的矩陣,在其足夠稀疏的情況下,即使有衝突重寫,結果依然可以收斂。(Hsieh C,Dhillon I S.Fast coordinate descent methods with variable selection for non-negative matrix factorization)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章