model優化方法及偏差與方差

目標:argminxf(x)arg min_{x} f(x),其中,g(x)=f(x),H(x)=f(x)g(x)=\nabla f(x), H(x)=\nabla \nabla f(x)

1.梯度下降(Gradient Descent):
xk+1xka.g(xk)x^{k+1} \leftarrow x^{k}-a.g(x^{k})
隨機梯度下降(Stochastic Gradient Descent)

2.牛頓法(Newton’s Method)
xk+1=xkαH1(xk).g(xk)x^{k+1}=x^k-\alpha H^{-1}(x^{k}).g(x^k)
擬牛頓法(Quasi-Newton Method):對H(x)H(x)做近似

  • BFGS:對H(x)H(x)做近似的一種比較好的方法,內存中需要放H(x)H(x)
  • L -BFGS (L for Limited Memory):對BFGS的改進,內存不放H(x)H(x),而是存放中間數據,需要H(x)H(x)的時候利用中間數據還原H(x)H(x),大大減小對內存的需要
  • OWLQN:對L1-Norm不可導的情況,引入虛梯度來解決。

3.coordinate Descent:
CDN
xik+1argminyf(x1k+1,.......xi1k+1,y,xi+1k....,xnk)x_i^{k+1}\leftarrow argmin_{y} f(x_1^{k+1},.......x_{i-1}^{k+1},y,x_{i+1}^{k}....,x_n^{k})
在這裏插入圖片描述
4.偏差與方差
1)偏差(Bias):幾份不同的訓練數據,訓練處的權重的期望值與真實的權值差距。
2)方差(Variance):幾份不同的訓練數據,訓練出來的權重彼此之間的差異。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章