目標:argminxf(x),其中,g(x)=∇f(x),H(x)=∇∇f(x)
1.梯度下降(Gradient Descent):
xk+1←xk−a.g(xk)
隨機梯度下降(Stochastic Gradient Descent)
2.牛頓法(Newton’s Method)
xk+1=xk−αH−1(xk).g(xk)
擬牛頓法(Quasi-Newton Method):對H(x)做近似
- BFGS:對H(x)做近似的一種比較好的方法,內存中需要放H(x)
- L -BFGS (L for Limited Memory):對BFGS的改進,內存不放H(x),而是存放中間數據,需要H(x)的時候利用中間數據還原H(x),大大減小對內存的需要
- OWLQN:對L1-Norm不可導的情況,引入虛梯度來解決。
3.coordinate Descent:
CDN
xik+1←argminyf(x1k+1,.......xi−1k+1,y,xi+1k....,xnk)
4.偏差與方差
1)偏差(Bias):幾份不同的訓練數據,訓練處的權重的期望值與真實的權值差距。
2)方差(Variance):幾份不同的訓練數據,訓練出來的權重彼此之間的差異。