【机器学习】拟牛顿下降优化方法-BFGS

　　牛顿法是求解最优化，理论上最好最精确的方法，公式为：xk+1=xk−f′(xk)f″(xk) ，原理是求解导数为0的情况。如果xk 是一个高维数据，且函数f(x) 非常复杂，那么求解1/f″(x) 就是很麻烦的过程。拟牛顿法的思路是，在牛顿法的基础上，对1/f″(x) 做个近似估计就行了，不需要精确计算。这样虽然结果会有些差异，但是速度上来了。
　　拟牛顿法 基于原函数f(xk+1) 关于f(xk) 的二阶泰勒展开。设

f (x k) = f (x k + 1) + f' (x k + 1) (x k - x k + 1) + 1 2 (x k - x k + 1) T f ″ (x k + 1) (x k - x k + 1) + o (x k + 1)

令

f″(xk+1)=Bk+1 ，去掉余项

o(xk+1) ，对

xk 求导有

f′(xk)=f′(xk+1)+Bk+1(xk−xk+1) ，解出

B k + 1 = f ' ( x k ) - f ' ( x k + 1 ) x k - x k + 1 = f ' ( x k + 1 ) - f ' ( x k ) x k + 1 - x k x k + 2 = x k + 1 - λ f' (x k + 1) / B k + 1

由于包含要求解的

xk+1 ，我们只能试着取一个值，随机取值风险很大，上述方程只能作为拟牛顿方程成立的一个必要条件。。
　　BFGS算法是一种迭代拟牛顿法，在满足上述必要条件的情况，保证了计算过程中的稳定，具体证明太难了。设

Bk+1=Bk+δB 。数学家用了一个很技巧性很偶然的方法，令

δB=αuuT+βvvT ，则

B k + 1 = B k + α u u T + β v v T B k + 1 (x k + 1 - x k) = f' (x k + 1) - f' (x k) = B k (x k + 1 - x k) + [α u T (x k + 1 - x k)] u + [β v T (x k + 1 - x k)] v

令

αuT(xk+1−xk)=1 ，

βvT(xk+1−xk)=−1 ，

u=f′(xk+1)−f′(xk) ，

v=Bk(xk+1−xk) ，刚好恒等式成立。于是有

α = 1 [ f ' ( x k + 1 ) - f ' ( x k ) ] T ( x k + 1 - x k ) β = - 1 [ B k ( x k + 1 - x k ) ] T ( x k + 1 - x k ) = - 1 ( x k + 1 - x k ) T B k ( x k + 1 - x k )

其中

Bk=BTk ，原理是我们近似认为B是二阶导，当原函数是一元函数时，B是常量，转置就是本身；当原函数是多元函数时，B近似海森矩阵，表示为

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 2 1 \partial 2 f \partial x 2 \partial x 1 . . . \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 2 . . . . . . . . . . . . ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

显然B可以认为是一个对称矩阵。
　　获得上述式子后，令

sk=xk+1−xk,yk=f′(xk+1)−f′(xk 我们写得

B k + 1 = B k + s k s T k y T k s k - B k s k s T k B k s T k B K s k

值得注意的是，

Bk+1 的表达式还是包含未知的

xk+1 。定义步长参数

λk ，遍历计算

f(xk+λkdk)，dk=−f′(xk)/Bk ，取其中函数值最小时的

λk ，即求解

λk=argminf(xk+λdk) ，近似得到

sk=λk(−f′(xk)/Bk) ，然后代入

Bk+1 表达式即可。当然

λk 还有一些设置方法。我们用上述方法预先取的值，一般都受到BFGS本身的约束而不会太离谱。

　　BFGS方法步骤如下：
　　1、给定初值x0 ，收敛阈值η ，初始二阶导B0=I ，k=0
　　2、计算得到dk=f′(xk)/Bk ，一般Bk 是可以求逆的
　　3、解λk=argminf(xk+λdk) ，得到xk+1=xk−λkdk
　　4、如果|f′(xk+1)|<η ，终止运行
　　5、计算yk=f′(xk+1−f′(xk)),sk=−λkdk ，代入Bk+1 求解方程，求取Bk+1
　　6、k=k+1，从步骤1开始。