平时经常看到牛顿法怎样怎样,一直不得要领,今天下午查了一下维基百科,写写我的认识,很多地方是直观理解,并没有严谨的证明。在我看来,牛顿法至少有两个应用方向,1、求方程的根,2、最优化。牛顿法涉及到方程求导,下面的讨论均是在连续可微的前提下讨论。
1、求解方程。
并不是所有的方程都有求根公式,或者求根公式很复杂,导致求解困难。利用牛顿法,可以迭代求解。
原理是利用泰勒公式,在x0处展开,且展开到一阶,即f(x) = f(x0)+(x-x0)f'(x0)
求解方程f(x)=0,即f(x0)+(x-x0)*f'(x0)=0,求解x = x1=x0-f(x0)/f'(x0),因为这是利用泰勒公式的一阶展开,f(x) = f(x0)+(x-x0)f'(x0)处并不是完全相等,而是近似相等,这里求得的x1并不能让f(x)=0,只能说f(x1)的值比f(x0)更接近f(x)=0,于是乎,迭代求解的想法就很自然了,可以进而推出x(n+1)=x(n)-f(x(n))/f'(x(n)),通过迭代,这个式子必然在f(x*)=0的时候收敛。整个过程如下图:
2、牛顿法用于最优化
在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题就和第一部分提到的牛顿法求解很相似了。
这次为了求解f'=0的根,把f(x)的泰勒展开,展开到2阶形式:
这个式子是成立的,当且仅当 Δx 无线趋近于0。此时上式等价与:
(原因是当Δx 趋近于0的时候f(x)=f(x+Δx )所以才有: )
求解:
得出迭代公式:
一般认为牛顿法可以利用到曲线本身的信息,比梯度下降法更容易收敛(迭代更少次数),如下图是一个最小化一个目标方程的例子,红色曲线是利用牛顿法迭代求解,绿色曲线是利用梯度下降法求解。
在上面讨论的是2维情况,高维情况的牛顿迭代公式是:
其中H是hessian矩阵,定义为:
高维情况依然可以用牛顿迭代求解,但是问题是Hessian矩阵引入的复杂性,使得牛顿迭代求解的难度大大增加,但是已经有了解决这个问题的办法就是Quasi-Newton methond,不再直接计算hessian矩阵,而是每一步的时候使用梯度向量更新hessian矩阵的近似。Quasi-Newton method的详细情况我还没完全理解,且听下回分解吧。。。
牛顿法的好处在于当接近最优解的时候其收敛误差将会是上一次迭代的误差平方,例如上次 误差0.001 下次将会小于0.00001 这也就是所谓的二次收敛
参考:
根据wiki上的解释,从几何上说,牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面,而梯度下降法是用一个平面去拟合当前的局部曲面,通常情况下,二次曲面的拟合会比平面更好,所以牛顿法选择的下降路径会更符合真实的最优下降路径。
wiki上给的图很形象,我就直接转过来了:<img src="https://pic4.zhimg.com/365e99bcf8d2e1ef1986e09c795caef7_b.jpg" data-rawwidth="220" data-rawheight="253" class="content_image" width="220">红色的牛顿法的迭代路径,绿色的是梯度下降法的迭代路径。红色的牛顿法的迭代路径,绿色的是梯度下降法的迭代路径。
2.指数分布族(The exponential family)
指数分布族是指可以表示为指数形式的概率分布。指数分布的形式如下:
其中,η成为分布的自然参数(nature parameter);T(y)是充分统计量(sufficient statistic),通常 T(y)=y。当参数 a、b、T 都固定的时候,就定义了一个以η为参数的函数族。
下面介绍两种分布,伯努利分布和高斯分布,分别把它们表示成指数分布族的形式。
伯努利分布
伯努利分布是对0,1问题进行建模的,对于Bernoulli(
将其与指数族分布形式对比,可以看出:
表明伯努利分布也是指数分布族的一种。从上述式子可以看到,
高斯分布
下面对高斯分布进行推导,推导公式如下(为了方便计算,我们将方差
将上式与指数族分布形式比对,可知:
两个典型的指数分布族,伯努利和高斯分布。其实大多数概率分布都可以表示成指数分布族形式,如下所示:
- 伯努利分布(Bernoulli):对 0、1 问题进行建模;
- 多项式分布(Multinomial):多有 K 个离散结果的事件建模;
- 泊松分布(Poisson):对计数过程进行建模,比如网站访问量的计数问题,放射性衰变的数目,商店顾客数量等问题;
- 伽马分布(gamma)与指数分布(exponential):对有间隔的正数进行建模,比如公交车的到站时间问题;
- β 分布:对小数建模;
- Dirichlet 分布:对概率分布进建模;
- Wishart 分布:协方差矩阵的分布;
- 高斯分布(Gaussian);
下面来介绍下广义线性模型(Generalized Linear Model, GLM)。
3.广义线性模型(Generalized Linear Model, GLM)
你可能会问,指数分布族究竟有何用?其实我们的目的是要引出GLM,通过指数分布族引出广义线性模型。
仔细观察伯努利分布和高斯分布的指数分布族形式中的
下面我们看 GLM 的形式化定义,GLM 有三个假设:
- (1)
y|x;θ ExponentialFamily(η) ;给定样本x 与参数θ ,样本分类y 服从指数分布族中的某个分布; - (2) 给定一个
x ,我们需要的目标函数为hθ(x)=E[T(y)|x] ; - (3)
η=θTx 。
依据这三个假设,我们可以推导出logistic模型与普通最小二乘模型。首先根据伯努利分布推导Logistic模型,推导过程如下:
公式第一行来自假设(2),公式第二行通过伯努利分布计算得出,第三行通过伯努利的指数分布族表示形式得出,然后在公式第四行,根据假设三替换变量得到。
同样,可以根据高斯分布推导出普通最小二乘,如下:
公式第一行来自假设(2),第二行是通过高斯分布
其中,将η与原始概率分布中的参数联系起来的函数成为正则相应函数(canonical response function),如
所以,对于广义线性模型,需要决策的是选用什么样的分布,当选取高斯分布时,我们就得到最小二乘模型,当选取伯努利分布时,我们得到 logistic 模型,这里所说的模型是假设函数 h 的形式。
最后总结一下:广义线性模型通过假设一个概率分布,得到不同的模型,而梯度下降和牛顿方法都是为了求取模型中的线性部分
多分类模型-Softmax Regression
下面再给出GLM的一个例子——Softmax Regression.
假设一个分类问题,y可取k个值,即
多项式分布推导出的GLM可以解决多类分类问题,是 logistic 模型的扩展。对于多项式分布中的各个y的取值,我们可以使用k个参数
但是,这些参数可能会冗余,更正式的说可能不独立,因为
为了使多项式分布能够写成指数分布族的形式,我们首先定义 T(y),如下所示:
和之前的不一样,这里我们的
下面我们引入指数函数I,使得:
这样,
举例来说,当
下面,二项分布转变为指数分布族的推导如下:
其中,最后一步的各个变量如下:
由
为了方便,再定义:
于是,可以得到:
将上式代入到
从而,我们就得到了连接函数,有了连接函数后,就可以把多项式分布的概率表达出来:
注意到,上式中的每个参数
于是,我们可以得到假设函数 h 如下:
那么就建立了假设函数,最后就获得了最大似然估计
对该式子可以使用梯度下降算法或者牛顿方法求得参数
附上大神笔记:
http://blog.csdn.net/dream_angel_z/article/details/46288167#t1