变分法在机器学习中的应用

禁止转载

前言

如果只打算看和机器学习有关的变分法,只需要看到小结这一章即可,后面的内容可以不用看。

一个概率分布问题

介绍变分法之前,先抛出一个和机器学习有关的概率问题:
一个一维分布p(x)p(x)

  1. 若已知期望为μ\mu,方差为σ2\sigma^2,熵最大的情况下pp是什么分布?
  2. 不要问题1的条件,换成若已知随机变量的取值范围在(a,b)(a,b),熵最大的情况下pp是什么分布?

对于问题1,可形式化
maxpp(x)lnp(x)dxs.t.p(x)dx=1xp(x)dx=μ(xμ)2p(x)dx=σ2 \begin{aligned} \max_p &\int_{-\infty}^{\infty}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}

对于问题2,可形式化
maxpabp(x)lnp(x)dxs.t.abp(x)dx=1 \begin{aligned} \max_p &\int_{a}^{b}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}

仔细观察之后,会发现上述问题并不好做,似乎和我们以前遇到的优化问题不同,区别在于优化目标pp是一个函数,而不是一个或几个标量

为了解决这种优化问题,我们需要引入新的工具——变分法

变分法

  • 泛函:首先引入泛函的概念,泛函指定义域为函数集合,值域为实数的“函数”,即函数的函数。而变分法则是处理泛函的数学领域(泛函分析则是研究对象主要为函数构成的函数空间的数学领域)
  • 历史:变分法最早是为了解决最速降线问题而设计的,在理论物理当中应用非常多

预备定理

如果abM(x)η(x)dx=0\int _a^b M(x)\eta(x)dx=0MM(a,b)(a,b)上连续,η\eta为任意函数,η(a)=0,η(b)=0\eta(a)=0,\eta(b)=0,那么x(a,b),M(x)=0\forall x \in (a,b),M(x)=0.
证明:
η(x)=M(x)(xa)(xb)\eta(x)=-M(x)(x-a)(x-b),则M(x)η(x)=M(x)2[(xa)(xb)]0M(x)\eta(x)=M(x)^2[-(x-a)(x-b)]\ge 0,所以M(x)=0M(x)=0.

类似的代数证法,可以扩展到多变量问题,若ab[M(x)η(x)+N(x)ξ(x)]dx=0\int _a^b [M(x)\eta(x) +N(x)\xi(x)] dx=0η,ξ\eta, \xi为任意函数,且在a,ba,b两点为0,则M(x)=0,N(x)=0M(x)=0, N(x)=0.

这个定理先放在这,在推导Euler方程最后一步时会用

优化问题与函数集合

给定一个关于函数yˉ(x)\bar{y}(x)的待求优化问题
minyˉx1x2F(x,yˉ,yˉ)dx \min_{\bar{y}} \int_{x_1}^{x_2}F(x, \bar{y}, \bar{y}')dx
而且我们假定yˉ(x1)\bar{y}(x_1)yˉ(x2)\bar{y}(x_2)已知,
如果y(x)y(x)是待求最优解,则函数yˉ\bar{y}可以描述为
yˉ(x)=y(x)+ϵη(x) \bar {y}(x) = y(x)+\epsilon \eta(x)
其中η\eta是任意函数,满足η(x1)=0,η(x2)=0\eta (x_1) = 0, \eta(x_2) =0(很重要,后面要用)η\eta可以看作是对FF的一个扰动,ϵ\epsilon是一个实数,通过改变η\etaϵ\epsilon,可以形成关于yˉ\bar{y}的函数族。
而且yˉ\bar{y}的一阶导数为
yˉ=y+ϵη \bar{y}'=y' + \epsilon \eta'
所以原问题的目标函数可以写为
x1x2F(x,y+ϵη,y+ϵη)dx(1) \int_{x_1}^{x_2}F(x, y+\epsilon \eta, y' + \epsilon \eta')dx \tag{1}

Euler方程第一形式

注意式(1)中yyη\eta都是关于xx的函数,所以式(1)的积分结果是一个关于ϵ\epsilon的函数,记为I(ϵ)I(\epsilon)
一方面,观察到当ϵ0\epsilon \rightarrow 0时,无论η\eta取什么,都有yˉy\bar{y} \rightarrow y. 也即,无论η\eta取什么,ϵ=0\epsilon=0都是I(ϵ)I(\epsilon)极小值点,所以
dIdϵϵ=0=0(2) \frac{dI}{d\epsilon} \big| _{\epsilon=0}=0 \tag{2}
另一方面,
dIdϵ=x1x2Fϵdx(3) \frac{dI}{d\epsilon} = \int_{x_1}^{x_2} \frac {\partial F}{\partial \epsilon}dx \tag{3}
对于Fϵ\frac {\partial F}{\partial \epsilon},记u=y+ϵηu= y+\epsilon \etav=y+ϵηv=y' + \epsilon \eta',则
Fϵ=Fxxϵ+Fuuϵ+Fvvϵ=Fuη+Fvη \begin{aligned} \frac {\partial F}{\partial \epsilon} &= \frac {\partial F}{\partial x}\frac {\partial x}{\partial \epsilon} + \frac {\partial F}{\partial u}\frac {\partial u}{\partial \epsilon} + \frac {\partial F}{\partial v}\frac {\partial v}{\partial \epsilon} \\ &= \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ' \end{aligned}
带回式(3)得
dIdϵ=x1x2(Fuη+Fvη)dx \frac{dI}{d\epsilon} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ') dx
ϵ=0\epsilon=0时,u=y,v=yu=y,v=y',所以
dIdϵϵ=0=x1x2(Fyη+Fyη)dx(4) \frac{dI}{d\epsilon} \big|_{\epsilon=0} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial y} \eta + \frac {\partial F}{\partial y'} \eta ') dx \tag{4}
观察第二项,由分步积分公式udv=uvvdu\int u dv = uv - \int v du可得
x1x2Fyηdx=Fyηx1x2ηd(Fy)(5) \int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = \frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}- \int \eta d(\frac {\partial F}{\partial y'}) \tag{5}
因为η(x1)=0,η(x2)=0\eta(x_1)=0, \eta(x_2)=0,所以Fyηx1x2=0\frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}=0,代入式(5)得
x1x2Fyηdx=ηddx(Fy)dx(6) \int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = - \int \eta \frac{d}{dx}(\frac {\partial F}{\partial y'})dx \tag{6}
把式(6)代入式(4)得
dIdϵϵ=0=x1x2[Fyηηddx(Fy)]dx=x1x2[Fyddx(Fy)]ηdx \begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \int_{x_1}^{x_2} \big[ \frac {\partial F}{\partial y} \eta -\eta \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] dx \\ &= \int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx \end{aligned}
注意η\eta是任意函数,且η(a)=0,η(b)=0\eta(a)=0,\eta(b)=0,又式(2)可得x1x2[Fyddx(Fy)]ηdx=0\int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx=0,所以由预备定理
Fyddx(Fy)=0(7) \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) =0 \tag{7}
式(7)即为Euler方程第一形式,也就是说如果ϵ=0\epsilon=0II的极值,那么就必须满足式(7).
FF不是yy'的函数,仅为F(x,y)F(x,y)时,式(7)简化为Fy=0\frac {\partial F}{\partial y}=0.

概率分布问题的解决

至此,我们就已经可以解决一开始提出的概率分布问题了。

问题1的解决

把形式化再抄一遍,并把目标函数由max\max换成min\min
minpp(x)lnp(x)dxs.t.p(x)dx=1xp(x)dx=μ(xμ)2p(x)dx=σ2 \begin{aligned} \min_p &\int_{-\infty}^{\infty}p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}
拉格朗日乘子法把该问题转化为无约束问题:
p(x)lnp(x)dx+λ1(p(x)dx1)+λ2(xp(x)dxμ)+λ3((xμ)2p(x)dxσ2)=[p(x)lnp(x)+λ1p(x)+λ2xp(x)+λ3(xμ)2p(x)+C(x,λ1,λ2,λ3)]dx \begin{aligned} &\int_{-\infty}^{\infty}p(x)\ln p(x)dx + \lambda_1 (\int_{-\infty}^{\infty}p(x)dx-1) + \lambda_2(\int_{-\infty}^{\infty}xp(x)dx-\mu) + \lambda_3 (\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx-\sigma^2) \\ =&\int_{-\infty}^{\infty}[p(x)\ln p(x)+\lambda_1 p(x) + \lambda_2xp(x) + \lambda_3 (x-\mu)^2p(x) + C(x,\lambda_1,\lambda_2, \lambda_3)]dx \end{aligned}
其中CC满足C(x,λ1,λ2,λ3)dx=λ1λ2μλ3σ2\int_{-\infty}^{\infty} C(x,\lambda_1,\lambda_2, \lambda_3)dx=-\lambda_1-\lambda_2 \mu -\lambda_3 \sigma^2,并看作是一个与pp无关的函数。
我们假定p(x)p(x)在无穷远处为0,这样就满足了上述介绍的优化问题的形式,
F(x,p)=plnp+λ1p+λ2xp+λ3(xμ)2p+CF(x,p)=p\ln p+\lambda_1 p + \lambda_2xp + \lambda_3 (x-\mu)^2p + C,记最优解为pp^*,则由Euler方程第一形式,可得
0=Fp=lnp+1+λ1+λ2x+λ3(xμ)2 0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2

p=exp{1λ1λ2xλ3(xμ)2}(8) p=exp\{-1-\lambda_1-\lambda_2 x - \lambda_3(x-\mu)^2\} \tag{8}
注意这已经是一个高斯函数的形式!
又由三个限制方程
p(x)dx=1xp(x)dx=μ(xμ)2p(x)dx=σ2 \begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}
可以从中解出λ1,λ2,λ3\lambda_1,\lambda_2,\lambda_3,带回式(8)得
p(x)=1(2πσ2)12exp{(xμ)22σ2} p^*(x)=\frac{1}{(2\pi \sigma^2)^\frac{1}{2}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}
所以在给定均值和方差的前提下,最大熵对应的分布是高斯分布。

问题2的解决

把形式化再抄一遍,并把目标函数由max\max换成min\min
minpabp(x)lnp(x)dxs.t.abp(x)dx=1 \begin{aligned} \min_p &\int_{a}^{b}p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}
同问题1,先用拉格朗日乘子法转化成无约束问题:
abp(x)lnp(x)dx+λ1(abp(x)dx1)=ab[p(x)lnp(x)+λ1p(x)λ1ba]dx \begin{aligned} &\int_{a}^{b}p(x)\ln p(x)dx + \lambda_1 (\int_{a}^{b}p(x)dx-1) \\ =&\int_{a}^{b}[p(x)\ln p(x)+\lambda_1 p(x) - \frac{\lambda_1}{b-a}]dx \end{aligned}
我们假定p(x)p(x)a,ba,b两点概率为0,这样就满足了上述介绍的优化问题的形式,
F(x,p)=plnp+λ1pλ1baF(x,p)=p\ln p+\lambda_1 p -\frac{\lambda_1}{b-a},记最优解为pp^*,则由Euler方程第一形式,可得
0=Fp=lnp+1+λ1 0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1

p=exp{1λ1}(9) p^*=exp\{-1-\lambda_1\} \tag{9}
注意,这已经是一个均匀分布的形式!
又由限制方程
p(x)dx=1 \begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ \end{aligned}
可以从中解出λ1\lambda_1,带回式(9)得
p(x)=1ba p^*(x)=\frac{1}{b-a}
所以在有限区间内,最大熵对应的分布是均匀分布。此时无需均值和方差的约束。

小结

  • 变分法在机器学习当中是一个很好用的技巧,其实机器学习当中输入为函数,输出为实数,这样的泛函例子并不少见,例如各种散度——衡量了两个分布之间的差异性,散度的泛函又引入了变分推断当中,例如变分自编码器
  • 机器学习当中遇到的大多数变分问题都较为简单,往往被积函数FF和待求函数yy的导数是无关的,也即只需要满足Euler方程中Fy=0\frac {\partial F}{\partial y}=0就可以
  • 后文将继续介绍完整的变分法理论,后续理论在机器学习当中的使用较为罕见,看到这里就可以提前退场了,如果看的很爽,那么就跟我继续看下去吧,2333

变分法(后续)

Euler方程第二形式

注意到
dFdx(x,y,y)=Fxdxdx+Fydydx+Fydydx=Fx+Fyy+Fyy(10) \begin{aligned} \frac{dF}{dx}(x,y,y') &=\frac{\partial F}{\partial x} \frac{dx}{dx}+ \frac{\partial F}{\partial y} \frac{dy}{dx} + \frac{\partial F}{\partial y'} \frac{dy'}{dx} \\ &= \frac{\partial F}{\partial x}+ \frac{\partial F}{\partial y}y'+ \frac{\partial F}{\partial y'} y'' \tag{10} \end{aligned}
因为
ddx(yFy)=yFy+yddx(Fy)(11) \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) = y'' \frac{\partial F}{\partial y'} + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \tag{11}
把式(10)等号右侧第三项带入式(11)可得
ddx(yFy)=[dFdx(x,y,y)FxFyy]+yddx(Fy)=dFdx(x,y,y)Fxy[Fyddx(Fy)] \begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) &=\big[\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- \frac{\partial F}{\partial y}y' \big] + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \\ &=\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- y' \big[\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})\big] \end{aligned}
注意到Fyddx(Fy)\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})为Euler方程的第一种形式,所以上式继续化简为
ddx(yFy)=dFdx(x,y,y)Fx \begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) =\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x} \end{aligned}

Fxddx(FyFy)=0(12) \begin{aligned} \frac{\partial F}{\partial x} - \frac{d}{dx}(F-y'\frac{\partial F}{\partial y'}) =0 \end{aligned} \tag{12}
式(12)即为Euler方程第二形式,注意如果FF不显含xx,那么Fx=0\frac{\partial F}{\partial x}=0,则有FyFy=CF-y'\frac{\partial F}{\partial y'}=C. 在这种情况下,第二形式非常方便。

变分算子

yˉ=y+ϵη(x)=y+δy \bar{y}=y + \epsilon \eta(x) = y + \delta y
其中,δy\delta y就称作yy的变分

贴参考文献[1]的一张图,说明变分和微分的区别
在这里插入图片描述

  • 微分:当xx变化时,yy的变化
  • 变分:xx不变,人为的对yy加扰动

一般我们认为自变量的变分为0(或者说不能变分),例如y(x)y(x),认为δx=0\delta x = 0,因为在自变量上加扰动没有意义,自变量这个时候应该看作是一个“标准”,其他量以这些“标准”为依据。

变分算子和微分算子的可交换性

ddxδy=ddxϵη(x)=ϵddxη(x)=ϵη \frac{d}{dx}\delta y=\frac{d}{dx}\epsilon \eta(x) = \epsilon \frac{d}{dx} \eta(x)=\epsilon \eta'
另一方面
δddxy=yˉy=ϵη \delta \frac{d}{dx} y = \bar{y'} - y' = \epsilon \eta'
所以,变分算子和微分算子的顺序可以交换

变分算子和积分算子的可交换性

δF(x)dx=F(x)dxF(x)dx=Fˉ(x)dxF(x)dx=[Fˉ(x)F(x)]dx=δF(x)dx \begin{aligned} \delta \int F(x)dx &= \overline {\int F(x)dx} - \int F(x)dx = \int \bar F(x)dx - \int F(x)dx \\ & = \int [\bar F(x) - F(x)]dx = \int \delta F(x) dx \end{aligned}
所以,变分算子和积分算子的顺序可以交换

函数与泛函的变分算子

对于F(x,y,z)F(x,y,z)
δF=Fxδx+Fyδy+Fzδz \delta F = \frac{\partial F}{\partial x}\delta x + \frac{\partial F}{\partial y}\delta y + \frac{\partial F}{\partial z}\delta z
上式子说明了对x,y,zx,y,z的扰动,是如何产生对FF的扰动的
除式的变分公式:
δ(fg)=gδffδgg2 \delta (\frac{f}{g}) = \frac{g\delta f - f\delta g}{g^2}

多函数的变分

对于多函数的问题,先以两个函数为例:
minfˉ,gˉI=x1x2F(x,fˉ,gˉ,fˉ,gˉ)dx \min_{\bar{f},\bar{g}} I=\int_{x_1}^{x_2}F(x,\bar{f},\bar{g},\bar{f}',\bar g')dx
类似单变量的方法令最优解为f,gf,g,则有
fˉ=f+ϵηgˉ=g+ϵξ \bar f = f + \epsilon \eta \\ \bar g = g+ \epsilon \xi
一方面得到
dI(ϵ)dϵϵ=0=0 \frac{dI(\epsilon)}{d\epsilon} \big|_{\epsilon=0} = 0
另一方面
dI(ϵ)dϵϵ=0=x1x2(Ffη+Fgξ+Ffη+Fgξ)dx \frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} =\int_{x_1}^{x_2} (F_f \eta + F_g \xi + F_{f'} \eta' + F_{g'} \xi')dx
用分布及分公式可得
x1x2Ffηdx=Ffηx1x2x1x2ηdFf=x1x2ηddx(Ff)dx \begin{aligned} \int_{x_1}^{x_2} F_{f'} \eta' dx &= F_{f'}\eta \big|_{x_1}^{x2} - \int_{x_1}^{x_2} \eta dF_{f'} \\ &= - \int_{x_1}^{x_2} \eta \frac{d}{dx}(F_{f'} )dx \end{aligned}
gg做类似的处理,带回得
dI(ϵ)dϵϵ=0=x1x2[(FfddxFf)]η+[(FgddxFg)]ξdx \frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} = \int _{x_1}^{x_2}[(F_f - \frac{d}{dx}F_{f'})]\eta+[(F_g - \frac{d}{dx}F_{g'})]\xi dx
由预备定理得
FfddxFf=0FgddxFg=0 F_f - \frac{d}{dx}F_{f'} = 0 \\ F_g - \frac{d}{dx}F_{g'} = 0
上式为多变量得Euler方程,可以看到它与单变量得形式是一致的。对于更多变量得情况,推导结果类似。

双变量单函数的多重积分变分


I(ϵ)=DF(x1,x2,yˉ,yˉx1,yˉx2)dx1dx2 I(\epsilon) = \iint_D F(x_1, x_2, \bar y, \frac{\partial \bar y}{\partial x_1}, \frac{\partial \bar y}{\partial x_2})dx_1dx_2
则有
dIdϵϵ=0=D[Fyyϵ+F(yx1)ϵ(yx1)+F(yx2)ϵ(yx2)]dx1dx2=D[Fyyϵ+F(yx1)x1(yϵ)+F(yx2)x2(yϵ)]dx1dx2 \begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_1}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_2}) \big] dx_1dx_2 \\ &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial x_1}(\frac{\partial y}{\partial \epsilon}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial x_2}(\frac{\partial y}{\partial \epsilon}) \big] dx_1dx_2 \end{aligned}

首先给出格林公式
D[Px1+Qx2]dx1dx2=CPdx2Qdx1(13) \iint_D \big[\frac{\partial P}{\partial x_1} + \frac{\partial Q}{\partial x_2} \big]dx_1dx_2 = \int_C Pdx_2 - Qdx_1 \tag{13}
如果令
P(x1,x2)=Φ(x1,x2)A(x1,x2)Q(x1,x2)=Φ(x1,x2)B(x1,x2) P(x_1,x_2) = \Phi(x_1, x_2)A(x_1, x_2) \qquad Q(x_1,x_2) = \Phi(x_1, x_2)B(x_1, x_2)
带回式(13)得
D[AΦx1+BΦx2]dx1dx2=D(Ax1+Bx2)Φdx1dx2+C(Adx2Bdx1)Φ(14) \iint_D\big[ A\frac{\partial \Phi}{\partial x_1} +B\frac{\partial \Phi}{\partial x_2} \big]dx_1dx_2 = -\iint_D (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2})\Phi dx_1dx_2 + \int_C (Adx_2 - Bdx_1)\Phi \tag{14}

所以,如果令
Φ=yϵA=F(yx1)B=F(yx2)\Phi = \frac{\partial y}{\partial \epsilon} \qquad A = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \qquad B = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})}
yˉ=y+ϵΦ\bar y = y + \epsilon \Phi,那么
dIdϵ=D[FyΦ+Ax1Φ+Bx2Φ]dx1dx2 \begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} \Phi +A \frac{\partial }{\partial x_1}\Phi + B \frac{\partial }{\partial x_2}\Phi \big] dx_1dx_2 \end{aligned}
把后两项用格林公式(14)替换,得到
dIdϵ=D[Fy(Ax1+Bx2)]Φdx1dx2 \begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} - (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2}) \big] \Phi dx_1dx_2 \end{aligned}
注意式(14)中的线积分C(Adx2Bdx1)Φ=0\int_C (Adx_2 - Bdx_1)\Phi=0,所以线积分直接舍去了,这里非常厉害!!!
线积分为0的原因在于Φ\Phi在边界一圈为0,类似於单变量中两个端点的η=0\eta=0.
由预备定理
Fy(x1F(yx1)+x2F(yx2))=0 \frac{\partial F}{\partial y} - (\frac{\partial }{\partial x_1}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} +\frac{\partial }{\partial x_2}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})})=0
上式即为双变量函数下的Euler方程,该式和单变量的形式其实是类似的。

参考文献
[1] 变分法 https://www.youtube.com/playlist?list=PL090BE404EFE679E9. B站上也有相同的资源,但是不全
[2] C M. Bishop. Pattern Recognition and Machine Learning Bishop 附录D

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章