变分法在机器学习中的应用

禁止转载

前言

如果只打算看和机器学习有关的变分法，只需要看到小结这一章即可，后面的内容可以不用看。

一个概率分布问题

介绍变分法之前，先抛出一个和机器学习有关的概率问题：
一个一维分布 $p(x)$ ：

若已知期望为 $\mu$ ，方差为 $\sigma^2$ ，熵最大的情况下 $p$ 是什么分布？
不要问题1的条件，换成若已知随机变量的取值范围在 $(a,b)$ ，熵最大的情况下 $p$ 是什么分布？

对于问题1，可形式化为
$\begin{aligned} \max_p &\int_{-\infty}^{\infty}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}$

对于问题2，可形式化为
$\begin{aligned} \max_p &\int_{a}^{b}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}$

仔细观察之后，会发现上述问题并不好做，似乎和我们以前遇到的优化问题不同，区别在于优化目标 $p$ 是一个函数，而不是一个或几个标量

为了解决这种优化问题，我们需要引入新的工具——变分法

变分法

泛函：首先引入泛函的概念，泛函指定义域为函数集合，值域为实数的“函数”，即函数的函数。而变分法则是处理泛函的数学领域（泛函分析则是研究对象主要为函数构成的函数空间的数学领域）
历史：变分法最早是为了解决最速降线问题而设计的，在理论物理当中应用非常多

预备定理

如果 $\int _a^b M(x)\eta(x)dx=0$ ， $M$ 在 $(a,b)$ 上连续， $\eta$ 为任意函数， $\eta(a)=0,\eta(b)=0$ ，那么 $\forall x \in (a,b),M(x)=0$ .
证明：
令 $\eta(x)=-M(x)(x-a)(x-b)$ ，则 $M(x)\eta(x)=M(x)^2[-(x-a)(x-b)]\ge 0$ ，所以 $M(x)=0$ .

类似的代数证法，可以扩展到多变量问题，若 $\int _a^b [M(x)\eta(x) +N(x)\xi(x)] dx=0$ ， $\eta, \xi$ 为任意函数，且在 $a,b$ 两点为0，则 $M(x)=0, N(x)=0$ .

这个定理先放在这，在推导Euler方程最后一步时会用

优化问题与函数集合

给定一个关于函数 $\bar{y}(x)$ 的待求优化问题
$\min_{\bar{y}} \int_{x_1}^{x_2}F(x, \bar{y}, \bar{y}')dx$
而且我们假定 $\bar{y}(x_1)$ 和 $\bar{y}(x_2)$ 已知，
如果 $y(x)$ 是待求最优解，则函数 $\bar{y}$ 可以描述为
$\bar {y}(x) = y(x)+\epsilon \eta(x)$
其中 $\eta$ 是任意函数，满足 $\eta (x_1) = 0, \eta(x_2) =0$ （很重要，后面要用）， $\eta$ 可以看作是对 $F$ 的一个扰动， $\epsilon$ 是一个实数，通过改变 $\eta$ 和 $\epsilon$ ，可以形成关于 $\bar{y}$ 的函数族。
而且 $\bar{y}$ 的一阶导数为
$\bar{y}'=y' + \epsilon \eta'$
所以原问题的目标函数可以写为
$\int_{x_1}^{x_2}F(x, y+\epsilon \eta, y' + \epsilon \eta')dx \tag{1}$

Euler方程第一形式

注意式(1)中 $y$ 和 $\eta$ 都是关于 $x$ 的函数，所以式(1)的积分结果是一个关于 $\epsilon$ 的函数，记为 $I(\epsilon)$ 。
一方面，观察到当 $\epsilon \rightarrow 0$ 时，无论 $\eta$ 取什么，都有 $\bar{y} \rightarrow y$ . 也即，无论 $\eta$ 取什么， $\epsilon=0$ 都是 $I(\epsilon)$ 极小值点，所以
$\frac{dI}{d\epsilon} \big| _{\epsilon=0}=0 \tag{2}$
另一方面，
$\frac{dI}{d\epsilon} = \int_{x_1}^{x_2} \frac {\partial F}{\partial \epsilon}dx \tag{3}$
对于 $\frac {\partial F}{\partial \epsilon}$ ，记 $u= y+\epsilon \eta$ ， $v=y' + \epsilon \eta'$ ，则
$\begin{aligned} \frac {\partial F}{\partial \epsilon} &= \frac {\partial F}{\partial x}\frac {\partial x}{\partial \epsilon} + \frac {\partial F}{\partial u}\frac {\partial u}{\partial \epsilon} + \frac {\partial F}{\partial v}\frac {\partial v}{\partial \epsilon} \\ &= \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ' \end{aligned}$
带回式(3)得
$\frac{dI}{d\epsilon} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ') dx$
当 $\epsilon=0$ 时， $u=y,v=y'$ ，所以
$\frac{dI}{d\epsilon} \big|_{\epsilon=0} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial y} \eta + \frac {\partial F}{\partial y'} \eta ') dx \tag{4}$
观察第二项，由分步积分公式 $\int u dv = uv - \int v du$ 可得
$\int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = \frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}- \int \eta d(\frac {\partial F}{\partial y'}) \tag{5}$
因为 $\eta(x_1)=0, \eta(x_2)=0$ ，所以 $\frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}=0$ ，代入式(5)得
$\int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = - \int \eta \frac{d}{dx}(\frac {\partial F}{\partial y'})dx \tag{6}$
把式(6)代入式(4)得
$\begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \int_{x_1}^{x_2} \big[ \frac {\partial F}{\partial y} \eta -\eta \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] dx \\ &= \int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx \end{aligned}$
注意 $\eta$ 是任意函数，且 $\eta(a)=0,\eta(b)=0$ ，又式(2)可得 $\int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx=0$ ，所以由预备定理
$\frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) =0 \tag{7}$
式(7)即为Euler方程第一形式，也就是说如果 $\epsilon=0$ 是 $I$ 的极值，那么就必须满足式(7).
当 $F$ 不是 $y'$ 的函数，仅为 $F(x,y)$ 时，式(7)简化为 $\frac {\partial F}{\partial y}=0$ .

概率分布问题的解决

至此，我们就已经可以解决一开始提出的概率分布问题了。

问题1的解决

把形式化再抄一遍，并把目标函数由 $\max$ 换成 $\min$ ：
$\begin{aligned} \min_p &\int_{-\infty}^{\infty}p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}$
用拉格朗日乘子法把该问题转化为无约束问题：
$\begin{aligned} &\int_{-\infty}^{\infty}p(x)\ln p(x)dx + \lambda_1 (\int_{-\infty}^{\infty}p(x)dx-1) + \lambda_2(\int_{-\infty}^{\infty}xp(x)dx-\mu) + \lambda_3 (\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx-\sigma^2) \\ =&\int_{-\infty}^{\infty}[p(x)\ln p(x)+\lambda_1 p(x) + \lambda_2xp(x) + \lambda_3 (x-\mu)^2p(x) + C(x,\lambda_1,\lambda_2, \lambda_3)]dx \end{aligned}$
其中 $C$ 满足 $\int_{-\infty}^{\infty} C(x,\lambda_1,\lambda_2, \lambda_3)dx=-\lambda_1-\lambda_2 \mu -\lambda_3 \sigma^2$ ，并看作是一个与 $p$ 无关的函数。
我们假定 $p(x)$ 在无穷远处为0，这样就满足了上述介绍的优化问题的形式，
记 $F(x,p)=p\ln p+\lambda_1 p + \lambda_2xp + \lambda_3 (x-\mu)^2p + C$ ，记最优解为 $p^*$ ，则由Euler方程第一形式，可得
$0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2$
即
$p=exp\{-1-\lambda_1-\lambda_2 x - \lambda_3(x-\mu)^2\} \tag{8}$
注意这已经是一个高斯函数的形式！
又由三个限制方程
$\begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}$
可以从中解出 $\lambda_1,\lambda_2,\lambda_3$ ，带回式(8)得
$p^*(x)=\frac{1}{(2\pi \sigma^2)^\frac{1}{2}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$
所以在给定均值和方差的前提下，最大熵对应的分布是高斯分布。

问题2的解决

把形式化再抄一遍，并把目标函数由 $\max$ 换成 $\min$ ：
$\begin{aligned} \min_p &\int_{a}^{b}p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}$
同问题1，先用拉格朗日乘子法转化成无约束问题：
$\begin{aligned} &\int_{a}^{b}p(x)\ln p(x)dx + \lambda_1 (\int_{a}^{b}p(x)dx-1) \\ =&\int_{a}^{b}[p(x)\ln p(x)+\lambda_1 p(x) - \frac{\lambda_1}{b-a}]dx \end{aligned}$
我们假定 $p(x)$ 在 $a,b$ 两点概率为0，这样就满足了上述介绍的优化问题的形式，
记 $F(x,p)=p\ln p+\lambda_1 p -\frac{\lambda_1}{b-a}$ ，记最优解为 $p^*$ ，则由Euler方程第一形式，可得
$0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1$
即
$p^*=exp\{-1-\lambda_1\} \tag{9}$
注意，这已经是一个均匀分布的形式！
又由限制方程
$\begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ \end{aligned}$
可以从中解出 $\lambda_1$ ，带回式(9)得
$p^*(x)=\frac{1}{b-a}$
所以在有限区间内，最大熵对应的分布是均匀分布。此时无需均值和方差的约束。

小结

变分法在机器学习当中是一个很好用的技巧，其实机器学习当中输入为函数，输出为实数，这样的泛函例子并不少见，例如各种散度——衡量了两个分布之间的差异性，散度的泛函又引入了变分推断当中，例如变分自编码器
机器学习当中遇到的大多数变分问题都较为简单，往往被积函数 $F$ 和待求函数 $y$ 的导数是无关的，也即只需要满足Euler方程中 $\frac {\partial F}{\partial y}=0$ 就可以
后文将继续介绍完整的变分法理论，后续理论在机器学习当中的使用较为罕见，看到这里就可以提前退场了，如果看的很爽，那么就跟我继续看下去吧，2333

变分法（后续）

Euler方程第二形式

注意到
$\begin{aligned} \frac{dF}{dx}(x,y,y') &=\frac{\partial F}{\partial x} \frac{dx}{dx}+ \frac{\partial F}{\partial y} \frac{dy}{dx} + \frac{\partial F}{\partial y'} \frac{dy'}{dx} \\ &= \frac{\partial F}{\partial x}+ \frac{\partial F}{\partial y}y'+ \frac{\partial F}{\partial y'} y'' \tag{10} \end{aligned}$
因为
$\frac{d}{dx}(y'\frac{\partial F}{\partial y'}) = y'' \frac{\partial F}{\partial y'} + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \tag{11}$
把式(10)等号右侧第三项带入式(11)可得
$\begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) &=\big[\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- \frac{\partial F}{\partial y}y' \big] + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \\ &=\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- y' \big[\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})\big] \end{aligned}$
注意到 $\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})$ 为Euler方程的第一种形式，所以上式继续化简为
$\begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) =\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x} \end{aligned}$
即
$\begin{aligned} \frac{\partial F}{\partial x} - \frac{d}{dx}(F-y'\frac{\partial F}{\partial y'}) =0 \end{aligned} \tag{12}$
式(12)即为Euler方程第二形式，注意如果 $F$ 不显含 $x$ ，那么 $\frac{\partial F}{\partial x}=0$ ，则有 $F-y'\frac{\partial F}{\partial y'}=C$ . 在这种情况下，第二形式非常方便。

变分算子

$\bar{y}=y + \epsilon \eta(x) = y + \delta y$
其中， $\delta y$ 就称作对 $y$ 的变分。

贴参考文献[1]的一张图，说明变分和微分的区别

微分：当 $x$ 变化时， $y$ 的变化
变分： $x$ 不变，人为的对 $y$ 加扰动

一般我们认为自变量的变分为0（或者说不能变分），例如 $y(x)$ ，认为 $\delta x = 0$ ，因为在自变量上加扰动没有意义，自变量这个时候应该看作是一个“标准”，其他量以这些“标准”为依据。

变分算子和微分算子的可交换性

$\frac{d}{dx}\delta y=\frac{d}{dx}\epsilon \eta(x) = \epsilon \frac{d}{dx} \eta(x)=\epsilon \eta'$
另一方面
$\delta \frac{d}{dx} y = \bar{y'} - y' = \epsilon \eta'$
所以，变分算子和微分算子的顺序可以交换。

变分算子和积分算子的可交换性

$\begin{aligned} \delta \int F(x)dx &= \overline {\int F(x)dx} - \int F(x)dx = \int \bar F(x)dx - \int F(x)dx \\ & = \int [\bar F(x) - F(x)]dx = \int \delta F(x) dx \end{aligned}$
所以，变分算子和积分算子的顺序可以交换。

函数与泛函的变分算子

对于 $F(x,y,z)$
$\delta F = \frac{\partial F}{\partial x}\delta x + \frac{\partial F}{\partial y}\delta y + \frac{\partial F}{\partial z}\delta z$
上式子说明了对 $x,y,z$ 的扰动，是如何产生对 $F$ 的扰动的
除式的变分公式：
$\delta (\frac{f}{g}) = \frac{g\delta f - f\delta g}{g^2}$

多函数的变分

对于多函数的问题，先以两个函数为例：
$\min_{\bar{f},\bar{g}} I=\int_{x_1}^{x_2}F(x,\bar{f},\bar{g},\bar{f}',\bar g')dx$
类似单变量的方法令最优解为 $f,g$ ，则有
$\bar f = f + \epsilon \eta \\ \bar g = g+ \epsilon \xi$
一方面得到
$\frac{dI(\epsilon)}{d\epsilon} \big|_{\epsilon=0} = 0$
另一方面
$\frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} =\int_{x_1}^{x_2} (F_f \eta + F_g \xi + F_{f'} \eta' + F_{g'} \xi')dx$
用分布及分公式可得
$\begin{aligned} \int_{x_1}^{x_2} F_{f'} \eta' dx &= F_{f'}\eta \big|_{x_1}^{x2} - \int_{x_1}^{x_2} \eta dF_{f'} \\ &= - \int_{x_1}^{x_2} \eta \frac{d}{dx}(F_{f'} )dx \end{aligned}$
$g$ 做类似的处理，带回得
$\frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} = \int _{x_1}^{x_2}[(F_f - \frac{d}{dx}F_{f'})]\eta+[(F_g - \frac{d}{dx}F_{g'})]\xi dx$
由预备定理得
$F_f - \frac{d}{dx}F_{f'} = 0 \\ F_g - \frac{d}{dx}F_{g'} = 0$
上式为多变量得Euler方程，可以看到它与单变量得形式是一致的。对于更多变量得情况，推导结果类似。

双变量单函数的多重积分变分

记
$I(\epsilon) = \iint_D F(x_1, x_2, \bar y, \frac{\partial \bar y}{\partial x_1}, \frac{\partial \bar y}{\partial x_2})dx_1dx_2$
则有
$\begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_1}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_2}) \big] dx_1dx_2 \\ &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial x_1}(\frac{\partial y}{\partial \epsilon}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial x_2}(\frac{\partial y}{\partial \epsilon}) \big] dx_1dx_2 \end{aligned}$

首先给出格林公式
$\iint_D \big[\frac{\partial P}{\partial x_1} + \frac{\partial Q}{\partial x_2} \big]dx_1dx_2 = \int_C Pdx_2 - Qdx_1 \tag{13}$
如果令
$P(x_1,x_2) = \Phi(x_1, x_2)A(x_1, x_2) \qquad Q(x_1,x_2) = \Phi(x_1, x_2)B(x_1, x_2)$
带回式(13)得
$\iint_D\big[ A\frac{\partial \Phi}{\partial x_1} +B\frac{\partial \Phi}{\partial x_2} \big]dx_1dx_2 = -\iint_D (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2})\Phi dx_1dx_2 + \int_C (Adx_2 - Bdx_1)\Phi \tag{14}$

所以，如果令
$\Phi = \frac{\partial y}{\partial \epsilon} \qquad A = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \qquad B = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})}$
即 $\bar y = y + \epsilon \Phi$ ，那么
$\begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} \Phi +A \frac{\partial }{\partial x_1}\Phi + B \frac{\partial }{\partial x_2}\Phi \big] dx_1dx_2 \end{aligned}$
把后两项用格林公式(14)替换，得到
$\begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} - (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2}) \big] \Phi dx_1dx_2 \end{aligned}$
注意式(14)中的线积分 $\int_C (Adx_2 - Bdx_1)\Phi=0$ ，所以线积分直接舍去了，这里非常厉害！！！
线积分为0的原因在于 $\Phi$ 在边界一圈为0，类似於单变量中两个端点的 $\eta=0$ .
由预备定理
$\frac{\partial F}{\partial y} - (\frac{\partial }{\partial x_1}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} +\frac{\partial }{\partial x_2}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})})=0$
上式即为双变量函数下的Euler方程，该式和单变量的形式其实是类似的。

参考文献
[1] 变分法 https://www.youtube.com/playlist?list=PL090BE404EFE679E9. B站上也有相同的资源，但是不全
[2] C M. Bishop. Pattern Recognition and Machine Learning Bishop 附录D

变分法在机器学习中的应用

目录

前言

一个概率分布问题

变分法

预备定理

优化问题与函数集合

Euler方程第一形式

概率分布问题的解决

问题1的解决

问题2的解决

小结

变分法（后续）

Euler方程第二形式

变分算子

变分算子和微分算子的可交换性

变分算子和积分算子的可交换性

函数与泛函的变分算子

多函数的变分

双变量单函数的多重积分变分

【简写Mybatis-02】注册机的实现以及SqlSession处理

手绘二维码

.NET借助虚拟网卡实现一个简单异地组网工具

教學優化算法的簡單介紹

神經網絡反向傳播向量化（CS231n A1 Q4）——已重寫

論文閱讀記錄 1-50篇 20190410-20200316

CS231n Assignment 備忘

HBase常用操作

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結