本文主要介绍了以下几个方面的内容：简单介绍了经典的主成分分析方法，包括其数学推导，算法步骤，和几个实际算例；简单介绍了其它的数据降维方法，譬如局部线性嵌入以及它的简单算例；更近一步，我们介绍了函数型主成分分析方法（FPCA），包括其基本思想、数学推导、算法描述等，最为重要的是，我们将该方法和本领域进行结合，有了一些新的思考。

前言

“维数灾难"带来的直接结果就是很多低维空间行之有效的算法在高维空间中变得不可计算，为此，我们需要进行降维。在另一个方面，数据偏平化的情况下，降维有助于我们抓住数据的主要结构，过滤可能的误差带来的影响，使模型更加真实。另外，在某些情况下，降维可用于可视化。数据降维的方法有很多，比如说基于"最小化投影误差”（最大化类内方法）的主成分分析方法（PCA），以及基于保持拓扑结构不变（高维空间中是邻居，到了地位空间中还是邻居）的局部线性嵌入（LLE）等方法。

在多元统计分析中，主成分分析（Principal Components Analysis，PCA）是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分（Principal Components）。具体地，主成分可以看做一个线性方程，其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感（相对缩放）。PCA本质上寻求的是数据点在低秩空间中的一个表示。

高维数据，意味着数据需要多于两个或三个维度来表示，一般很难被解释。一种简化的方法是假设数据嵌在高维空间的一个非线性流形上。如果这个流形维数足够低，那么数据可以在低维空间中被可视化。局部线性嵌入(Locally Linear Embedding，LLE)关注于降维时保持样本局部的线性特征，由于LLE在降维时保持了样本的局部特征，它广泛的用于图像图像识别，高维数据可视化等领域。

有了降维和主成分分析，我们做PDE的就会思考，既然可以对 $\mathbb{R}^n$ 空间中的数据做降维，那么函数作为一组基函数的线性组合，如果将基函数看作一些座标系中的一个个座标轴，是否也可以对函数空间中的"数据"做降维呢？答案是肯定的。函数型（数据）主成分分析（Functional Principal Components analysis）可以视为是传统的主成分分析的一种推广。类比于PCA，它希望能将高维函数空间中的函数放到低维空间中去表示，而使得被表示的数据集损失最小。更通俗地说，就是希望用更少的基函数来表示某个已知基函数的函数空间的一堆函数，新空间的基函数用旧空间的基函数来线性表出。那么，我们就需要定义函数之间的距离，函数空间的内积等等。

主成分分析（PCA）

数据降维简介

在机器学习和统计学领域，降维是指在某些限定条件下，降低随机变量个数，得到一组"不相关"主变量的过程。
降维可进一步细分为变量选择和特征提取两大方法。除了考虑"维数灾难"的问题，降维还有一些本质的原因。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据。之所以使用降维后的数据表示是因为在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误差，降低了准确率，通过降维,我们希望减少冗余信息所造成的误差,提高识别（或其他应用）的精度，又或者希望通过降维算法来寻找数据内部的本质结构特征。目前比较流行的降维算法有主成分分析、线性判别分析、局部线性嵌入和拉普拉斯特征映射等等。

PCA算法的原理解释

所谓的主成分分析，不过是在高维的空间中寻找一个低维的正交座标系，比如说在三维空间中寻找一个二维的直角座标系。那么这个二维的直角座标系就会构成一个平面，将三维空间中的各个点在这个二维平面上做投影，就得到了各个点在二维空间中的一个表示，由此数据点就从三维降成了二维。

这个过程的关键在于，我们如何选取这个低维的座标系，即座标系原点在哪？各个轴朝哪个方向？一个原则就是使得各个点到到这个平面的距离平方和达到最小。由此，通过简单地数学推导，就能得到原点的表达公式和座标系的各个基向量的表达公式。

PCA算法的数学推导

我们假设输入为p维的N个对象， $X$ 表示如下图所示的一个矩阵：

通过PCA降维，将其降为d维的N个对象，假设为 $Y$ ,同前，每列表示一个对象，每行表示一个特征：

我们要将所有点投影到新的座标系中去，无非是寻找新座标系的座标原点和各个座标轴。

我们假设 $W$ 的每一列为新的座标系中单位正交的座标轴表示， $x_0$ 为新座标系的原点（相对于原座标系）。
那么，我们要做的就是找到一个合适的 $W$ 和 $x_0$ ，使其极小化所有点到新的座标平面的距离平方和。
容易知道，每一个点到新座标系的距离平方为（其中 $\underline X = (x_0,W)$ 表示的是位置参数）：
$\operatorname{Ds}_{X}(x, \underline{X})=\left(x-x_{0}-\sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}\right)^{T}\left(x-x_{0}-\sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}\right)$
对其进行化简，可得：
$\begin{array}{l}{D s_{X}(x, \underline{X})=\left(x-x_{0}-\sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}\right)^{T}\left(x-x_{0}-\sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}\right)} \\ {=\left(x-x_{0}\right)^{T}\left(x-x_{0}\right)-\left(\sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}\right)^{T}\left(x-x_{0}\right)} \\ {-\left(x-x_{0}\right)^{T} \sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}+\left(\sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}\right)^{T} \sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right) w_{i}}\end{array}$
进而有，
$\operatorname{Ds}_{X}(x, \underline{X})=\left(x-x_{0}\right)^{T}\left(x-x_{0}\right)-\sum_{i=1}^{d} w_{i}^{T}\left(x-x_{0}\right)\left(x-x_{0}\right)^{T} w_{i}$
让所有点到投影点距离平方和最小，即求解约束优化问题：
$\begin{array}{l}{\min _{\underline{X}} \sum_{k} D s_{X}\left(x_{k}, \underline{X}\right)=\sum_{k}\left(x_{k}-x_{0}\right)^{T}\left(x_{k}-x_{0}\right)} \\ {-\sum_{i=1}^{d} w_{i}^{T} \sum_{k}\left(x_{k}-x_{0}\right)\left(x_{k}-x_{0}\right)^{T} w_{i}} \\ {w_{i}^{T} w_{j}=\delta_{i j} \quad \delta_{i j}=1, \quad i=j} \\ {\delta_{i j}=0, \quad i \neq j}\end{array}$
我们借助拉格朗日乘子法来求解此约束优化问题：
$L=\sum_{k}\left(x_{k}-x_{0}\right)^{T}\left(x_{k}-x_{0}\right)-\sum_{i=1}^{d} w_{i}^{T} \sum_{k}\left(x_{k}-x_{0}\right)\left(x_{k}-x_{0}\right)^{T} w_{i}-\sum_{i=1}^{d} \lambda_{i}\left(w_{i}^{T} w_{i}-1\right)$
$\begin{array}{l}{\frac{\partial L}{\partial x_{0}}=-2\left(I_{p}-\sum_{i=1}^{d} w_{i} w_{i}^{T}\right) \sum_{k}\left(x_{k}-x_{0}\right)} \\ {\frac{\partial L}{\partial w_{i}}=2 \sum_{k}\left(x_{k}-x_{0}\right)\left(x_{k}-x_{0}\right)^{T} w_{i}-2 \lambda_{i} w_{i}}\end{array}$
由两个偏导为0，可以得到：
$\begin{array}{l}{x_{0}=\sum_{k} \frac{x_{k}}{N}} \\ {\sum_{k}\left(x_{k}-x_{0}\right)\left(x_{k}-x_{0}\right)^{T} w_{i}=\lambda_{i} w_{i}}\end{array}$
因为半正定矩阵的特征值非负，所以，原最小化损失函数可进行转化：
$\begin{array}{l}{\min _{\underline{X}} \sum_{k} D s_{X}\left(x_{k}, \underline{X}\right)} \\ {=\sum_{k}\left(x_{k}-x_{0}\right)^{T}\left(x_{k}-x_{0}\right)-\sum_{i=1}^{d} w_{i}^{T} \sum_{k}\left(x_{k}-x_{0}\right)\left(x_{k}-x_{0}\right)^{T} w_{i}} \\ {=\sum_{k}\left(x_{k}-x_{0}\right)^{T}\left(x_{k}-x_{0}\right)-\sum_{i=1}^{d} \lambda_{i} w_{i}^{T} w_{i}} \\ {=\sum_{k}\left(x_{k}-x_{0}\right)^{T}\left(x_{k}-x_{0}\right)-\sum_{i=1}^{d} \lambda_{i}}\end{array}$
我们利用矩阵的性质，要想最小化距离平方和，有：
$\min _{\underline{X}} \sum_{k} \operatorname{Ds}_{X}\left(x_{k}, \underline{X}\right)=\sum_{k}\left(x_{k}-x_{0}\right)^{T}\left(x_{k}-x_{0}\right)-\sum_{i=1}^{d} \lambda_{i}$
令 $\Sigma_{X}=\sum_{k}\left(x_{k}-x_{0}\right)\left(x_{k}-x_{0}\right)^{T}$ 为 $p\times p$ 的矩阵。有性质：
$\operatorname{tr}\left(\Sigma_{X}\right)=\sum_{k}\left(x_{k}-x_{0}\right)^{T}\left(x_{k}-x_{0}\right)=\sum_{i=1}^{p} \lambda_{i}$
则有，
$\min _{\underline{X}} \sum_{k} \operatorname{Ds}_{X}\left(x_{k}, \underline{X}\right)=\sum_{i=1}^{p} \lambda_{i}-\sum_{i=1}^{d} \lambda_{i}=\sum_{i=d+1}^{p} \lambda_{i}$
由此我们可以看到，要得到极小值，我们只要计算 $XX^T$ 矩阵的前d个最大特征值，是投影后样本具有最小损失的特点。那么此时的 $W$ 就是 $XX^T$ 矩阵前d个最大特征值对应的特征向量。
不难知道，对于 $XX^T$ 的特征分解： $XX^T = U\Lambda U^T$
这里的U就是前天提到的奇异值分解的U。同理，虽然我们这里没有用到 $V$ ，但其实奇异值分解的 $V$ 正式 $X^TX$ 的特征值分解的特征矩阵。
为了比较 $XX^T$ 特征分解和 $X$ 进行奇异值分解的消耗，写了一段小程序，并使用matlab探查功能进行比较如下：

这个比较事实上没有太大的意义。所用的代码如附录。

PCA算法简单描述

假设 $X$ 是一个m*n矩阵，表示n个对象的m个特征表示数据，即每一列表示一个对象，每一行表示一个特征。我们希望将特征降为d维，d远小于m。输出结果为 $Y$ ，一个d*n的矩阵。

记 $X=[x_1,x_2...x_n]$ ，计算每个对象点的平均值 $x_0 = \frac{1}{n}\sum\limits _{i=1}^nx_i$ 。
对 $X-x_0 : = [x_1-x_0,x_2-x_0...x_n-x_0]$ 做奇异值分解： $X-x_0 = U\Lambda V^T$ 。
则 $x_0$ 即为新座标系的原点， $U$ 的前d列即为去中心化后的新的座标系，不妨记为 $W$ 。那么，所有点在新座标系下的表示为: $Y=W^T*(X-x_0)$ 。同样地，要将新的投影点 $y$ 还原到原座标系中，可以写为： $x_0+W*y$ 。

下面以基于矩阵的视角写出PCA算法的算法流程，输入为矩阵p*N矩阵X，输出为d*N矩阵Y。矩阵的每一列都表示一个对象，每一行都表示对象的一个特征表示。

PCA算例一

假设小明和小红有身高和体重两个特征（实际操作数据要进行预处理，这里不做），如下表：

那么此时 $X = [178 ~165; 70 ~65]$ ，现在试图通过PCA降维，将身高和体重合并为一个特征。走一遍上面的过程,可得：

$X-x_0 = U\Lambda V^T$

其中，

那么，有

那就是说，最后数据可降维为：

这个问题MATLAB计算的小程序在附录。

PCA算例二

这是一个对于人脸数据进行降维的例子，人脸数据是我从网上找的。MATLAB源代码见附录。
选取了2000x1680的数据集进行了测试，选取降维后维数为20，其降维前后的图像（降维后的图像指的是投影点还原到原空间对应的座标值重构出的图像）如下所示（选取第一个点为代表）：

我们使用别人制作的降维工具箱"drtoolbox"重新进行计算并和我的程序结果进行比较。工具箱的使用代码见附录。结果如下：

当然，我们也可以比较我的程序和工具箱程序的误差的大小，比如 $L_2$ 误差。都很简单，暂且不提。

其他数据降维方法

其他的数据降维方法还有很多，比如说线性判别分析，拉普拉斯特征映射等等，我这里就简单介绍一下局部线性嵌入。

当数据具备某些非线性结构，如流形结构时，我们希望降维后的数据仍然保持这些结构。那么就提出了LLE降维算法。LLE(Locally linear embedding)：在数据降维后仍然保留原始高维数据的拓扑结构，这种拓扑结构表现为数据点的局部邻接关系。

此算法我们首先要寻求每个数据点的k个最近邻，然后将当前数据点用k个最近邻线性表出，那么就有相对的权重系数。
我们希望数据在降维后数据点之间依然能保持这种线性表出的关系，并且在满足另外一些约束条件的前提下，我们很容易求得降维后的数据。
具体原理和公式网络上有很多人整理得很好，这里不提了。

下面是LLE算法的算法流程，输入为矩阵p*N矩阵X，输出为d*N矩阵Y。矩阵的每一列都表示一个对象，每一行都表示对象的一个特征表示。

源代码见附录。

选取了409×698的图像数据集进行了测试，选取降维后维数为2，选取最近邻个数 $k=12$ ，实验后的部分结果如下：

我们使用别人制作的降维工具箱"drtoolbox"重新进行计算并和我的程序结果进行比较。工具箱的使用代码见附录。

降维后的部分数据截图如下：

为了比较性能，找个一个别人写的LEE算法，算是网络版本，代码在附录。"网络版"的数据结果和我的版本的结果是一样的。我们开启Matlab的探查功能来比较耗时，结果如图。

函数型数据主成分分析

Idea的萌生

前一段时间我在做一个流体力学上的东西（虽然现在已经不做这个方向了），其中比较关键的步骤就是需要用一个带时间变量的多项式公式，来刻画一个物理过程。这个多项式的各个项前面的系数是未知的，由物理规律来决定。我们希望从一些物理实验数据中来通过一些机器学习的手段来学到多项式各个项前面的系数。

这个问题本质的困难在于，我们不知道那些函数项（基函数）是我们需要的。事实上，只要知道了多项式包含哪些项，是可以通过一些物理原理求得前面的系数的。一个基本的想法就是选足够多的基函数，使得函数空间足够大而包含真值。但是，函数空间太大会带来使用物理原理求系数时的计算困难增大。所以，我们希望能找一个原来大的函数空间的一个子空间，使得用这个子空间，就能够基本刻画原来的物理过程。再用物理原理来求得以子空间基函数为各个项的多项式系数。

仔细一想，这不正是函数空间的PCA吗？如果把每一个函数看做一个数据点，把各个基函数看做是组成座标系的座标轴，那么"函数点"在高维函数空间中的表示，就可以通过类似于主成分分析的技巧，变成在低维函数空间中的表示。只要有了能表示刻画整个物理过程的各个数据点的低维空间，那么刻画物理过程的多项式的项（即低维空间的基函数）也就明确了，剩下的事情也就自然而然了。

FPCA简介和理论推导

函数型主成分分析（FPCA，Functional Principal Components Analysis）是传统的PCA的一种推广。考虑我们已经从数据中得到拟合曲线 $x_{i}(s), s \in \mathcal{T}, i=1, \cdots, n$ ，所谓的第一主成分，就是我们希望能找到一个模为1的函数 $\beta(s)$ ，使得 $\{x_i\}$ 在 $\beta$ 上的投影（ $L_2$ 内积） $\{\xi _i\}$ 的方差达到最大，方差最大其实也就体现 $\{x_i\}$ 整体到 $\beta$ 的距离达到最小。 $\beta$ 一般就叫做权重函数（可以理解为"座标轴"单位长度量）。

我们管各个函数到 $\beta$ 上的投影叫做观测曲线的主成分得分：
$\xi_{i}=\int_{\mathcal{T}} \beta(s) x_{i}(s) d s, \quad i=1, \cdots, n$ 故而，求解第一个主成分就变成了求解一个优化问题：
$\begin{aligned} \max \frac{1}{n} \sum_{i=1}^{n} \xi_{i}^{2} &=\max \frac{1}{n} \sum_{i=1}^{n}\left(\int_{\mathcal{T}} \beta(s) x_{i}(s) d s\right)^{2} \\ \text { s.t. } &\|\beta\|^{2}=\int_{T} \beta(s) \beta(s) d s=1 \end{aligned}$ 求解这个优化问题，我们就得到了第一主成分 $\beta^1(s)$ 。
第 $k$ 主成分无非就是在满足和前面 $k-1$ 个主成分权重函数垂直的基础上，求解上述优化问题而已，即求解
$\begin{array}{l}{\max \frac{1}{n} \sum_{i=1}^{n} \xi_{i}^{2}=\max \frac{1}{n} \sum_{i=1}^{n}\left(\int_{\mathcal{T}} \beta(s) x_{i}(s) d s\right)^{2}} \\ {\text { s.t. }\|\beta\|^{2}=\int_{T} \beta(s) \beta(s) d s=1} \\ {\int_{T} \beta(s) \beta^{l}(s) d s=0, l=1, \cdots, k-1}\end{array}$
这个优化问题的解可以表述如下。记协方差函数：
$v(s, t)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}(s)-\overline{x}(s)\right)\left(x_{i}(t)-\overline{x}(t)\right)$
那么权重函数满足特征方程：
$\int_{\mathcal{T}} v(s, t) \beta(t) d t=\lambda \beta(s)$
定义积分变换： $V \beta(s)=\int_{\mathcal{T}} v(s, t) \beta(t) d t$
这里的 $V$ 称为协方差算子，它将函数 $\beta$ 变成一个函数。那么，我们有：
$V \beta(s)=\lambda \beta(s)$
我们也类比PCA，使用特征值的累积贡献率来衡量主成分所占比例：
$\mathrm{FVE}=\sum_{i=1}^{K} \lambda_{i} / \sum_{i=1}^{n-1} \lambda_{i}$ 这里之所以对 $\lambda$ 只累计到 $n$ 是因为协方差算子 $V$ 的秩为样本数量减一个，则非零特征根的个数最多为 $n-1$ 个。
由上述已知，我们求解主成分最后归结为求解一个特征值问题。
求解这个问题，目前比较流行的有三种方法：

对函数进行SVD离散化
对函数进行基函数展开
运用一般性的数值积分方法

我们最后需要的是特征函数，为了避免插值而带来更大的误差，我选用对基函数进行展开的方法。下面简单介绍一个对函数进行基函数展开的基本思路。
我们的样本基函数 $x_i$ 可以通过基函数展开，如下：
$X_{i}(s)=\sum_{k=1}^{K} c_{i k} \Phi_{k}(s), i=1,2, \ldots, N$ 我们记
$X=\left(x_{1}, x_{2}, \ldots, x_{N}\right)^{\prime}, \Phi=\left(\Phi_{1}, \ldots, \Phi_{k}\right)^{\prime}, C=\left(c_{i k}\right)_{N \times K}$
那么样本函数就可以写为等价的矩阵形式 $X=C \Phi$ 。那么协方差函数就可以写为（假设已经标准化）：
$v(s, t)=\frac{1}{n-1} \Phi^{\prime}(s) C^{\prime} C \Phi(t)$
定义K阶对称矩阵 $W=\int \Phi \Phi^{\prime}$
当选择正交基的时候，比如说正交傅里叶基，这就是一个单位矩阵。关于这个基如何选取，我们后面还会详谈。
同样地，将特征函数进行展开：
$\beta(s)=\sum_{k=1}^{K} b_{k} \Phi_{k}(s)=\Phi^{\prime}(s) b$
将其代入 $\int_{\mathcal{T}} v(s, t) \beta(t) d t =\lambda \beta(s)$
就可以得到（ $N=n-1$ ）：
$\frac{1}{N} \Phi^{\prime}(s) C^{\prime} C W b=\lambda \Phi^{\prime}(s) b$
进一步能得到 $\frac{1}{N} C^{\prime} C W b=\lambda b$ ，由特征向量正交和单位长度的约束要求，有 $b_{k}^{\prime} W b_{k}=1, b_{k}^{\prime} W b_{m}=0,k \neq m$
对 $W$ 做cholesky分解，可得 $W=LL'$ 。
定义 $u=L'b$ ，那么上述问题就变成了对称矩阵的代数特征值问题：
$\frac{1}{N} L' C^{\prime} C L u=\lambda u$
据此可以求得 $u$ ，进而求得 $b$ ，最后求得特征函数 $\beta$ 。

常用的基函数有傅里叶基函数和B样条基函数，傅里叶基函数适用于周期性函数数据，B样条基函数适用于非周期函数数据，当然，也可以用多项式基函数。
B样条基函数的递归定义为：
$\begin{array}{c}{B_{j, 0}(x)=\left\{\begin{array}{l}{1, t_{j} \leq x<t_{j+1}} \\ {0, \text {else}}\end{array}\right.} \\ {B_{i, k}(x)=\frac{x-t_{i}}{t_{i+k}-t_{i}} B_{i, k-1}(x)+\frac{t_{i+k+1}-x}{t_{i+k+1}-t_{i+1}} B_{i+1, k-1}(x), k>0}\end{array}$
附录中有一段简单的以多项式为基的MATLAB代码。

FPCA和PCA的区别和联系

如上所述，可以看出，如果所选的基函数是正交的，本质上和PCA的以拟合系数为座标点的函数空间PCA推广是实际上是一样的。若基函数不是正交的，无非就是在此基础上对要求特征值的矩阵得多乘一个 $W=\int \Phi \Phi^{\prime}$ ，再求特征向量，以及进行 $W$ 意义下对特征向量进行单位化而已（不单位化也没事，只不过权重函数 $\beta$ 不再是模长为1的而已， $W$ 意义下的单位话也就意味着让新的基函数模长为1）。这个也非常容易理解，因为在从函数的元（primal）表示左乘一个质量矩阵就到了到它的对偶（dual）表示，而在基函数不正交的情况下，我们应该在对偶空间中再进行它的主成分分析降维，即各个函数的向量表示应该为这个函数和各个基函数的内积。同理，在对偶框架下得到的新的基函数的向量表示也是在对偶空间下的，应该左乘一个质量矩阵才能回到元空间中去。

基于FPCA的模型约化

Onsager原理简介

Onsager基本原理是基于物理规律的一个原理，利用它不难得到，如果刻画物理过程的模型方程有哪些项知道了，也就是基函数知道了，那么我们可以通过这个原理求得各个项前面的系数。
定义势能函数（自由能）： $A(a)$ 定义能量耗散函数：
$\Phi(\dot{a}, a)=\frac{1}{2} \sum_{i, j} \zeta_{i j}(a) \dot{a}_{i} \dot{a}_{j}$
那么系统随时间演化由最小化以下函数得到：
$R(\dot{a}, a)=\Phi(\dot{a}, a)+\sum_{i} \frac{\partial A}{\partial a_{i}} \dot{a}_{i}$
最小化 $R$ ，可以得到：
$\frac{\partial \Phi}{\partial \dot{a}_{i}}+\frac{\partial A}{\partial a_{i}}=0 \quad \text { or } \quad \sum_{j} \zeta_{i j}(a) \dot{a}_{j}=-\frac{\partial A}{\partial a_{i}}$
这就是我们要求解的ODE系统。

简单例子：斜板液滴滑动

问题描述

考虑一个液滴在斜板上从静止开始下滑，如图。

从正面或者侧面拍摄到的图案大概如图。

我们现在想要刻画这个液滴的状态，即在每一时刻液滴的俯视形状以及侧视高度。
我们可以用一个方程来描述这个过程：
$h(x, y, t)=H(x, t)\left[1-\left(\frac{y}{Y(x, t)}\right)^{2}\right]$
其中 $x$ 为平行平板沿着液滴运动的方向， $y$ 为平行平板垂直于液滴运动的方向， $t$ 为时刻， $h$ 为垂直于平板距离平板的一个高度。这里面的 $H、Y$ 是两个函数，分别刻画了俯视的形状和侧视的形状。事实上，取 $h=0$ ，可以得到 $y=Y(x,t)$ 描述了俯视图（垂直于板）的形状（一半），取 $y=0$ ，得到 $h=H(x,t)$ ，体现的是侧视图。再者，若给定了 $x$ 值，高度随着 $y$ 是呈现出抛物的变化。因此，这个公式看起来不无道理。
接下来，我们对 $H,Y$ 做一个简单的假定：
$\begin{array}{c}{H(x, t)=\left(x-a_{1}(t)\right)\left(a_{2}(t)-x\right)\left(a_{3}(t)+a_{4}(t) x\right)} \\ {Y(x, t)=\left(x-a_{1}(t)\right)^{\frac{1}{2}}\left(a_{2}(t)-x\right)^{\frac{1}{2}}\left(a_{5}(t)+a_{6}(t) x\right)}\end{array}$
容易想到，这里的 $a_1(t),a_2(t)$ 表示的是液滴的前后端点（采用欧拉座标系），因为 $H,Y$ 在两端点处的值为零。

原理的应用

我们希望能通过上面提到的Onsager原理来确定这里的系数 $a_i$ 。
固定时刻的液滴体积：
$\Omega=\int_{a_{1}}^{a_{2}} d x \int_{-Y}^{Y} d y h(x, y, t)$
因为体积是守恒量，所以问题的自由度个数就变成了5。势能函数定义为：
$\begin{aligned} A(a)=& \int_{a_{1}}^{a_{2}} d x \int_{-Y}^{Y} d y\left[\frac{1}{2} \gamma \theta_{e}^{2}+\frac{1}{2} \gamma\left[\left(\partial_{x} h\right)^{2}+\left(\partial_{y} h\right)^{2}\right]\right.\\ &+\frac{1}{2} \rho g h^{2} \sin \alpha-\rho g x h \cos \alpha ] \end{aligned}$
这里的 $\gamma$ 表示液滴的表面张力， $\rho$ 表示密度， $\theta_e$ 是平衡态下的接触角大小， $g$ 是重力加速度， $\alpha$ 是前面提到的斜面角。我也不知道势能函数为什么能写成这样，需要一些物理的分析。
可以把 $h$ 的表达式代入到这个势能函数的表达式中。我们还需要知道能量耗散函数 $\Phi$ 。由滑润近似，能量耗散函数可以写成关于速度的变量：
$\Phi\left[v_{x}, v_{y}\right]=\frac{1}{2} \int_{a_{1}}^{a_{2}} d x \int_{-Y}^{Y} d y \frac{3 \eta}{h}\left(v_{x}^{2}+v_{y}^{2}\right)$
这里的 $v_x,v_y$ 表示两个方向上的速度， $\eta$ 表示流体的粘性。但是我们想要的耗散函数是关于 $\dot a$
的，所以要想办法替换掉速度。由体积守恒，我们有：
$\dot{h}=-\partial_{x}\left(v_{x} h\right)-\partial_{y}\left(v_{y} h\right)$
将 $h$ 的表达式代入上式，可得：
$\begin{array}{c}{\left(1-\frac{y^{2}}{Y^{2}}\right)\left(\dot{H}+\partial_{x}\left(v_{x} H\right)+H \partial_{y} v_{y}\right)} \\ {+\frac{2 H y}{Y^{3}}\left(y \dot{Y}+y v_{x} \partial_{x} Y-Y v_{y}\right)=0}\end{array}$
这个约束满足的一个充分条件是：
$\begin{array}{l}{\dot{H}+\partial_{x}\left(v_{x} H\right)+H \partial_{y} v_{y}=0} \\ {y \dot{Y}+y v_{x} \partial_{x} Y-Y v_{y}=0}\end{array}$
一个如下所示的速度场能够满足这样的条件：
$v_{x}(x, y, t)=V(x, t), \quad v_{y}(x, y, t)=W(x, t) y$
其中， $V,W$ 的表达为：
$\begin{aligned} V(x, t) &=-\frac{1}{H Y} \int_{a_{1}}^{x}(\dot{H} Y+H \dot{Y}) d x \\ W &=\frac{1}{Y}\left(\dot{Y}+V \partial_{x} Y\right) \end{aligned}$
那么，我们得到的能量耗散函数其实是：
$\Phi\left[\dot a, a\right]=\frac{1}{2} \int_{a_{1}}^{a_{2}} d x \int_{-Y}^{Y} d y \frac{3 \eta}{h}\left(V^{2}+{y}^{2}W^2\right)$
我们把 $a$ 看成常量，由于 $\dot H,\dot Y$ 是 $\dot a$ 的线性组合，意味着 $V,W$ 也是，那么 $\Phi$ 就是 $\dot a$ 的二次函数，不妨记为：
$\Phi(\dot{a})=\frac{1}{2} \sum_{i, j} \zeta_{i j} \dot{a}_{i} \dot{a}_{j}$
这里的 $\xi_{ij}$ 是 $a$ 的函数。
这下有了势能函数和能量耗散函数，我们可以得到关于 $a_i$ 的发展方程为：
$\sum_{j=1}^{6} \zeta_{i j} \dot{a}_{j}+\frac{\partial A}{\partial a_{i}}=0$
求解之，可得 $a$ 。

算法步骤

总结一下上述的计算过程，就是：

能量耗散函数：
$\Phi\left[\dot a, a\right]=\frac{1}{2} \int_{a_{1}}^{a_{2}} d x \int_{-Y}^{Y} d y \frac{3 \eta}{h}\left(V^{2}+{y}^{2}W^2\right)$
其中，
$\begin{aligned} V(x, t) &=-\frac{1}{H Y} \int_{a_{1}}^{x}(\dot{H} Y+H \dot{Y}) d x \\ W &=\frac{1}{Y}\left(\dot{Y}+V \partial_{x} Y\right) \end{aligned}$
$h(x, y, t)=H(x, t)\left[1-\left(\frac{y}{Y(x, t)}\right)^{2}\right]$
$\begin{array}{c}{H(x, t)=\left(x-a_{1}(t)\right)\left(a_{2}(t)-x\right)\left(a_{3}(t)+a_{4}(t) x\right)} \\ {Y(x, t)=\left(x-a_{1}(t)\right)^{\frac{1}{2}}\left(a_{2}(t)-x\right)^{\frac{1}{2}}\left(a_{5}(t)+a_{6}(t) x\right)}\end{array}$
由此，我们计算出 $\Phi(\dot a)$ 表达式，并提取前面的线性组合的系数：
$\Phi(\dot{a})=\frac{1}{2} \sum_{i, j} \zeta_{i j} \dot{a}_{i} \dot{a}_{j}$
势能函数：
$\begin{aligned} A(a)=& \int_{a_{1}}^{a_{2}} d x \int_{-Y}^{Y} d y\left[\frac{1}{2} \gamma \theta_{e}^{2}+\frac{1}{2} \gamma\left[\left(\partial_{x} h\right)^{2}+\left(\partial_{y} h\right)^{2}\right]\right.\\ &+\frac{1}{2} \rho g h^{2} \sin \alpha-\rho g x h \cos \alpha ] \end{aligned}$
求解ODE方程组（数值解），得出 $a$ 。
$\sum_{j=1}^{6} \zeta_{i j} \dot{a}_{j}+\frac{\partial A}{\partial a_{i}}=0$

数值实验

所用的参数如下：
$\eta=104 \mathrm{cP}, \rho=964 \mathrm{kg} \mathrm{m}^{-3}$
$\gamma=20.9 \mathrm{mNm}^{-1},$ $\theta_{e}=53^{\circ}$
$\Omega = 6.3 \mathrm{mm}^{3}$ $\alpha=15^{\circ},25^\circ,45^\circ$

下面有一些数值结果如图。

所用的程序比较冗长，就不往本文后面贴了。

FPCA在液滴下滑问题的应用

这只是我的一个想法，目前有很多问题都没有明确。由于时间关系，我这里也不会展开细述这一部分内容。基本的做法可以分成以下几个步骤：

收集数据：除了网络上搜到的三个物理实验视频和论文中的一些截图之外，我没有找到更多的数据，数据严重不足。和文章作者联系，也未要到数据。
图像处理：对收集到的视频，按帧提取图像，对每个图像进行去噪，二值化，归一化，提取边缘的座标位置。
FPCA降维：对于提取到的数据，选用适当的基函数，做小二乘意义下的拟合，得到拟合系数。这一组组拟合系数，就是我们做FPCA降维的数据。做FPCA，得到子函数空间。
Onsager原理确定系数：在子函数空间中，使用Onsager基本原理，得到液滴下滑物理过程的表达式系数。

数据不够怎么办？有两个基本的想法。一个是利用同一组参数（如斜板角度）下不同时刻的数据（一个视频），来降维生成这组参数下的随时间变化的物理过程表达过程。另一个是查找更多的数据，哪怕利用上别人文章中的图片，堆砌所有的数据，寻求刻画这个物理过程的"真"表达，找到物理上的"真"规律。

收集到的原始数据如图所示。

处理后的数据如图所示。

其中用到的一些代码见附录。根据这个问题的特殊性，有一个新的想法就是Robust
PCA和流行学习能不能推广到FPCA上？这也是一个有趣的问题。其实我们还是不太清楚这个问题中数据的分布。

参考文献

[1] Rio E , Daerr A , Andreotti B , et al. Boundary Conditions in the
Vicinity of a Dynamic Contact Line: Experimental Investigation of
Viscous Drops Sliding Down an Inclined Plane[J]. Physical Review
Letters, 2005, 94(2):024503.

[2] Rudy S H , Brunton S L , Proctor J L , et al. Data-driven
discovery of partial differential equations[J]. Science Advances,
2017, 3(4):e1602614.

[3] Brunton S L , Proctor J L , Kutz J N . Discovering governing
equations from data by sparse identification of nonlinear dynamical
systems[J]. Proceedings of the National Academy of Sciences,
2016:201517384.

[4] Xu X , Di Y , Doi M . Variational method for liquids moving on a
substrate[J]. Physics of Fluids, 2016, 28(8):087101.

[5] 胡宇. 函数型数据分析方法研究及其应用[D]. 东北师范大学, 2011.

[6] 陈宜治. 函数型数据分析若干方法及应用[D]. 浙江工商大学, 2011.

[7] 沈关友. 基于函数型数据主成分分析的银行股票数据预测[D].

[8] 吴刚, 胡新荣. 基于函数型主成分分析的织物状态研究[J].
科技创业月刊, 2017(12).

[9] 李敏. 基于函数型主成分分析方法的用水量数据分析[J].
合肥学院学报(综合版), 2014(4):21-25.
ear dynamical
systems[J]. Proceedings of the National Academy of Sciences,
2016:201517384.