线性模型（二）之多项式拟合

1. 多项式拟合问题

多项式拟合（polynominal curve fitting）是一种线性模型，模型和拟合参数的关系是线性的。多项式拟合的输入是一维的，即 $x = x$ ，这是多项式拟合和线性回归问题的主要区别之一。

多项式拟合的目标是构造输入 $x$ 的 $M$ 阶多项式函数，使得该多项式能够近似表示输入 $x$ 和输出 $y$ 的关系，虽然实际上 $x$ 和 $y$ 的关系并不一定是多项式，但使用足够多的阶数，总是可以逼近表示输入 $x$ 和输出 $y$ 的关系的。

多项式拟合问题的输入可以表示如下：

D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{i}, y_{i}), . . ., (x_{N}, y_{N})} x_{i} \in R y_{i} \in R

目标输出是得到一个多项式函数：

\begin{aligned} f (x) & = w_{1} x^{1} + w_{2} x^{2} + w_{i} x^{i} + . . . + w_{M} x^{M} + b \\ = (\sum_{i = 1}^{M} w_{i} x^{i}) + b \end{aligned}

其中 $M$ 表示最高阶数为 $M$ 。

可见在线性拟合的模型中，共包括了 $(M + 1)$ 个参数，而该模型虽然不是输入 $x$ 的线性函数，但却是 $(M + 1)$ 个拟合参数的线性函数，所以称多项式拟合为线性模型。对于多项式拟合问题，其实就是要确定这 $(M + 1)$ 个参数，这里先假设阶数 $M$ 是固定的（ $M$ 是一个超参数，可以用验证集来确定 $M$ 最优的值，详细的关于 $M$ 值确定的问题，后面再讨论），重点就在于如何求出这 $(M + 1)$ 个参数的值。

2.优化目标

多项式拟合是利用多项式函数逼近输入 $x$ 和输出 $y$ 的函数关系，通过什么指标来衡量某个多项式函数的逼近程度呢？（其实这就是误差/损失函数）。拟合/回归问题常用的评价指标是均方误差（在机器学习中的模型评估与度量博客中，我进行了介绍）。多项式拟合问题也同样采用该评价指标，以均方误差作为误差/损失函数，误差函数越小，模型越好。

E (w, b) = \frac{1}{N} \sum_{i = 1}^{N} {[f (x_{i}) - y_{i}]}^{2}

系数 $\frac{1}{N}$ 是一常数，对优化结果无影响，可以去除，即将均方误差替换为平方误差：

E (w, b) = \sum_{i = 1}^{N} {[f (x_{i}) - y_{i}]}^{2}

到这里，就成功把多项式拟合问题变成了最优化问题，优化问题可表示为：

\underset{w, b}{\arg min} E (w, b)

即需要求得参数 ${w_{1}, . . ., w_{M}, b}$ 的值，使得 $E (w, b)$ 最小化。那么如何对该最优化问题求解呢？

3. 优化问题求解

3.1 求偏导，联立方程求解

直观的想法是，直接对所有参数求偏导，令偏导为0，再联立这 $M + 1$ 个方程求解（因为共有 $M + 1$ 个参数，故求偏导后也是得到 $M + 1$ 个方程）。

\begin{aligned} E (w, b) & = \sum_{i = 1}^{N} {[f (x_{i}) - y_{i}]}^{2} \\ = \sum_{i = 1}^{N} {[(w_{1} x_{i}^{1} + w_{2} x_{i}^{2} + w_{i} x_{i}^{j} + . . . + w_{M} x_{i}^{M} + b) - y_{i}]}^{2} \end{aligned}

利用 $E (w, b)$ 对各个参数求偏导，如下：

\begin{aligned} \frac{\partial E (w, b)}{\partial w_{j}} & = 2 \sum_{i = 1}^{N} [(w_{1} x_{i}^{1} + w_{2} x_{i}^{2} + w_{i} x_{i}^{j} + . . . + w_{M} x_{i}^{M} + b) - y_{i}] x_{i}^{j} \\ \frac{\partial E (w, b)}{\partial b} & = 2 \sum_{i = 1}^{N} [(w_{1} x_{i}^{1} + w_{2} x_{i}^{2} + w_{i} x_{i}^{j} + . . . + w_{M} x_{i}^{M} + b) - y_{i}] \end{aligned}

求导之后，将各个点 $(x_{i}, y_{i})$ 的值带入偏导公式，联立方程求解即可。

针对该解法，可以举个例子详细说明，比如有两个点 $(2, 3), (5, 8)$ ,需要利用二阶多项式 $f (x) = w_{1} x + w_{2} x^{2} + b$ 拟合。求解过程如下：

该二阶多项式对参数求偏导得到

$\begin{aligned} \frac{\partial E (w, b)}{\partial w_{j}} & = 2 \sum_{i = 1}^{2} [(w_{1} x_{i}^{1} + w_{2} x_{i}^{2} + b) - y_{i}] x_{i}^{j} \\ = [(w_{1} x_{1} + w_{2} x_{1}^{2} + b) - y_{1}] x_{1}^{j} + [(w_{1} x_{2} + w_{2} x_{2}^{2} + b) - y_{2}] x_{2}^{j} \\ \frac{\partial E (w, b)}{\partial b} & = 2 \sum_{i = 1}^{2} [(w_{1} x_{i}^{1} + w_{2} x_{i}^{2} + b) - y_{i}] \\ = [(w_{1} x_{1} + w_{2} x_{1}^{2} + b) - y_{1}] + [(w_{1} x_{2} + w_{2} x_{2}^{2} + b) - y_{2}] \end{aligned}$

将点 $(2, 3), (5, 8)$ 带入方程，可以得到3个方程，

$\begin{aligned} 2 b + 7 w_{1} + 29 w_{2} = 11 \\ 7 b + 29 w_{1} + 133 w_{2} = 46 \\ 29 b + 133 w_{1} + 641 w_{2} = 212 \end{aligned}$

联立这三个方程求解，发现有无穷多的解，只能得到 $3 w_{1} + 21 w_{2} = 5$ ，这三个方程是线性相关的，故没有唯一解。

该方法通过求偏导，再联立方程求解，比较复杂，看着也很不美观。那么有没有更加方便的方法呢？

3.2 最小二乘法

其实求解该最优化问题（平方和的最小值）一般会采用最小二乘法（其实最小二乘法和求偏导再联立方程求解的方法无本质区别，求偏导也是最小二乘法，只是这里介绍最小二乘的矩阵形式而已）。最小二乘法（least squares），从英文名非常容易想到，该方法就是求解平方和的最小值的方法。

可以将误差函数以矩阵的表示( $N$ 个点，最高 $M$ 阶)为：

{‖ X w - y ‖}_{2}

其中，把偏置 $b$ 融合到了参数 $w$ 中，

w = {b, w_{1}, w_{2}, . . ., w_{M}}

$X$ 则表示输入矩阵，

\begin{matrix} [\begin{matrix} 1 & x_{1} & x_{1}^{2} & . . . & x_{1}^{M} \\ 1 & x_{2} & x_{2}^{2} & . . . & x_{2}^{M} \\ . . . & . . . & . . . & . . . & . . . \\ 1 & x_{N} & x_{N}^{2} & . . . & x_{N}^{M} \end{matrix}] \end{matrix}

$y$ 则表示标注向量，

y = {y_{1}, y_{2}, . . ., y_{N}}^{T}

因此，最优化问题可以重新表示为

min_{w} {‖ X w - y ‖}_{2}

对其求导，

\begin{aligned} \frac{\partial {‖ X w - y ‖}_{2}}{\partial w} & = \frac{\partial (X w - y)^{T} (X w - y)}{\partial w} \\ = \frac{\partial (w^{T} X^{T} - y^{T}) (X w - y)}{\partial w} \\ = \frac{\partial (w^{T} X^{T} X w - y^{T} X w - w^{T} X^{T} y + y^{T} y)}{\partial w} \end{aligned}

在继续对其求导之前，需要先补充一些矩阵求导的先验知识（常见的一些矩阵求导公式可以参见转载的博客https://blog.csdn.net/lipengcn/article/details/52815429），如下：

$\frac{\partial x^{T} a}{\partial x} = a \frac{\partial a x}{\partial x} = a^{T} \frac{\partial x^{T} A}{\partial x} = A x + A^{T} x$

根据上面的矩阵求导规则，继续进行损失函数的求导

\begin{aligned} \frac{\partial {‖ X w - y ‖}_{2}}{\partial w} & = \frac{\partial (w^{T} X^{T} X w - y^{T} X w - w^{T} X^{T} y + y^{T} y)}{\partial w} \\ = X^{T} X w + (X^{T} X)^{T} w - (y^{T} X)^{T} - X^{T} y \\ = 2 X^{T} X w - 2 X^{T} y \end{aligned}

其中 $X^{T} X w = (X^{T} X)^{T} w$ .令求导结果等于0，即可以求导问题的最小值。

\begin{aligned} 2 X^{T} X w - 2 X^{T} y = 0 \\ w = (X^{T} X)^{- 1} X^{T} y \end{aligned}

再利用最小二乘法的矩阵形式对前面的例子进行求解，用二阶多项式拟合即两个点 $(2, 3), (5, 8)$ 。

表示输入矩阵 $X$ 和标签向量 $y$

$\begin{matrix} X = [\begin{matrix} 1 & 2 & 4 \\ 1 & 5 & 25 \end{matrix}] \\ y = {[\begin{matrix} 3 & 8 \end{matrix}]}^{T} \end{matrix}$

计算 $X^{T} X$

$\begin{matrix} X^{T} X = [\begin{matrix} 2 & 7 & 29 \\ 7 & 29 & 133 \\ 29 & 133 & 641 \end{matrix}] \end{matrix}$

矩阵求逆，再做矩阵乘法运算
但 $X^{T} X$ 不可逆，故无唯一解。

关于矩阵的逆是否存在，可以通过判断矩阵的行列式是否为0（ $d e t (A) \overset{?}{=} 0$ 来判断，也可以通过初等行变换，观察矩阵的行向量是否线性相关，在这个例子下，矩阵不可逆，故有无穷多解。但如果新增一个点 $(4, 7)$ ，则就可以解了。

其实这和数据集的点数和选择的阶数有关，如果点数小于阶数则会出现无穷解的情况，如果点数等于阶数，那么刚好有解可以完全拟合所有数据点，如果点数大于阶数，则会求的近似解。

那么对于点数小于阶数的情况，如何求解？在python的多项式拟合函数中是可以拟合的，而且效果不错，具体算法不是很了解，可以想办法参考python的ployfit()函数的实现。

4. 拟合阶数的选择

在前面的推导中，多项式的阶数被固定了，那么实际场景下应该如何选择合适的阶数 $M$ 呢？

一般会选择阶数 $M$ 小于点数 $N$

把训练数据分为训练集合验证集，在训练集上，同时用不同的 $M$ 值训练多个模型，然后选择在验证集误差最小的阶数 $M$

5. 后续

如果后续还想写的话，可以考虑正则化问题。

线性模型（二）之多项式拟合

1. 多项式拟合问题

2.优化目标

3. 优化问题求解

3.1 求偏导，联立方程求解

3.2 最小二乘法

4. 拟合阶数的选择

5. 后续

Wireshark 安装+使用（一）

聚類算法之Kmeans

保留浮點數前幾位小數

讀取LMDB文件的樣本數量

tensorflow中的tf.app.run

python中urllib模塊的urlretrieve函數

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結