文章目录

Directional Derivative and Gradient

Directional Derivative and Gradient

方向导数，描述函数沿指定方向的变化率。若函数 $f(x, y)$ 在点 $P_0(x_0,y_0)$ 处可微，则函数在该点沿任一方向 $l$ 的方向导数存在，且有
$\frac{\partial f}{\partial l} \Big |_{(x_0,y_0)}=f_x(x_0,y_0)\cos\alpha + f_y(x_0,y_0)\cos\beta$
其中 $\cos \alpha$ 和 $\cos \beta$ 是方向 $l$ 的方向余弦。

Differentiable and Partial Derivatives

若函数 $z=f(x,y)$ 在点 $(x,y)$ 的某邻域内有定义，函数在点 $(x, y)$ 处的全增量 $\Delta z = f(x+\Delta x, y+\Delta y)-f(x,y)$ ，可表示为 $\Delta z = A\Delta x + B\Delta y + o(\rho), \quad \rho=\sqrt{(\Delta x)^2 + (\Delta y)^2}$

其中 $A$ 、 $B$ 不依赖于 $\Delta x$ 、 $\Delta y$ ，且仅与 $x$ 、 $y$ 有关，则称函数 $z=f(x,y)$ 在 $(x,y)$ 处可微，全微分 $\mathrm dz=A\Delta x + B\Delta y$ 。

必要条件

若函数 $z=f(x,y)$ 在点 $(x,y)$ 处可微分，则函数 $z=f(x,y)$ 在点 $(x,y)$ 的偏导数 $\dfrac{\partial z}{\partial x}$ 、 $\dfrac{\partial z}{\partial y}$ 必定存在，此时全微分
$\mathrm dz=\dfrac{\partial z}{\partial x} \Delta x + \dfrac{\partial z}{\partial y} \Delta yy \quad \Longleftrightarrow \quad \mathrm dz = \dfrac{\partial z}{\partial x} \mathrm dx + \dfrac{\partial z}{\partial y} \mathrm dy$

充分条件

若函数 $z=f(x,y)$ 的偏导数 $\dfrac{\partial z}{\partial x}$ 、 $\dfrac{\partial z}{\partial y}$ 在点 $(x,y)$ 处连续，则函数 $z=f(x,y)$ 在点 $(x,y)$ 处可微。

综上所述：可微 $\implies$ 偏导存在 $\quad$ 偏导存在且连续 $\implies$ 可微.

Directional Derivative

若 $f(x, y)$ 在点 $P_0(x_0,y_0)$ 处可微，则
$f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)=f_x(x_0,y_0)\Delta x + f_y(x_0,y_0)\Delta y +o(\sqrt{(\Delta x)^2 + (\Delta y)^2})$
且
$\Delta x=t\cos\alpha,\ \Delta y=t\cos\beta,\ \sqrt{\Delta x)^2 + (\Delta y)^2}=t$
因此方向导数
$\lim_{t \to 0^+}\frac{f_x(x_0,y_0)t\cos\alpha+f_y(x_0,y_0)t\cos\beta}{t}=f_x(x_0,y_0)\cos\alpha + f_y(x_0,y_0)\cos\beta$

例题

求 $f(x,y,z)=xy+yz+zx$ 在点 $(1,1,2)$ 沿方向 $l$ 的方向导数，其中 $l$ 的方向角分别为 $60^\circ$ 、 $45^\circ$ 、 $60^\circ$ 。
解：与 $l$ 同向的单位向量 $\bm e_l=(\dfrac{1}{2},\dfrac{\sqrt 2}{2}, \dfrac{1}{2})$ ，因为函数可微，故
$f_x(1,1,2)=3, \quad f_y(1,1,2)=3, \quad f_z(1,1,2)=2$
因此
$\frac{\partial f}{\partial l}\Big|_{(1,1,2)}=3\cdot\frac{1}{2} + 3\cdot\frac{\sqrt 2}{2} + 2\cdot\frac{1}{2} = \frac{1}{2}(5+3\sqrt 2)$

Gradient

对于二元函数，设函数 $f(x,y)$ 在平面区域 $D$ 内具有一阶连续偏导，则对于每一点 $P_0(x_0,y_0)\in D$ ，定义向量
$f_x(x_0, y_0)\bm i + f_y(x_0,y_0)\bm j$
称为函数 $f(x,y)$ 在点 $P_0(x_0,y_0)$ 处的梯度，记作
${\bf{grad}} \,f(x_0,y_0)\quad或\quad\nabla f(x_0,y_0)$

Relationship of Directional Derivative and Gradient

若函数 $f(x,y)$ 在点 $P_0(x_0,y_0)$ 处可微分，与方向 $l$ 同方向的单位向量 $\bm e_l=(\cos \alpha, \cos\beta)$ ，则
$\begin{aligned} \frac{\partial f}{\partial l}\Big|_{(x_0,y_0)} & =f_x(x_0,y_0)\cos\alpha +f_y(x_0,y_0)\cos\beta \\[1ex] &={\bf{grad}}\,f(x_0,y_0)\cdot \bm e_l \\[1ex] &= |{\bf{grad}}\,f(x_0,y_0)|\cdot \cos \theta \end{aligned}$
式中， $\theta$ 为梯度与方向 $l$ 的夹角. $\theta$ 不同值，函数变化情况：

$\theta=0$ ，方向 $l$ 与梯度方向同向，函数 $f(x,y)$ 增长最快；
$\theta=\pi$ ，方向 $l$ 与梯度方向相反，函数 $f(x,y)$ 减少最快；
$\theta=\pi/2$ ，方向 $l$ 与梯度方向正交，函数 $f(x,y)$ 变化率为0；

Gradient Descent

梯度下降是利用损失函数的负梯度方向更新参数，使目标函数（均方误差损失函数）达到极小值
$L = \frac{1}{2n}\sum_n\left(\hat y-\left(\pmb w \pmb x + b\right)\right)^2$

Gradient Decent and Taylor Series

泰拉展开式
$\begin{aligned} f(x) &=\sum_{k=0}^{\infty}\frac{h^{(k)}(x_0)}{k!}(x-x_0)^k \\ &=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+\cdots\\ & \approx h(x_0)+h'(x_0)(x-x_0) \end{aligned}$
若 $L(\pmb \theta)$ 包含两个参数，将 $L(\pmb \theta)$ 在 $\pmb \theta_t=(a, b)$ 处一阶展开
$L(\pmb \theta)\approx L(a, b)+ \frac{\partial L(a, b)}{\partial \theta_1}(\theta_1 - a)+ \frac{\partial L(a, b)}{\partial \theta_2}(\theta_2 - b)$
令 $\Delta\theta_1=(\theta_1-a)$ , $\Delta\theta_2=(\theta_2-b)$ ，则
$\min_{\pmb\theta} L(\pmb \theta) \iff \min\left[ (\Delta\theta_1, \Delta\theta_2)\cdot \left(\frac{\partial L(a, b)}{\partial \theta_1},\frac{\partial L(a, b)}{\partial \theta_2}\right)\right]$
两向量夹角180°时内积最小，最优解满足
$(\Delta\theta_1, \Delta\theta_2)=-\eta\left(\dfrac{\partial L(a, b)}{\partial \theta_1},\dfrac{\partial L(a, b)}{\partial \theta_2}\right)\implies \quad \begin{bmatrix} \theta_1 \\ \theta_2 \end{bmatrix}= \begin{bmatrix} a \\ b \end{bmatrix} - \eta \begin{bmatrix} \dfrac{\partial L(a, b)}{\partial \theta_1} \\ \dfrac{\partial L(a, b)}{\partial \theta_2} \end{bmatrix}$

Negative Gradient

函数 $f(x)$ 在点 $x$ 处沿方向 $d$ 的变化率可用方向导数表示，方向导数等于梯度与方向的内积，即
$Df(\pmb x;\pmb d)=\nabla f(\pmb x)^T\pmb d$
非线性规划求解最速下降方向，即
$\min\nabla f(\pmb x)^T\pmb d\quad \quad s.t.\ ||\pmb d||\leq 1$
由Schwartz不等式，有
$||\nabla f(\pmb x)^T\pmb d|| \leq ||\nabla f(\pmb x)||\,|\pmb d|| \leq ||\nabla f(\pmb x)||$
故
$\nabla f(\pmb x)^T\pmb d \geq -||\nabla f(\pmb x)||,\quad 当前仅当\ \pmb d=-\frac{\nabla f(\pmb x)}{||\nabla f(\pmb x)||}时等式成立$
即负梯度方向为最速下降方向。

Batch Gradient Descent

每次迭代使用所有样本更新参数，即
$\pmb w_{t+1}=\pmb w_t - \eta\nabla L_t, \quad\nabla L_t=\dfrac{1}{n}\sum_n(\hat y_i - (\pmb w_t \pmb x_i + b))\pmb x_i$
优点： 可得到全局最优解，可并行计算，凸优化时可获得全局最优解；
缺点： 训练时间长；

Stochastic Gradient Descent, SGD

随机梯度下降，每次迭代随机选取一个样本更新参数，即
$\pmb w_{t+1}=\pmb w_t - \eta\nabla L_t,\quad 其中\nabla L_t=\dfrac{1}{2}(\hat y_i - (\pmb w_t \pmb x_i + b))\pmb x_i$
优点： 训练速度快；
缺点： 准确度下降（盲目搜索解空间），可能只能得到局部最优解，且无法并行计算；

Adaptive Gradient Descent, Adagrad

自适应梯度下降，某参数的理想学习率正比於其一次微分、反比于其二次微分，即对于任一参数有
$\pmb w_{t+1} = \pmb w_t - \frac{\eta_t}{\pmb\sigma_t + \epsilon}\pmb g_t, \quad \eta_t = \frac{\eta }{\sqrt{t + 1}},\quad \pmb\sigma_t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t\pmb g_i^2},\quad \pmb g_t=\frac{\partial L}{\partial \pmb w}$
其中， $\sigma_t$ 为一次微分的平方差（避免分母为0），在不增加额外计算量时预估二次微分.

优点： 动态调整学习率，不同参数具有不同的学习率，适用于稀疏数据集（自然语言处理和计算机视觉）.
缺点： 随着迭代次数增加时，分母增大，梯度趋近于0，训练会提前结束.

Momentum

SGD方法参数更新方向依赖于当前batch计算出的梯度，无法跳出局部最优.
动量法借用物理动量思想，模拟物体运动惯性，即更新参数时依赖于当前更新方向和梯度方向.
$\pmb w_{t+1} = \pmb w_t - \pmb v_t, \quad \pmb v_t = \gamma\pmb v_{t-1} + \alpha \pmb g_t, \quad \pmb v_0 = \pmb0$
物理解释：γ可视为空气阻力，我们把一个球推下山，球在下坡时积聚动量，若动量方向与梯度方向一致，则在途中变得越来越快；若球的方向发生变化，则动量会衰减，速度变慢或方向改变.

Root Mean Square Propagation, RMSprop

均方根传播，解决Adagrad梯度下降过快和Momentum梯度摆动幅度大的问题
$\pmb w_{t+1}=\pmb w_t - \frac{\eta}{\sqrt{\pmb\sigma_t + \epsilon}}\pmb g_t, \quad \pmb\sigma_t = {\alpha\pmb\sigma_{t-1} + (1-\alpha)\pmb g_t^2}$
$\alpha$ 正比于当前梯度所占更新权重的比重.

Adaptive Moment Estimation, Adam

自适应矩估计，指数移动均值和平方梯度分别为
$\pmb m_{t+1} = \alpha\pmb m_t + (1-\alpha)\pmb g_t,\quad\pmb v_{t+1}=\beta\pmb v_t + (1-\beta)\pmb g_t^2$
偏差修正
$\pmb{\hat m}_t=\frac{\pmb m_t}{1 - \alpha}, \quad \pmb{\hat v}_t=\frac{\pmb v_t}{1 - \beta}$
参数更新公式
$\pmb w_{t+1}=\pmb w_t - \frac{\eta}{\sqrt{\pmb{\hat v}_t} + \epsilon}\pmb{\hat m}_t$

数学：优化理论（方向导数、负梯度、SGD、Adagrad、RMSprop、Adam）

文章目录

Directional Derivative and Gradient

Differentiable and Partial Derivatives

Directional Derivative

Gradient

Relationship of Directional Derivative and Gradient

Gradient Descent

Gradient Decent and Taylor Series

Negative Gradient

Batch Gradient Descent

Stochastic Gradient Descent, SGD

Adaptive Gradient Descent, Adagrad

Momentum

Root Mean Square Propagation, RMSprop

Adaptive Moment Estimation, Adam

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

java由于越界导致的报错

變分自編碼器（VAE：Auto-Encoding Variational Bayes）

深度學習：生成對抗網絡（Generative Adversarial Nets, GANs）

依存句法解析：基於深層雙仿射注意力的神經網絡依存解析（Deep Biaffine Attention for Neural Dependency Parsing）

自然語言處理：機器翻譯模型（MT、NMT、Seq2Seq with Attention）

深度學習：正則化防止過擬合（L1、L2、Dropout）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結