文章目錄

Directional Derivative and Gradient

Directional Derivative and Gradient

方向導數，描述函數沿指定方向的變化率。若函數 $f(x, y)$ 在點 $P_0(x_0,y_0)$ 處可微，則函數在該點沿任一方向 $l$ 的方向導數存在，且有
$\frac{\partial f}{\partial l} \Big |_{(x_0,y_0)}=f_x(x_0,y_0)\cos\alpha + f_y(x_0,y_0)\cos\beta$
其中 $\cos \alpha$ 和 $\cos \beta$ 是方向 $l$ 的方向餘弦。

Differentiable and Partial Derivatives

若函數 $z=f(x,y)$ 在點 $(x,y)$ 的某鄰域內有定義，函數在點 $(x, y)$ 處的全增量 $\Delta z = f(x+\Delta x, y+\Delta y)-f(x,y)$ ，可表示爲 $\Delta z = A\Delta x + B\Delta y + o(\rho), \quad \rho=\sqrt{(\Delta x)^2 + (\Delta y)^2}$

其中 $A$ 、 $B$ 不依賴於 $\Delta x$ 、 $\Delta y$ ，且僅與 $x$ 、 $y$ 有關，則稱函數 $z=f(x,y)$ 在 $(x,y)$ 處可微，全微分 $\mathrm dz=A\Delta x + B\Delta y$ 。

必要條件

若函數 $z=f(x,y)$ 在點 $(x,y)$ 處可微分，則函數 $z=f(x,y)$ 在點 $(x,y)$ 的偏導數 $\dfrac{\partial z}{\partial x}$ 、 $\dfrac{\partial z}{\partial y}$ 必定存在，此時全微分
$\mathrm dz=\dfrac{\partial z}{\partial x} \Delta x + \dfrac{\partial z}{\partial y} \Delta yy \quad \Longleftrightarrow \quad \mathrm dz = \dfrac{\partial z}{\partial x} \mathrm dx + \dfrac{\partial z}{\partial y} \mathrm dy$

充分條件

若函數 $z=f(x,y)$ 的偏導數 $\dfrac{\partial z}{\partial x}$ 、 $\dfrac{\partial z}{\partial y}$ 在點 $(x,y)$ 處連續，則函數 $z=f(x,y)$ 在點 $(x,y)$ 處可微。

綜上所述：可微 $\implies$ 偏導存在 $\quad$ 偏導存在且連續 $\implies$ 可微.

Directional Derivative

若 $f(x, y)$ 在點 $P_0(x_0,y_0)$ 處可微，則
$f(x_0+\Delta x,y_0+\Delta y)-f(x_0,y_0)=f_x(x_0,y_0)\Delta x + f_y(x_0,y_0)\Delta y +o(\sqrt{(\Delta x)^2 + (\Delta y)^2})$
且
$\Delta x=t\cos\alpha,\ \Delta y=t\cos\beta,\ \sqrt{\Delta x)^2 + (\Delta y)^2}=t$
因此方向導數
$\lim_{t \to 0^+}\frac{f_x(x_0,y_0)t\cos\alpha+f_y(x_0,y_0)t\cos\beta}{t}=f_x(x_0,y_0)\cos\alpha + f_y(x_0,y_0)\cos\beta$

例題

求 $f(x,y,z)=xy+yz+zx$ 在點 $(1,1,2)$ 沿方向 $l$ 的方向導數，其中 $l$ 的方向角分別爲 $60^\circ$ 、 $45^\circ$ 、 $60^\circ$ 。
解：與 $l$ 同向的單位向量 $\bm e_l=(\dfrac{1}{2},\dfrac{\sqrt 2}{2}, \dfrac{1}{2})$ ，因爲函數可微，故
$f_x(1,1,2)=3, \quad f_y(1,1,2)=3, \quad f_z(1,1,2)=2$
因此
$\frac{\partial f}{\partial l}\Big|_{(1,1,2)}=3\cdot\frac{1}{2} + 3\cdot\frac{\sqrt 2}{2} + 2\cdot\frac{1}{2} = \frac{1}{2}(5+3\sqrt 2)$

Gradient

對於二元函數，設函數 $f(x,y)$ 在平面區域 $D$ 內具有一階連續偏導，則對於每一點 $P_0(x_0,y_0)\in D$ ，定義向量
$f_x(x_0, y_0)\bm i + f_y(x_0,y_0)\bm j$
稱爲函數 $f(x,y)$ 在點 $P_0(x_0,y_0)$ 處的梯度，記作
${\bf{grad}} \,f(x_0,y_0)\quad或\quad\nabla f(x_0,y_0)$

Relationship of Directional Derivative and Gradient

若函數 $f(x,y)$ 在點 $P_0(x_0,y_0)$ 處可微分，與方向 $l$ 同方向的單位向量 $\bm e_l=(\cos \alpha, \cos\beta)$ ，則
$\begin{aligned} \frac{\partial f}{\partial l}\Big|_{(x_0,y_0)} & =f_x(x_0,y_0)\cos\alpha +f_y(x_0,y_0)\cos\beta \\[1ex] &={\bf{grad}}\,f(x_0,y_0)\cdot \bm e_l \\[1ex] &= |{\bf{grad}}\,f(x_0,y_0)|\cdot \cos \theta \end{aligned}$
式中， $\theta$ 爲梯度與方向 $l$ 的夾角. $\theta$ 不同值，函數變化情況：

$\theta=0$ ，方向 $l$ 與梯度方向同向，函數 $f(x,y)$ 增長最快；
$\theta=\pi$ ，方向 $l$ 與梯度方向相反，函數 $f(x,y)$ 減少最快；
$\theta=\pi/2$ ，方向 $l$ 與梯度方向正交，函數 $f(x,y)$ 變化率爲0；

Gradient Descent

梯度下降是利用損失函數的負梯度方向更新參數，使目標函數（均方誤差損失函數）達到極小值
$L = \frac{1}{2n}\sum_n\left(\hat y-\left(\pmb w \pmb x + b\right)\right)^2$

Gradient Decent and Taylor Series

泰拉展開式
$\begin{aligned} f(x) &=\sum_{k=0}^{\infty}\frac{h^{(k)}(x_0)}{k!}(x-x_0)^k \\ &=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+\cdots\\ & \approx h(x_0)+h'(x_0)(x-x_0) \end{aligned}$
若 $L(\pmb \theta)$ 包含兩個參數，將 $L(\pmb \theta)$ 在 $\pmb \theta_t=(a, b)$ 處一階展開
$L(\pmb \theta)\approx L(a, b)+ \frac{\partial L(a, b)}{\partial \theta_1}(\theta_1 - a)+ \frac{\partial L(a, b)}{\partial \theta_2}(\theta_2 - b)$
令 $\Delta\theta_1=(\theta_1-a)$ , $\Delta\theta_2=(\theta_2-b)$ ，則
$\min_{\pmb\theta} L(\pmb \theta) \iff \min\left[ (\Delta\theta_1, \Delta\theta_2)\cdot \left(\frac{\partial L(a, b)}{\partial \theta_1},\frac{\partial L(a, b)}{\partial \theta_2}\right)\right]$
兩向量夾角180°時內積最小，最優解滿足
$(\Delta\theta_1, \Delta\theta_2)=-\eta\left(\dfrac{\partial L(a, b)}{\partial \theta_1},\dfrac{\partial L(a, b)}{\partial \theta_2}\right)\implies \quad \begin{bmatrix} \theta_1 \\ \theta_2 \end{bmatrix}= \begin{bmatrix} a \\ b \end{bmatrix} - \eta \begin{bmatrix} \dfrac{\partial L(a, b)}{\partial \theta_1} \\ \dfrac{\partial L(a, b)}{\partial \theta_2} \end{bmatrix}$

Negative Gradient

函數 $f(x)$ 在點 $x$ 處沿方向 $d$ 的變化率可用方向導數表示，方向導數等於梯度與方向的內積，即
$Df(\pmb x;\pmb d)=\nabla f(\pmb x)^T\pmb d$
非線性規劃求解最速下降方向，即
$\min\nabla f(\pmb x)^T\pmb d\quad \quad s.t.\ ||\pmb d||\leq 1$
由Schwartz不等式，有
$||\nabla f(\pmb x)^T\pmb d|| \leq ||\nabla f(\pmb x)||\,|\pmb d|| \leq ||\nabla f(\pmb x)||$
故
$\nabla f(\pmb x)^T\pmb d \geq -||\nabla f(\pmb x)||,\quad 當前僅當\ \pmb d=-\frac{\nabla f(\pmb x)}{||\nabla f(\pmb x)||}時等式成立$
即負梯度方向爲最速下降方向。

Batch Gradient Descent

每次迭代使用所有樣本更新參數，即
$\pmb w_{t+1}=\pmb w_t - \eta\nabla L_t, \quad\nabla L_t=\dfrac{1}{n}\sum_n(\hat y_i - (\pmb w_t \pmb x_i + b))\pmb x_i$
優點： 可得到全局最優解，可並行計算，凸優化時可獲得全局最優解；
缺點： 訓練時間長；

Stochastic Gradient Descent, SGD

隨機梯度下降，每次迭代隨機選取一個樣本更新參數，即
$\pmb w_{t+1}=\pmb w_t - \eta\nabla L_t,\quad 其中\nabla L_t=\dfrac{1}{2}(\hat y_i - (\pmb w_t \pmb x_i + b))\pmb x_i$
優點： 訓練速度快；
缺點： 準確度下降（盲目搜索解空間），可能只能得到局部最優解，且無法並行計算；

Adaptive Gradient Descent, Adagrad

自適應梯度下降，某參數的理想學習率正比於其一次微分、反比於其二次微分，即對於任一參數有
$\pmb w_{t+1} = \pmb w_t - \frac{\eta_t}{\pmb\sigma_t + \epsilon}\pmb g_t, \quad \eta_t = \frac{\eta }{\sqrt{t + 1}},\quad \pmb\sigma_t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t\pmb g_i^2},\quad \pmb g_t=\frac{\partial L}{\partial \pmb w}$
其中， $\sigma_t$ 爲一次微分的平方差（避免分母爲0），在不增加額外計算量時預估二次微分.

優點： 動態調整學習率，不同參數具有不同的學習率，適用於稀疏數據集（自然語言處理和計算機視覺）.
缺點： 隨着迭代次數增加時，分母增大，梯度趨近於0，訓練會提前結束.

Momentum

SGD方法參數更新方向依賴於當前batch計算出的梯度，無法跳出局部最優.
動量法借用物理動量思想，模擬物體運動慣性，即更新參數時依賴於當前更新方向和梯度方向.
$\pmb w_{t+1} = \pmb w_t - \pmb v_t, \quad \pmb v_t = \gamma\pmb v_{t-1} + \alpha \pmb g_t, \quad \pmb v_0 = \pmb0$
物理解釋：γ可視爲空氣阻力，我們把一個球推下山，球在下坡時積聚動量，若動量方向與梯度方向一致，則在途中變得越來越快；若球的方向發生變化，則動量會衰減，速度變慢或方向改變.

Root Mean Square Propagation, RMSprop

均方根傳播，解決Adagrad梯度下降過快和Momentum梯度擺動幅度大的問題
$\pmb w_{t+1}=\pmb w_t - \frac{\eta}{\sqrt{\pmb\sigma_t + \epsilon}}\pmb g_t, \quad \pmb\sigma_t = {\alpha\pmb\sigma_{t-1} + (1-\alpha)\pmb g_t^2}$
$\alpha$ 正比於當前梯度所佔更新權重的比重.

Adaptive Moment Estimation, Adam

自適應矩估計，指數移動均值和平方梯度分別爲
$\pmb m_{t+1} = \alpha\pmb m_t + (1-\alpha)\pmb g_t,\quad\pmb v_{t+1}=\beta\pmb v_t + (1-\beta)\pmb g_t^2$
偏差修正
$\pmb{\hat m}_t=\frac{\pmb m_t}{1 - \alpha}, \quad \pmb{\hat v}_t=\frac{\pmb v_t}{1 - \beta}$
參數更新公式
$\pmb w_{t+1}=\pmb w_t - \frac{\eta}{\sqrt{\pmb{\hat v}_t} + \epsilon}\pmb{\hat m}_t$

數學：優化理論（方向導數、負梯度、SGD、Adagrad、RMSprop、Adam）

文章目錄

Directional Derivative and Gradient

Differentiable and Partial Derivatives

Directional Derivative

Gradient

Relationship of Directional Derivative and Gradient

Gradient Descent

Gradient Decent and Taylor Series

Negative Gradient

Batch Gradient Descent

Stochastic Gradient Descent, SGD

Adaptive Gradient Descent, Adagrad

Momentum

Root Mean Square Propagation, RMSprop

Adaptive Moment Estimation, Adam

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

外行也能讀懂的網絡硬件設備功能原理速成

變分自編碼器（VAE：Auto-Encoding Variational Bayes）

深度學習：生成對抗網絡（Generative Adversarial Nets, GANs）

依存句法解析：基於深層雙仿射注意力的神經網絡依存解析（Deep Biaffine Attention for Neural Dependency Parsing）

自然語言處理：機器翻譯模型（MT、NMT、Seq2Seq with Attention）

深度學習：正則化防止過擬合（L1、L2、Dropout）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結