算法工程師的數學基礎｜微積分之微分相關介紹

【算法工程師的數學基礎】系列將會從線性代數、微積分、數值優化、概率論、信息論五個方面進行介紹，感興趣的歡迎關注【搜索與推薦Wiki】公衆號，獲得最新文章。

《算法工程師的數學基礎》已更新：

接下來將會有兩篇文章分別介紹下微積分中的微分和積分，內容來自網上公開資料、相關書籍和個人見解。

微積分 是對無窮小量的研究。無窮小量，簡單說就是大小無限趨向於 0 的量，很多整體分析太過複雜的物理量可以用無窮小量分析，其原因是無窮小量可以被線性化。

如果我們用 $\epsilon$ 來表示無窮小量，那麼微積分可以被分爲兩大類，微分和積分。

微分主要研究兩個無窮小量的比值，形如 $\frac {\epsilon_1}{\epsilon_2}$
積分學主要研究無限多的無窮小量之和，也就是 $\epsilon_1 + \epsilon_2 + \epsilon_3 + ... = \underset{ n \rightarrow \infty }{ \lim } \sum_{k=1}^{n} \epsilon_k$

本篇主要介紹微分！內容注重理解微分的概念和與導數的區別，不像導數篇中那樣用公式貫穿全文！

導數與線性化

微積分之所以在數學、物理學和工程學中有如此重要的地位，是因爲在這些學科中有很多情況不好直接分析，而通過微積分可以把這些情況線性化。然而，在線性化的同時，研究對象就會變成無窮小量。

eg 1：一個正方形金屬薄片受熱後面積的改變量

設邊長由 $x_0$ 變成 $x_0 + \Delta x$ ，則正方形的面積由 $x_0 ^2$ 變成 $(x_0 + \Delta x)^2$ ，那麼面積之差爲：
$\Delta A = (x_0 + \Delta x)^2 - x_0 ^2 \\ = 2 x_0 \Delta x + (\Delta x)^2$

上式中

加號左側爲 $\Delta x$ 的線性部分，且爲 $\Delta A$ 的主要組成部分
加號右側爲 $\Delta x$ 的高階無窮小，當 $\Delta x$ 很小時，可以忽略

從上面的例子中，可以看出函數線性化的那麼一丁點意思了，接着看另外一個例子。

eg 2：假設一輛正在行駛的汽車，其走過的路程與時間滿足關係 $x(t) = t ^2$ ，那麼在 $t=1$ 時刻，如何知道他的速度？

由於平均速度 $v = \frac {\Delta x}{ \Delta t} = \frac{x_1 - x_0}{ t_1 - t_0}$ ，帶入 $t_0=1$ 得到從時刻 $1\rightarrow t$ 的平均速度爲：
$\frac{x(t) - x(1)}{ t-1 }$

如果讓 $t=1.1$ ，那麼這個平均速度就很接近 $t=1$ 這一時刻的瞬間速度了。那麼有理由相信在 $t$ 無限接近於1時，這個平均速度就很接近 $t$ 時刻的瞬間速度了。

從平均速度的定義來看，從 $1\rightarrow t$ 的平均速度等價於連接 $(1,1)$ 和 $(t,t^2)$ 兩點直線的斜率，所以當 $t$ 越來越接近於1的時候，這條直線的斜率就變成了在 $(1,1)$ 切線的斜率。

而從導數的概念可以知道，函數在某點的斜率等於改點的導數，結合 eg 2可知
$f'(t) = 2t = \frac{\Delta y}{ \Delta x}$
$\Rightarrow \Delta y = 2 t \Delta x$

和 eg 1中，當 $\Delta x$ 趨向於無窮小時的表達式是一樣的，我們可以認爲 $\Delta y$ 是關於 $\Delta x$ 的線性化函數。

微分的定義

設函數 $y=f(x)$ 在某區間內有定義，且 $x_0$ 及 $x_0 + \Delta x$ 在這區間內，如果下面的公式成立（其中 $A$ 是與 $\Delta$ 無關的常數），則稱 $y = f(x)$ 在點 $x_0$ 處可微，並且稱 $A \Delta x$ 爲函數 $y = f(x)$ 在點 $x_0$ 相應於自變量增量 $\Delta x$ 的微分，計作： $dy|_{x=x_0}$ 或 $df(x_0)$ ，即： $dy|_{x=x_0} = A \Delta x$

$\Delta y = f(x_0 + \Delta x) - f(x_0) = A\Delta x + o(\Delta x_0)$

微分 $dy$ 叫做函數增量 $\Delta y$ 的線性主部。這也是微分的實質：微分本質是一個微小的線性變化量，用一個線性函數作爲原函數變化的逼近。

由上面的定義可知：

$dy$ 是自變量的改變量 $\Delta x$ 的線性函數
$\Delta y - dy = o(\Delta x)$ 是比 $\Delta x$ 的高階無窮小
當 $A \neq 0$ 時， $dy$ 與 $\Delta y$ 是等價無窮小，因爲： $\frac {\Delta y}{ dy} = 1 + \frac{o(\Delta x)}{dy} \rightarrow 1(\Delta x \rightarrow 0)$
$A$ 是與 $\Delta x$ 無關的常數，但與 $f(x)$ 和 $x_0$ 有關
當 $\Delta x$ 很小時， $\Delta y \approx dy$ （線性主部）

從微分的定義中也可以看出微分和導數的最大區別爲：導數是指函數在某一點變化的快慢，是一種變化率；微分是指函數在某一點處的變化量，是一種變化的量。

基本初等函數的微分公式和運算法則

微分公式

$cotx$ ：餘切函數， $cotx = \frac {1}{ tan x}$

$secx$ ：正割函數， $secx = \frac {1}{ cos x}$

$cscx$ ：餘割函數， $cscx = \frac {1}{ sin x}$

$d(C)=0$
$d(x^\mu) = \mu x^{\mu-1} dx$
$d(sin\,x) = cos\,x\,dx \\ d(cos\,x) = -sin\,x\,dx \\ d(tan\,x) = sec^2\,x\,dx \\ d(cot\,x) = -csc \, x dx \\ d(sec\,x) = sec\,x \,tan\,x dx \\ d(csc\,x) = - csc\,x cot\,x\,d x$
$d(a^x) = a^xln a dx$
$d(e^x) = e^x dx$
$d(log_a x) = \frac{1}{ ln a} dx$
$d(lnx)=\frac{1}{x} dx$
$d(arc sinx) = \frac{1}{\sqrt{1-x^2}}dx$
$d(arc cosx) = - \frac{1}{\sqrt{1-x^2}}dx$
$d(arc tanx) = \frac{1}{1+x^2}dx$
$d(arc cotx) = - \frac{1}{1+x^2}dx$

運算法則

$d(u \pm v) = d(u)\pm d(v)$
$d(Cu) = Cd(u)$
$d(uv) = vd(u) + ud(v)$
$d(\frac{u}{v}) = \frac{vd(u) - ud(v)}{v^2}$

微分的幾何意義

當 $\Delta y$ 是曲線的縱座標的增量時， $dy$ 是切線縱座標對應的增量，當 $\Delta x$ 很小時，在點 $M$ 附近，切線段 $MP$ 可近似代替曲線段 $MN$

在局部範圍內用線性函數近似代替非線性函數，在幾何上就是局部用切線段代替曲線段，這在數學上稱之爲非線性函數的局部線性化，這就是微分學的基本思想之一。

微分在近似計算中的應用

微分近似計算的理論基礎

當 $\Delta x$ 很小時

$\Delta y \approx dy = f'(x_0) \Delta x$
上面的公式也可以寫爲：
$\Delta y = f(x_0 + \Delta x) -f(x_0) \approx f'(x_0) \Delta x$
或
$f(x_0 + \Delta x) = f(x_0) + f'(x_0) \Delta x$
將上式中的 $x_0 + \Delta x$ 用 $x$ 代替，則可以改寫爲：
$f(x) = f(x_0) + f'(x_0) (x-x_0)$

常見的近似計算的基本公式

$\sqrt[n]{ 1+x} \approx + \frac{1}{n} x$
$sin x \approx x$

$tan x \approx x$

$e^x \approx 1+x$

$ln(1+x) \approx x$

微分中值定理和導數的應用

費馬引理

設函數f(x)在點 $x_0$ 的某鄰域 $U(x_0)$ 內有定義，並且再 $x_0$ 處可導，如果對任意的 $x\in U(x_0)$ 有： $f(x) \leqslant f(x_0)$ 或 $f(x) \geqslant f(x_0)$ ，那麼 $f'(x_0) = 0$

羅爾定理

如果函數 $f(x)$ 滿足

在閉區間 $[a,b]$ 上連續
在開區間 $(a,b)$ 內可導
在區間端點處的函數值相等，即 $f(a)=f(b)$

那麼 $(a,b)$ 上至少有一點 $\varepsilon(a<\varepsilon < b)$ 使得 $f'(\varepsilon)=0$ 。

拉格朗日中值定理

如果函數 $f(x)$ 滿足：

在閉區間 $[a,b]$ 上連續
在開區間 $(a,b)$ 內可導
那麼在 $(a,b)$ 內至少有一點 $\varepsilon(a<\varepsilon < b)$ 使得 $f(b)-f(a)=f'(\varepsilon)(b-a)$ 成立。

柯西中值定理

如果函數 $f(x)$ 及 $F(x)$ 滿足：

在閉區間 $[a,b]$ 上連續
在開區間 $(a,b)$ 內可導
對任一 $x \in (a,b), F'(x) \neq 0$

那麼在 $(a,b)$ 內至少有一點 $\varepsilon$ ，使下面等式成立。
$\frac{f(b)-f(a)}{F(b)-F(a)} = \frac{f'(\varepsilon)}{F'(\varepsilon)}$

洛必達法則

設：

當 $x -> a$ 時，函數 $f(x)$ 及 $F(x)$ 都趨向於零
在點 $a$ 的某去心鄰域內， $f'(x)$ 及 $F'(x)$ 都存在且 $F'(x) \neq 0$
$\lim_{x \rightarrow a} \frac{f(x)}{F(x)}$ 存在（或爲無窮大）
那麼：
$\lim_{x \rightarrow a} \frac{f(x)}{F(x)}=\lim_{x \rightarrow a} \frac{f'(x)}{F'(x)}$

這種在一定條件下通過分子分母分別求導再求導極限來確定未定式的值的方法稱爲洛必達法則。

泰勒中值定理

如果函數 $f(x)$ 在含有 $x_0$ 的某個開區間 $(a,b)$ 內具有直到 $(n+1)$ 階的導數，則對任一 $x \in (a,b)$ ，有：
$f(x) = f(x_0) + f'(x_0)(x-x_0) + \frac{f''(x_0)}{2!} (x-x_0)^2 + ... + \frac{f^n(x_0)}{n!} (x-x_0)^n + R_n(x)$
其中
$R_n(x) = \frac{f^{n+1} ( \varepsilon )}{ (n +1)!} (x-x_0) ^{n+1}$
這裏 $\varepsilon$ 爲 $x_0$ 和 $x$ 之間的某個值。

上述公式中 $f(x)$ 表達式爲 $f(x)$ 按 $(x-x_0)$ 的冪展開的帶有拉格朗日型餘項的 $n$ 階泰勒公式， $R_n(x)$ 的表達式稱爲拉格朗日型餘項。

OK，關於微積分中的微分部分已經介紹完畢！期待下篇的積分吧！

參考資料

https://blog.csdn.net/weixin_40163242/article/details/89004822
https://www.zhihu.com/question/336322284
https://www.zhihu.com/question/264955988?sort=created

掃一掃關注微信公衆號！號主專注於搜索和推薦系統，嘗試使用算法去更好的服務於用戶，包括但不侷限於機器學習，深度學習，強化學習，自然語言理解，知識圖譜，還不定時分享技術，資料，思考等文章！

算法工程師的數學基礎｜微積分之微分相關介紹

導數與線性化

微分的定義

基本初等函數的微分公式和運算法則

微分公式

運算法則

微分的幾何意義

微分在近似計算中的應用

微分近似計算的理論基礎

常見的近似計算的基本公式

微分中值定理和導數的應用

費馬引理

羅爾定理

拉格朗日中值定理

柯西中值定理

洛必達法則

泰勒中值定理

參考資料

獨孤九劍：算法模型訓練的一般流程

傳統機器學習和前沿深度學習推薦模型演化關係介紹

TensorFlow的邏輯迴歸實現

論文｜LinUCB論文的思想解讀、場景應用與痛點說明

常見的五種神經網絡(4)-深度信念網絡（下）篇之深度信念網絡的原理解讀、參數學習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結