【算法工程師的數學基礎】系列將會從線性代數、微積分、數值優化、概率論、信息論五個方面進行介紹,感興趣的歡迎關注【搜索與推薦Wiki】公衆號,獲得最新文章。
《算法工程師的數學基礎》已更新:
接下來將會有兩篇文章分別介紹下微積分中的微分和積分,內容來自網上公開資料、相關書籍和個人見解。
微積分 是對無窮小量的研究。無窮小量,簡單說就是大小無限趨向於 0 的量, 很多整體分析太過複雜的物理量可以用無窮小量分析,其原因是無窮小量可以被線性化。
如果我們用 ϵ 來表示無窮小量,那麼微積分可以被分爲兩大類,微分和積分。
- 微分主要研究兩個無窮小量的比值,形如 ϵ2ϵ1
- 積分學主要研究無限多的無窮小量之和,也就是 ϵ1+ϵ2+ϵ3+...=n→∞lim∑k=1nϵk
本篇主要介紹微分!內容注重理解微分的概念和與導數的區別,不像導數篇中那樣用公式貫穿全文!
導數與線性化
微積分之所以在數學、物理學和工程學中有如此重要的地位,是因爲在這些學科中有很多情況不好直接分析,而通過微積分可以把這些情況線性化。然而,在線性化的同時,研究對象就會變成無窮小量。
eg 1:一個正方形金屬薄片受熱後面積的改變量
設邊長由 x0 變成 x0+Δx,則正方形的面積由x02 變成 (x0+Δx)2,那麼面積之差爲:
ΔA=(x0+Δx)2−x02=2x0Δx+(Δx)2
上式中
- 加號左側爲 Δx的線性部分,且爲ΔA的主要組成部分
- 加號右側爲 Δx的高階無窮小,當Δx很小時,可以忽略
從上面的例子中,可以看出函數線性化的那麼一丁點意思了,接着看另外一個例子。
eg 2:假設一輛正在行駛的汽車,其走過的路程與時間滿足關係 x(t)=t2,那麼在t=1時刻,如何知道他的速度?
由於平均速度v=ΔtΔx=t1−t0x1−x0,帶入 t0=1得到從時刻1→t的平均速度爲:
t−1x(t)−x(1)
如果讓 t=1.1,那麼這個平均速度就很接近t=1這一時刻的瞬間速度了。那麼有理由相信在 t無限接近於1時,這個平均速度就很接近t時刻的瞬間速度了。
從平均速度的定義來看,從1→t的平均速度等價於連接(1,1) 和 (t,t2)兩點直線的斜率,所以當 t越來越接近於1的時候,這條直線的斜率就變成了在(1,1)切線的斜率。
而從導數的概念可以知道,函數在某點的斜率等於改點的導數,結合 eg 2可知
f′(t)=2t=ΔxΔy
⇒Δy=2tΔx
和 eg 1中,當 Δx趨向於無窮小時的表達式是一樣的,我們可以認爲 Δy是關於Δx的線性化函數。
微分的定義
設函數y=f(x)在某區間內有定義,且 x0 及 x0+Δx在這區間內,如果下面的公式成立(其中A是與Δ無關的常數),則稱 y=f(x)在點x0處可微,並且稱AΔx爲函數y=f(x) 在點x0相應於自變量增量Δx的微分,計作:dy∣x=x0 或 df(x0),即:dy∣x=x0=AΔx
Δy=f(x0+Δx)−f(x0)=AΔx+o(Δx0)
微分dy 叫做函數增量Δy的線性主部。這也是微分的實質:微分 本質是一個微小的線性變化量,用一個線性函數作爲原函數變化的逼近。
由上面的定義可知:
- dy是自變量的改變量Δx的線性函數
- Δy−dy=o(Δx)是比Δx的高階無窮小
- 當A=0時,dy與Δy是等價無窮小,因爲:dyΔy=1+dyo(Δx)→1(Δx→0)
- A是與Δx無關的常數,但與f(x)和x0有關
- 當Δx很小時,Δy≈dy(線性主部)
從微分的定義中也可以看出微分和導數的最大區別爲:導數是指函數在某一點變化的快慢,是一種變化率;微分是指函數在某一點處的變化量,是一種變化的量。
基本初等函數的微分公式和運算法則
微分公式
cotx :餘切函數,cotx=tanx1
secx :正割函數,secx=cosx1
cscx :餘割函數,cscx=sinx1
d(C)=0
d(xμ)=μxμ−1dx
d(sinx)=cosxdxd(cosx)=−sinxdxd(tanx)=sec2xdxd(cotx)=−cscxdxd(secx)=secxtanxdxd(cscx)=−cscxcotxdx
d(ax)=axlnadx
d(ex)=exdx
d(logax)=lna1dx
d(lnx)=x1dx
d(arcsinx)=1−x21dx
d(arccosx)=−1−x21dx
d(arctanx)=1+x21dx
d(arccotx)=−1+x21dx
運算法則
d(u±v)=d(u)±d(v)
d(Cu)=Cd(u)
d(uv)=vd(u)+ud(v)
d(vu)=v2vd(u)−ud(v)
微分的幾何意義
當Δy是曲線的縱座標的增量時,dy 是切線縱座標對應的增量,當Δx很小時,在點M附近,切線段MP可近似代替曲線段MN
在局部範圍內用線性函數近似代替非線性函數,在幾何上就是局部用切線段代替曲線段,這在數學上稱之爲非線性函數的局部線性化,這就是微分學的基本思想之一。
微分在近似計算中的應用
微分近似計算的理論基礎
當Δx很小時
Δy≈dy=f′(x0)Δx
上面的公式也可以寫爲:
Δy=f(x0+Δx)−f(x0)≈f′(x0)Δx
或
f(x0+Δx)=f(x0)+f′(x0)Δx
將上式中的 x0+Δx 用 x代替,則可以改寫爲:
f(x)=f(x0)+f′(x0)(x−x0)
常見的近似計算的基本公式
n1+x≈+n1x
sinx≈x
tanx≈x
ex≈1+x
ln(1+x)≈x
微分中值定理和導數的應用
費馬引理
設 函數f(x)在點 x0的某鄰域U(x0)內有定義,並且再x0處可導,如果對任意的x∈U(x0)有:f(x)⩽f(x0) 或 f(x)⩾f(x0),那麼f′(x0)=0
羅爾定理
如果函數f(x)滿足
- 在閉區間[a,b]上連續
- 在開區間(a,b)內可導
- 在區間端點處的函數值相等,即f(a)=f(b)
那麼(a,b)上至少有一點ε(a<ε<b)使得f′(ε)=0。
拉格朗日中值定理
如果函數f(x)滿足:
- 在閉區間[a,b]上連續
- 在開區間(a,b)內可導
那麼在(a,b)內至少有一點ε(a<ε<b)使得f(b)−f(a)=f′(ε)(b−a)成立。
柯西中值定理
如果函數f(x)及F(x)滿足:
- 在閉區間[a,b]上連續
- 在開區間(a,b)內可導
- 對任一 x∈(a,b),F′(x)=0
那麼在(a,b)內至少有一點ε,使下面等式成立。
F(b)−F(a)f(b)−f(a)=F′(ε)f′(ε)
洛必達法則
設:
- 當x−>a時,函數f(x)及F(x)都趨向於零
- 在點a的某去心鄰域內,f′(x)及F′(x)都存在且F′(x)=0
- limx→aF(x)f(x)存在(或爲無窮大)
那麼:
x→alimF(x)f(x)=x→alimF′(x)f′(x)
這種在一定條件下通過分子分母分別求導再求導極限來確定未定式的值的方法稱爲洛必達法則。
泰勒中值定理
如果函數f(x)在含有x0的某個開區間(a,b)內具有直到(n+1)階的導數,則對任一x∈(a,b),有:
f(x)=f(x0)+f′(x0)(x−x0)+2!f′′(x0)(x−x0)2+...+n!fn(x0)(x−x0)n+Rn(x)
其中
Rn(x)=(n+1)!fn+1(ε)(x−x0)n+1
這裏ε爲 x0和x之間的某個值。
上述公式中f(x)表達式爲 f(x)按(x−x0)的冪展開的帶有拉格朗日型餘項的n階泰勒公式,Rn(x)的表達式稱爲拉格朗日型餘項。
OK,關於微積分中的微分部分已經介紹完畢!期待下篇的積分吧!
參考資料
- https://blog.csdn.net/weixin_40163242/article/details/89004822
- https://www.zhihu.com/question/336322284
- https://www.zhihu.com/question/264955988?sort=created
掃一掃 關注微信公衆號!號主 專注於搜索和推薦系統,嘗試使用算法去更好的服務於用戶,包括但不侷限於機器學習,深度學習,強化學習,自然語言理解,知識圖譜,還不定時分享技術,資料,思考等文章!