清華科技大講堂-《機器學習與深度學習中的數學》講稿

內容提要
需要哪些數學知識
微積分
線性代數與矩陣論
概率論
信息論
最優化方法
隨機過程
圖論
需要哪些數學知識
現狀分析
數學是給機器學習、 深度學習的初學者和進階者造成困難的主要原因之一

國內本科數學教學方式、 學生學習質量上存在的不足-過於抽象,偏重於計算,忽視了對數學思維、 建模能力的培養-清華大學換用國外線性代數教材事件, 如果結合一些具體的例子來講解會好很多

某些數學知識超出了本科一般理工科專業的範疇 - 矩陣論/矩陣分析,信息論,最優化方法,隨機過程,圖論

通常情況下, 高校、 其他機構在教《機器學習》 、《深度學習》 之前不會爲學生把這些數學知識補齊學生普遍對數學存在一種恐懼心理, 數學自信的人只佔少部分

究竟需要哪些數學知識?
1.微積分-一元函數微積分,多元函數微積分, 是整個高等數學的基石

2.線性代數與矩陣論-矩陣論本科一般不講

3.概率論-內容基本已經覆蓋機器學習的要求

4.信息論 - 一般專業不會講,如果掌握了概率論, 理解起來並不難

5.最優化方法 - 學了這門課的學生非常少, 但對機器學習、深度學習非常重要,幾乎所有算法歸結爲求解優化問題

6.隨機過程-本科一般不學,但在機器學習中經常會使用,如馬爾可夫過程,高斯過程,後者應用於貝葉斯優化

7.圖論-計算機類專業本科通常會學,但沒有學譜圖理論

第1部分-微積分
爲什麼需要微積分?
研究函數的性質 - 單調性, 凹凸性

求解函數的極值

概率論、 信息論、 最優化方法等的基礎

一元函數微積分
極限 - 微積分的基石, 數列的極限, 函數的極限

函數的連續性與間斷點

上確界與下確界

Lipschitz連續性

導數,一階導數,高階導數,導數的計算-符號微分,數值微分,自動微分
導數與函數的性質,單調性,極值,凹凸性

泰勒公式

不定積分及其計算

定積分及其計算

廣義積分及其計算

常微分方程的基本概念

常係數線性微分方程的求解

基本函數的求導公式

四則運算的求導公式

(f(g(x))){\prime}=f{\prime}(g) g^{\prime}(x)(f(g(x)))

=f

(g)g

(x)

複合函數的求導公式

激活函數的導數

f(x)=f(a)+\frac{f^{\prime}(a)}{1 !}(x-a)+\frac{1}{2} f^{\prime \prime}(a)(x-a)^{2}+\ldots+\frac{1}{n !} f{(n)}(a)(x-a){n}+R_{n}(x)f(x)=f(a)+
1!
f

(a)

(x−a)+
2
1

f
′′
(a)(x−a)
2
+…+
n!
1

f
(n)
(a)(x−a)
n
+R
n

(x)

一元函數的泰勒公式-連接一元函數微分學各知識點的橋樑

多元函數微積分
偏導數的定義與計算

梯度的定義與性質
方向導數的定義與性質
高階偏導數的計算
鏈式法則 - 熟練計算多元函數的偏導數

雅克比矩陣 - 鏈式法則的矩陣形式
Hessian矩陣與多元函數的極值, 凹凸性
向量與矩陣求導公式

多元函數的泰勒公式
重積分 二重積分,三重積分,n重積分,多重積分的座標變換
偏微分方程的基本概念

\begin{array}{l}{z=f\left(y_{1}, \ldots, y_{m}\right)} \ {y_{j}=g_{j}\left(x_{1}, \ldots, x_{n}\right), j=1, \ldots, m}\end{array}
z=f(y
1

,…,y
m

)
y
j

=g
j

(x
1

,…,x
n

),j=1,…,m

\left[\begin{array}{c}{\frac{\partial z}{\partial x_{1}}} \ {\cdots} \ {\frac{\partial z}{\partial x_{n}}}\end{array}\right]=\left[\begin{array}{c}{\sum_{j=1}^{m} \frac{\partial z}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{1}}} \ {\cdots} \ {\sum_{j=1}^{m} \frac{\partial z}{\partial y_{j}} \frac{\partial y_{j}}{\partial x_{n}}}\end{array}\right]=\left[\begin{array}{ccc}{\frac{\partial y_{1}}{\partial x_{1}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{1}}} \ {\cdots} & {\cdots} & {\cdots} \ {\frac{\partial y_{1}}{\partial x_{n}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{n}}}\end{array}\right]\left[\begin{array}{c}{\frac{\partial z}{\partial y_{1}}} \ {\cdots} \ {\frac{\partial z}{\partial y_{m}}}\end{array}\right]


∂x
1

∂z


∂x
n

∂z







j=1
m

∂y
j

∂z

∂x
1

∂y
j



j=1
m

∂y
j

∂z

∂x
n

∂y
j






∂x
1

∂y
1


∂x
n

∂y
1




∂x
1

∂y
m


∂x
n

∂y
m





∂y
1

∂z


∂y
m

∂z



=\left(\frac{\partial \mathbf{y}}{\partial \mathbf{x}}\right)^{\mathrm{T}}\left[\begin{array}{c}{\frac{\partial z}{\partial y_{1}}} \ {\cdots} \ {\frac{\partial z}{\partial y_{m}}}\end{array}\right]=(
∂x
∂y

)
T



∂y
1

∂z


∂y
m

∂z



鏈式法則的矩陣形式

重要的向量和矩陣求導公式

f(\mathbf{x})=f(\mathbf{a})+(\nabla f(\mathbf{a})){\mathrm{T}}(\mathbf{x}-\mathbf{a})+\frac{1}{2}(\mathbf{x}-\mathbf{a}){\mathrm{T}} \mathbf{H}(\mathbf{x}-\mathbf{a})+o\left(|\mathbf{x}-\mathbf{a}|^{2}\right)f(x)=f(a)+(∇f(a))
T
(x−a)+
2
1

(x−a)
T
H(x−a)+o(∥x−a∥
2
)

多元函數的泰勒公式-連接多元函數微分學各知識點的橋樑

第2部分-線性代數與矩陣論
爲什麼需要線性代數?
機器學習算法的輸入、輸出、中間結果,通常爲向量,矩陣,張量

簡化問題的表達

與微積分結合, 研究多元函數的性質, 也是概率論中隨機向量的基礎

在圖論中亦有應用 - 圖的拉普拉斯矩陣

在隨機過程中同樣有應用 - 狀態轉移矩陣

向量的定義與基本運算,向量的範數

線性相關性

向量空間

矩陣的定義及其運算

矩陣的範數

線性變換

行列式的定義與計算

線性方程組 齊次,非齊次

特徵值與特徵值向量

廣義特徵值

Rayleigh商

譜與條件數

二次型與標準型

Cholesky分解

特徵值分解

奇異值分解

\begin{aligned} \mathbf{u}^{(l)} &=\mathbf{W}^{(l)} \mathbf{x}{(l-1)}+\mathbf{b}{(l)} \ \mathbf{x}^{(l)} &=f\left(\mathbf{u}^{(l)}\right) \end{aligned}
u
(l)

x
(l)

=W
(l)
x
(l−1)
+b
(l)

=f(u
(l)
)

正向傳播算法

\begin{array}{l}{\boldsymbol{\delta}{(l)}=\left(\mathbf{W}{(l+1)}\right)^{\mathrm{T}} \boldsymbol{\delta}^{(l+1)} \odot f{\prime}\left(\mathbf{u}{(l)}\right)} \ {\nabla_{\mathbf{w}^{(l)}} L=\boldsymbol{\delta}{(l)}\left(\mathbf{x}{(l-1)}\right)^{\mathrm{T}}} \ {\nabla_{\mathbf{b}^{(l)}} L=\boldsymbol{\delta}^{(l)}}\end{array}
δ
(l)
=(W
(l+1)
)
T
δ
(l+1)
⊙f

(u
(l)
)

w
(l)


L=δ
(l)
(x
(l−1)
)
T


b
(l)


L=δ
(l)

反向傳播算法

\mathbf{S e}=\lambda \mathbf{e}Se=λe

主成分分析

\mathbf{L} \mathbf{f}=\lambda \mathbf{D} \mathbf{f}Lf=λDf

拉普拉斯特徵映射

\mathbf{X L X}^{\mathrm{T}} \mathbf{a}=\lambda \mathbf{X} \mathbf{D} \mathbf{X}^{\mathrm{T}} \mathbf{a}XLX
T
a=λXDX
T
a

局部保持投影

第3部分-概率論
爲什麼需要概率論?
將機器學習算法的輸入、輸出看作隨機變量/向量, 用概率論的觀點進行建模

對不確定性進行建模

挖掘變量之間的概率依賴關係

隨機算法 - 蒙特卡洛算法, 遺傳算法

隨機數生成 - 基本隨機數生成, 採樣算法

隨機事件與概率

條件概率

全概率公式

貝葉斯公式

條件獨立

離散型隨機變量

連續型隨機變量

數學期望與方差,標準差

Jesen不等式

Hoeffding不等式

常用概率分佈 均勻分佈,伯努利分佈,二項分佈, 多項分佈,正態分佈,狄拉克分佈, t分佈

隨機變量函數

逆變換算法

離散型隨機向量

連續型隨機向量

聯合期望

協方差

常用概率分佈 均勻分佈,正態分佈

分佈變換

極限定理 切比雪夫不等式, 大數定律, 中心極限定理

參數估計 最大似然估計,最大後驗概率估計, 貝葉斯估計,核密度估計

隨機算法 基本隨機數生成, 遺傳算法, 蒙特卡洛算法

採樣算法 拒絕採樣,重要性採樣

\begin{array}{l}{p(y | \mathbf{x})=\frac{p(\mathbf{x} | y) p(y)}{p(\mathbf{x})}} \ {\arg \max _{y} p(\mathbf{x} | y) p(y)}\end{array}
p(y∣x)=
p(x)
p(x∣y)p(y)

argmax
y

p(x∣y)p(y)

貝葉斯分類器

p(\mathbf{x})=\sum_{i=1}^{k} w_{i} N\left(\mathbf{x} ; \boldsymbol{\mu}{i}, \mathbf{\Sigma}{i}\right)p(x)=∑
i=1
k

w
i

N(x;μ
i


i

)

高斯混合模型

第4部分-信息論

香濃熵
交叉熵
KL散度
JS散度
聯合熵
互信息
條件熵

\prod_{i=1}{l}\left(\prod_{j=1}{k}\left(\frac{\exp \left(\boldsymbol{\theta}{j}^{\mathrm{T}} \mathbf{x}{i}\right)}{\sum_{t=1}^{k} \exp \left(\boldsymbol{\theta}{t}^{\mathrm{T}} \mathbf{x}{i}\right)}\right)^{y_{i j}}\right)∏
i=1
l

(∏
j=1
k

(

t=1
k

exp(θ
t
T

x
i

)
exp(θ
j
T

x
i

)

)
y
ij

)

\sum_{i=1}^{l} \sum_{j=1}^{k}\left(y_{i j} \ln \frac{\exp \left(\boldsymbol{\theta}{j}^{\mathrm{T}} \mathbf{x}{i}\right)}{\sum_{t=1}^{k} \exp \left(\boldsymbol{\theta}{t}^{\mathrm{T}} \mathbf{x}{i}\right)}\right)∑
i=1
l


j=1
k

(y
ij

ln

t=1
k

exp(θ
t
T

x
i

)
exp(θ
j
T

x
i

)

)

softmax迴歸

\begin{aligned} p_{j i t}=& \frac{\exp \left(-\left|\mathbf{x}{i}-\mathbf{x}{j}\right|^{2} / 2 \sigma_{i}^{2}\right)}{\sum_{k \neq i} \exp \left(-\left|\mathbf{x}{i}-\mathbf{x}{k}\right|^{2} / 2 \sigma_{i}^{2}\right)} \ q_{j i}=& \frac{\exp \left(-\left|\mathbf{y}{i}-\mathbf{y}{j}\right|^{2}\right)}{\sum_{k \neq i} \exp \left(-\left|\mathbf{y}{i}-\mathbf{y}{k}\right|^{2}\right)} \ L\left(\mathbf{y}{i}\right)=\sum{i=1}^{l} K L\left(P_{i} | Q_{i}\right)=\sum_{i=1}^{l} \sum_{j=1}^{l} p_{j i} \log \frac{p_{j l}}{q_{j i}} \end{aligned}
p
jit

q
ji

L(y
i

)=
i=1

l

KL(P
i

∣Q
i

)=
i=1

l

j=1

l

p
ji

log
q
ji

p
jl


k
̸

=i

exp(−∥x
i

−x
k


2
/2σ
i
2

)
exp(−∥x
i

−x
j


2
/2σ
i
2

)


k
̸

=i

exp(−∥y
i

−y
k


2
)
exp(−∥y
i

−y
j


2
)

流形學習-SNE降維

\min {G} \max {D} V(D, G)=\mathrm{E}{\mathbf{x} \sim p{\text {data}}(\mathbf{x})}[\ln D(\mathbf{x})]+\mathrm{E}{\mathbf{z} \sim p{\mathbf{z}}(\mathbf{z})}[\ln (1-D(G(\mathbf{z})))]min
G

max
D

V(D,G)=E
x∼p
data

(x)

[lnD(x)]+E
z∼p
z

(z)

[ln(1−D(G(z)))]

\begin{aligned} C(G) &=-\ln 4+\ln 4+\mathrm{E}{\mathrm{x}-p{\text {data }}(\mathrm{x})}\left[\ln \frac{p_{\text {data }}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right]+\mathrm{E}{\mathbf{z}-p{\mathbf{g}}(\mathbf{z})}\left[\ln \frac{p_{g}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right] \ &=-\ln 4+\mathrm{E}{\mathbf{x}-p{\text {data }}(\mathrm{x})}\left[\ln \frac{2 p_{\text {data }}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right]+\mathrm{E}{\mathbf{z}-p{\mathbf{g}}(\mathrm{z})}\left[\ln \frac{2 p_{g}(\mathbf{x})}{p_{\text {data }}(\mathbf{x})+p_{g}(\mathbf{x})}\right] \ &=-\ln 4+D_{\mathrm{KL}}\left(p_{\text {data }} | \frac{p_{\text {data }}+p_{g}}{2}\right)+D_{\mathrm{KL}}\left(p_{g} | \frac{p_{\text {data }}+p_{g}}{2}\right) \ &=-\ln 4+2 D_{\mathrm{JS}}\left(p_{\text {data }} | p_{g}\right) \end{aligned}
C(G)

=−ln4+ln4+E
x−p
data

(x)

[ln
p
data

(x)+p
g

(x)
p
data

(x)

]+E
z−p
g

(z)

[ln
p
data

(x)+p
g

(x)
p
g

(x)

]
=−ln4+E
x−p
data

(x)

[ln
p
data

(x)+p
g

(x)
2p
data

(x)

]+E
z−p
g

(z)

[ln
p
data

(x)+p
g

(x)
2p
g

(x)

]
=−ln4+D
KL

(p
data


2
p
data

+p
g


)+D
KL

(p
g


2
p
data

+p
g


)
=−ln4+2D
JS

(p
data

∥p
g

)

生成對抗網絡
第5部分-最優化方法
基本概念 問題定義, 迭代法的基本思想

梯度下降法

最速下降法

梯度下降法的各種改進 AdaGrad,AdaDelta, Adam

隨機梯度下降法

牛頓法

擬牛頓法 DFP, BFGS, L-BFGS

分治法 座標下降法, 分階段優化

凸優化 定義與性質

拉格朗日乘數法

拉格朗日對偶

KKT條件

多目標優化 基本概念, 求解算法

泛函與變分

Euler-Lagrange方程

\begin{array}{l}{L(W)=\frac{1}{2 m} \sum_{i=1}{m}\left|h\left(\mathbf{x}_{i}\right)-\mathbf{y}_{i}\right|{2}} \ {W_{t+1}=W_{t}-\eta \nabla_{W} L\left(W_{t}\right)}\end{array}
L(W)=
2m
1


i=1
m

∥h(x
i

)−y
i


2

W
t+1

=W
t

−η∇
W

L(W
t

)

神經網絡的訓練

\begin{array}{l}{\max _{m} \operatorname{ACC}(m) \times\left[\frac{\operatorname{LAT}(m)}{T}\right]^{w}} \ {w=\left{\begin{array}{l}{\alpha, \operatorname{LAT}(m) \leq T} \ {\beta, \operatorname{LAT}(m)>T}\end{array}\right.}\end{array}
max
m

ACC(m)×[
T
LAT(m)

]
w

w={
α,LAT(m)≤T
β,LAT(m)>T

多目標神經結構搜索

\begin{array}{l}{F[y]=\int_{a}^{b} \sqrt{1+y^{2}} d x} \ {\frac{d}{d x} \frac{y{\prime}}{\sqrt{1+y{2}}}=0} \ {y(x)=\frac{C}{\sqrt{1-C^{2}}} x+C^{\prime}}\end{array}
F[y]=∫
a
b

1+y
2


dx
dx
d

1+y
2

y


=0
y(x)=
1−C
2

C

x+C

證明兩點之間直線最短

第6部分-隨機過程
馬爾可夫性

馬爾可夫鏈

平穩分佈

細緻平穩條件

馬爾可夫鏈採樣算法

Metropolis-Hastings算法

Gibbs採樣

高斯過程

高斯過程迴歸

貝葉斯優化

隱馬爾可夫模型

平穩分佈

高斯過程

第7部分-圖論

基本概念

圖的矩陣表示

特殊的圖 聯通圖, 二部圖, 有向無環圖

Dijkstra算法

拉普拉斯矩陣

歸一化拉普拉斯矩陣

logistic迴歸的計算圖

神經網絡的拓撲結構圖

概率圖模型

《機器學習-原理、 算法與應用》官方購買鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章