2.1 Introduction 簡介

對概率一般有兩種理解(interpretations)：

frequentist interpretation,
- 這個層面上是說，概率可以看作是多次事件實驗的發生的頻率的逼近
- 舉個例子，假如進行很多次拋硬幣實驗，會發現最終硬幣會出現正面的概率爲0.5
Bayesian interpretation,
- 貝葉斯派常把概率當做是量化事件不確定型的工具
  - 原文 (probability is used to quantify our uncertainty about something)
- 貝葉斯派理解概率的好處是，可以拿來估算那些無法進行多次重複實驗的事件
  - 如2020年之前北極冰川融化的概率

2.2 A brief review of probability theory 概率論複習

2.2.1 Discrete random variables 離散隨機變量

p(X=x) 表示離散隨機變量 X 在有限或者可數無限集合中取 X=x 值時的概率，p() 稱作是 probability mass function or pmf

2.2.2 Fundamental rules 基本規則

2.2.2.1 Probability of a union of two events　事件的並集

p (A \lor B) = P (A) + p (B) - P (A \land B)

其中，

p(A∧B)=0 時表示互斥

2.2.2.2 Joint probabilities 聯合概率

Joint probabilities 聯合概率
- p(A,B)=p(A∧B)=p(A|B)P(B)=P(B|A)P(A)
- 聯合概率可以通過條件概率得到，有時候稱爲 product rule
margin distribution 邊緣分佈公式：
- p(A)=∑bp(A,B)=∑bp(A|B)p(B=b)
- 邊緣分佈可以有聯合概率分佈沿着特定的隨機變量求和得到，有時候稱爲 sum rule or the rule of total probability

2.2.2.3 Conditional probability 條件概率

p (A | B) = p ( A , B ) p ( B ), i f p (B) > 0

2.2.3 Bayes rule 貝葉斯規則

p (X = x | Y = y) = p ( X = x , Y = y ) p ( Y = y ) = p ( X = x ) p ( Y = y | X = x ) \sum x ' p ( X = x ' ) p ( Y = y | X = x ' )

2.2.3.1 Example: medical diagnosis

癌症檢測的敏感度是80％，即如果你有癌症，那麼檢測陽性的概率爲80%，x=1 表示檢測陽性，y=1 表示有癌症，上述的敏感度表示爲：p(x=1|y=1)=0.8 ，事實上，癌症在人羣中的發病率爲 0.004，即 p(y=1)=0.004 ，這個是前驗概率，prior probability。忽略先驗信息而想當然的認爲檢測陽性後就有80%的可能會患癌症，叫做基數謬誤，base rate fallacy，而false positive or false alarm，即診斷錯誤的概率，沒有癌症但是檢測爲陽性，概率爲 p(x=1|y=0)=0.1 。

利用上面的信息和貝葉斯規則，就可推斷出正確的答案了，即檢測爲陽性的情況下，實際也是的癌症的概率爲

p (y = 1 | x = 1) = p (x = 1 | y = 1) p (y = 1) / p (x = 1) = 0.8 * 0.004 / 0.1028 = 0.031

其中分母，

p (x = 1) = p (x = 1 | y = 1) p (y = 1) + p (x = 1 | y = 0) p (y = 0) = 0.8 * 0.004 + 0.1 * 0.996 = 0.1028

2.2.3.2 Example: Generative classifiers

生成分類器（generative classifier）
- 因爲我們用到了class-conditional density p(x|y=c) 和先驗 prior p(y=c)
判別分類器（discriminative classifier），直接判別

2.2.4 Independence and conditional independence 獨立和條件獨立

X, Y 是無條件獨立 unconditional independent 或者 marginally independent ，用 X⊥Y 表示，如下：

X ⊥ Y ⟺ p (X, Y) = p (X) p (Y)

如果聯合概率可以寫成邊緣概率的乘積，那麼這兩個隨機變量是互斥的（mutually exclusive）

現實中無條件獨立很少見，條件獨立更常見　

X ⊥ Y | Z ⟺ p (X, Y | Z) = p (X | Z) p (Y | Z)

原文如下：X and Y are conditionally independent given Z iff the conditional joint can be written as a product of conditional marginals
此外，圖模型中也有解釋，見chapter 10

Theorem 2.2.1

X⊥Y|Z 當且僅當存在函數 g,h 使得 p(x,y|z)=g(x,z)h(y,z)

Conditional Independent 能讓我們一點點建立大概率模型，樸素貝葉斯，馬爾科夫模型，圖模型中均有應用。

2.2.5 Continuous random variables 連續隨機變量

連續隨機變量X取值在區間 [a,b] 內，a≤X≤b ，定義事件 A=(X≤a) 和事件 B=(X≤b) ，事件 W=(a<X≤b) ，那麼事件 B，A，W 的關係是 B=A∨W ，即事件 B 包含 A 和 W
可得 p(B)=p(A)+p(W) 即 p(W)=p(B)−p(A)

由此定義函數 F(q)≜p(X≤q) 稱爲積累分佈函數（cumulative distribution function, cdf），顯然是單調遞增函數（monotonically increasing function）

p (a < X \leq b) = F (b) - F (a)

定義

F(x) 的導數爲

f(x)=dF(x)dx ，稱爲概率密度函數 probability density function, pdf
反之可以求積分，

F (a < X \leq b) = \int b a f (x) d x

p(x) 可以大於零，只要求的積分爲

1 就可以了。比如區間長度小於１的均勻分佈（uniform distribution）

U n i f (x | a, b) = 1 b - a I (a \leq x \leq b)

2.2.6 Quantiles 分位數

對任意的 p 有 0<p<1 ，稱 P(X)=p 的 X 爲此分佈的分數位（quantile），比如某分佈有 F(3)=0.5 表示 P(X≤3)=0.5 ，則 3 就是這個分佈的中值（median）分位數。換句話說，分位數就是取到某概率時的 x 座標值。分佈函數的反函數（或者叫逆函數，inverse function），F−1 可以很方便地表示分數位。

思考，爲什麼區間 [μ−1.96σ,μ+1.96σ] 佔據了高斯分佈中 95% 的數據？

2.2.7 Mean and variance 均值和方差

平均數（Mean）定義如下：

離散隨機變量：E(x)≜∑x∈Xx p(x)

連續隨機變量：E(x)≜∫x∈Xx p(x) dx

方差定義如下：

var [X] ≜ E [(X - μ) 2] = E [X 2] - μ 2

2.3 Some common discrete distributions 常見的離散分佈

2.3.1 The binomial and Bernoulli distributions 二項分佈和伯努利分佈

考慮扔硬幣問題，假如扔 n 次硬幣，那麼正面朝上的次數定義爲隨機變量 X ，顯然有 X∈{0,...,n} ，若正面朝上的概率爲 θ 的話，那麼可以說 X 符合二項分佈，寫作 X∈Bin(n,θ) ，pmf（概率質量函數）爲：

B i n (k | n, θ) ≜ C k n θ k (1 - θ) n - k

上面的組合數稱爲二項係數（binomial coefficient），二項分佈的期望爲 nθ ，方差爲 nθ(1−θ)

假如只扔一次硬幣，那麼 X∈{0,1} ，那麼隨機變量 X 是符合伯努利分佈的，寫作 X∈Ber(x|θ) ，pmf（概率質量函數）爲：

B e r (x | θ) = θ I (x = 1) (1 - θ) I (x = 0)

或者寫做

B e r (x | θ) = {θ 1 - θ i f x = 1 i f x = 0

所以，伯努利分佈只是二項分佈的一種特殊情況。

2.3.2 The multinomial and numtinoulli distributions 多項式分佈和多努利分佈

多項式分佈可以對一個 K 面的篩子（K-side die）建模，定義隨機向量 x=(x1,...,xK) ，其中 xj 表示投擲 n 次篩子時第 j 面出現的次數。要計算隨機向量出現的概率，這應該是一個有放回的組合問題，概率質量函數如下：

M u (x | n, θ) ≜ (n x 1 , . . . , x K) \prod j = 1 K θ x j j

係數中的組合數稱作是多項式係數，定義爲：

(n x 1 , . . . , x K) ≜ n ! x x ! x 2 ! \dots x K !

令 n=1 ，意味着只投擲一次篩子，此時隨機向量 x 就是一堆的 0 和一個 1 而已，稱作是 one-hot encoding，可寫作 x=[I(x=1),...,I(x=K)] ，概率質量函數 pmf 爲：

M u (x | 1, θ) = \prod j = 1 K θ I (x j = 1) j

這個分佈有三種叫法：
1. categorical distributionor
2. discrete distribution
3. multinoulli distribution

當然也有專門的符號表示：

C a t (x | θ) ≜ M u (x | 1, θ)

2.3.2.1 Application: DNA sequence motifs

這個例子沒太看懂要做啥，不太重要吧？

2.3.3 The Poisson distribution 泊松分佈

給定離散隨機變量 X∈{0,1,2,...} ，定義泊松分佈的 pmf 爲：

P o i (x | λ) = e - λ λ x x !

第一項是歸一化係數，爲了保證整個分佈的和爲 1 ，其中參數 λ>0

2.3.4 The empirical distribution 經驗分佈

經驗分佈又叫經驗測量（empirical measure），給定一組數據 D={x1,...,xN} ，我們想統計一下里面有多少數據是在集合 A 中的，按照下面的公式計算：

p e m p (A) ≜ 1 N \sum i = 1 N δ x i (A)

其中

δx(A) 叫做狄拉克測度（Dirac measure），定義爲

δ x (A) = {01 i f x \notin A i f x \in A

廣義上可以將每個樣本關聯一個權重，那麼有：

p (x) = \sum i = 1 N w i δ x i (x)

其中要求

0≤wi≤1 and

∑Ni=1wi=1

然而翻了一下網上對經驗分佈的解釋，一般表述爲，把樣本集中的所有樣本按照從小到大的順序排序，計算其積累分佈，就得到了經驗分佈。

P ˆ (X = x) = 1 n \sum i = 1 n I (x i \leq x)

2.4 Some commom continuous distributions

下面提到的連續分佈都是一維的概率分佈（univariate(one-dimensional) continuous probability distributions）

2.4.1 Gaussian (normal) distribution 高斯分佈

統計學和機器學習中最常用的應該就是高斯分佈了，其概率密度函數（pdf）公式如下：

N (x | μ, σ 2) ≜ 1 2 π σ 2 - - - - \sqrt e - 1 2 σ 2 (x - μ) 2

其中，參數 μ=E[X] 表示平均數，σ2=var[X] 表示方差，2πσ2−−−−√ 表示歸一化的常數，保證密度的積分爲 1 。可以用 X∼N(μ,σ2) 來表示 p(X=x)∼N(μ,σ2) 。一般用 X∼N(0,1) 表示 X 服從標準高斯分佈（standard normal distribution）

定義 λ=1σ2 爲高斯的精密度，和方差意思相對。高的精密度意味着小方差，數據會集中在均值附近。

高斯分佈的積累分佈函數（cdf）爲概率密度函數（pdf）的積分：

Φ (x; μ, σ 2) ≜ \int x - \infty N (z | μ, σ 2) d z

可以用誤差函數 error function (erf) 來計算，

Φ (x; μ, σ) = 1 2 [1 + e r f (z 2 \sqrt)]

其中 z=(x−μ)σ ，erf(x)≜2π√∫x0e−t2

高斯分佈之所以在統計學中應用如此之廣泛，除了其兩個參數很有解釋（interpret）之外，而且很適合拿來給殘差（residual error）或者說噪音（error）建模等諸多原因。

2.4.2 Degenerate pdf 退化的概率密度函數

限制 σ2→0 ，高斯分佈的函數圖像變成了一個無限高，無限瘦，以 μ 爲中心的脈衝：

lim σ 2 \to 0 N (x | μ, σ 2) = δ (x - μ)

這裏的

δ 稱作是 Dirac delta function，定義爲：

δ (x) = {\infty 0 i f x = 0 i f x \neq 0

同時保持在實數域上的積分爲

δ 函數可以拿來做篩選，信號與系統中常用到，如：∫∞−∞f(x)δ(x−μ)dx=f(μ)

然而高斯分佈一般會對異常值（outliers，離羣值）很敏感，因爲 log-probability 只是二次衰減。一個更魯棒的分佈是 Student t distribution，pdf 定義如下：

T (x | μ, σ 2, ν) \propto [1 + 1 ν (x - μ σ) 2] - (ν + 1 2)

其中

μ 是均值，要滿足

ν>1 纔有意義。

σ2>0 爲放縮參數（scale parameter），

ν>0 爲自由度（degrees of freedom），t 分佈的方差是 var =

νσ2ν−2 ，但是方差要在

ν>2 的條件下才有意義。

圖 Figure 2.8 展示了異常值（outliers）對高斯分佈影響很大，但是對 T 分佈和拉普拉斯分佈影響較小。

若取 ν=1 ，那麼此時稱爲是 柯西或者洛倫茲分佈（Cauchy or Lorentz distribution），一般取 ν=4 ，T 分佈會取得很好的效果，當 ν≫5 時，學生分佈會快速接近高斯分佈，失去其魯棒性的性質。

2.4.3 The Laplace distribution 拉普拉斯分佈

拉普拉斯分佈有很重的尾巴（with heavy tails），又稱作是 雙邊指數分佈（double sided exponential distribution），pdf 如下：

L a p (x | μ, b) ≜ 1 2 b e x p (- | x - μ | b)

均值爲

μ ，方差爲

2b2 ，拉普拉斯分佈的概率密度在均值處更集中，瑰麗模型的稀疏性。

2.4.4 The gamma distribution 伽馬分佈

伽馬分佈的變量爲正實數，有兩個參數來定義，a>0 決定形狀（shape），b>0 決定比率（rate），

G a (T | s h a p e = a, r a t e = b) ≜ b a Γ ( a ) T a - 1 e - T b

其中

Γ(a) 是伽馬函數，

Γ (x) ≜ \int \infty 0 u x - 1 e - u d u

伽馬分佈下列的性質，均值

a/b ，方差

a/b2

伽馬分佈的一些特殊情況：
1. Exponential distribution Expon(x|λ)≜Ga(x|1,λ)
2. Erlang distribution 和伽馬分佈相同，只是 a 要求爲整數，一般固定爲 2
3. Chi-squared distribution X2(x|ν)≜Ga(x|ν2,12)

若 X∼Ga(a,b) ，那麼有 1X∼IG(a,b) ，其中 IG 爲逆伽馬分佈（Inverse Gamma）其性質略。

2.4.5 The Beta distribution 貝塔分佈

定義如下：

Beta (x | a, b) = 1 B ( a , b ) x a - 1 (1 - x) b - 1

其中

B(a,b) 爲貝塔函數

B(a,b)≜Γ(a)Γ(b)Γ(a+b) ，

a,b>0 時分佈是可積分的，

a=b=1 時爲均勻分佈，若

a,b<1 時，可以得到雙峯分佈；若

a,b>1 時，可以得到單峯分佈。貝塔分佈的性質如下：

mean = a a + b, mode = a - 1 a + b - 2, var = a b ( a + b ) 2 ( a + b + 1 )

2.4.6 Pareto distribution 柏拉圖分佈

柏拉圖分佈側重對數據長長的“尾巴”建模，pdf 如下：

P a r e t o (x | k, m) = k m k x - (k + 1) I (x \geq m)

2.5 Joint probability distributions 聯合概率分佈

前面講的都是一元概率分佈（univariate probability distributions），下面拓展到聯合概率分佈上（Joint probability distributions）。

向量 p=(x1,...,xD) 有 D>0 個向量，聯合概率分佈可以對這些變量之間的相互關係進行建模。如果所有的變量都是離散的，那麼可以用多維矩陣來表示此聯合分佈，每個維度對應一個隨機變量。
實際中，我們可以做隨機變量之間的條件獨立性來減少參數的個數。
對於連續分佈，可以顯示概率密度函數爲確定的泛函的形式。

2.5.1 Covariance and correlation 協方差和相關性

兩個隨機變量 X 和 Y 的協方差（covariance）可以衡量 X 和 Y 的相關程度。定義如下：

c o v [X, Y] ≜ E [(X - E [X]) (Y - E (Y))] = E [X Y] - E [X] E [Y]

引申到 d 維的隨機向量 x ，可以定義協方差矩陣（covariance matrix）爲下列的對稱的，正定的矩陣（symmetric, positive definite matrix）：

c o v [x] ≜ E [(x - E (x)) (x - E (x)) T] = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ v a r [X 1] c o v [X 2, X 1] ⋮ c o v [X d, X 1] c o v [X 1, X 2] v a r [X 2] ⋮ c o v [X d, X 2] \dots \dots ⋮ \dots c o v [X 1, X d] c o v [X 2, X d] v a r [X d] ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

隨機變量的協方差矩陣 Σ 是對稱矩陣和半正定矩陣
作爲實對稱矩陣，其主要性質之一就是可以正交對角化，即存在正交矩陣U，使得 UTΣU=Λ
作爲半正定矩陣，我們可以對協方差矩陣進行Cholesky分解：半正定矩陣 Σ ，可以分解爲Σ=UTΛU ，其中U 是上三角陣，Λ 是對角線元素都非負的對角矩陣。所以 Σ=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
這樣一來，矩陣Σ=CTC ，其中C=Λ1/2U 。

因爲協方差的取值在 0 到正無窮之間，所以有時候需要做歸一化處理，於是引申出了相關係數（Pearson correlation coefficient）的概念，公式如下：

corr [X, Y] ≜ cov [ X , Y ] var [ X ] var [ Y ] - - - - - - - - - - \sqrt

相應的，相關性矩陣可寫作下列的形式：

R = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ c o r r [X 1, X 1] ⋮ c o r r [X d, X 1] c o r r [X 1, X 2] ⋮ c o r r [X d, X 2] \dots ⋮ \dots c o r r [X 1, X d] c o r r [X d, X d] ⎞ ⎠ ⎟ ⎟ ⎟ ⎟

R 的取值在 [−1,1] 之間，矩陣中的對角項都是同一個隨機變量，因此相關係數爲 1 ，而事實上，相關係數爲 1 的充要條件是兩個隨機變量線性相關。如可以用相應的兩個實數 a,b 聯繫起來：Y=aX+b

若隨機變量 X,Y 相互獨立（independent），意味着有 p(X,Y)=P(X)p(Y) 那麼有 cov(X,Y)=0 ，因此相關係數爲 0 可以表示兩者不相關。然而反過來，不相關並不意味着兩者一定要獨立。（uncorrelated does not imply independent）

所以相關係數這鬼東西就沒啥用嘍！

2.5.2 The multivariate Gaussian 多元高斯

多元高斯（Multivariate Gaussian, Multivariate Normal, MVN）是對連續變量最常用的聯合概率密度函數。D 維的 MVN 的概率密度函數定義如下：

N (x | μ, Σ) ≜ 1 ( 2 π ) D / 2 | Σ | 1 / 2 e x p [- 1 2 (x - μ) T Σ - 1 (x - μ)]

其中

μ=E[x]∈RD 爲均值向量，

Σ=cov[x] 爲

D×D 維的協方差矩陣。或者叫 precision matrix or concentration matrix. 又有符號

Λ=Σ−1 .

2.5.3 Multivariate Student t distribution 多元 t 分佈

公式太長了且不常用，略。

2.5.4 Dirichlet distribution 狄利克雷分佈

貝塔分佈（Beta distribution）的多元推廣版本，稱爲狄利克雷分佈，且分佈符合概率單純型的定義。（即該分佈中的任意兩點的運算，仍然落在該概率分佈中，因此是凸集，且限定凸集的形狀爲單純型）。

概率密度函數 pdf 爲：

D i r (x | α) ≜ 1 B ( α ) \prod k = 1 K x α k - 1 k I (x \in S K)

集合

SK 定義爲：

S K = {x : 0 \leq x k \leq 1, \sum k = 1 K x k = 1}

而

B(α1,...,αK) 是貝塔函數的

K 變量問題的自然推廣，

B (α) ≜ \prod K k = 1 Γ ( α k ) Γ ( α 0 )

其中，變量

α0≜∑Kk=1αk 控制了強度的分佈（controls the strength of the distribution or how peaked it is），通俗點說，就是哪裏會冒尖，哪裏會平坦。

狄利克雷分佈的一些性質如下：

E [x k] = α k α 0, m o d e [x k] = α k - 1 α 0 - K, v a r [x k] = α k ( α 0 - α k ) α 2 0 ( α 0 - 1 )

其中，

α0=∑kαk ，通常增大

α 會降低方差。

2.6 Tranformations of random variables 隨機變量的變換

即已知隨機變量 x 滿足 x∼p() ，求 y=f(x) 的分佈。

2.6.1 Linear transformations 線性變換

假設 f(x) 爲線性函數，y=f(x) ，那麼 y 的均值爲

E [y] = E [A x + b] = A μ + b

方差爲：

c o v [y] = c o v [A x + b] = A Σ A T

2.6.2 General transformations 一般的變換

若 X 是離散的隨機變量，概率密度函數可以通過把所有的 y 加起來得到，即

p y (y) = \sum x : f (x) = y p x (x)

其中，

px(x) 是

x 的概率質量函數。

若 X 是連續的隨機變量，考慮對應 Y 的積累分佈函數（cdf），

P y (y) ≜ P (Y \leq y) = P (f (X) \leq y) = P (X \in {x | f (x) \leq y})

所以可以通過對此函數求導數得到概率密度函數（derive the pdf of y by differentiating the cdf），要求解上述公式，還要進一步限定

y=f(x) 是單調的（monotonic），因此也是可逆的。故可以進一步得到：

P y (y) = P (f (X) \leq y) = P (X \leq f - 1 (y)) = P x (f - 1 (y))

求概率密度函數，可以通過求導數得到，帶入上式的結果可得：

p y (y) ≜ d d y P y (y) = d d y P x (f - 1 (y)) = d x d y d d x P x (x) = d x d y p x (x)

2.6.2.1 Multivariate change of variables *

上述問題的多元推廣，這裏先引入雅各比矩陣（Jacobian matrix）的概念，定義函數 f:Rn→Rn ，令 y=f(x) ，那麼雅各比矩陣爲：

J x \to y ≜ \partial ( y 1 , . . . , y n ) \partial ( x 1 , . . . , x n ) ≜ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \partial y 1 \partial x 1 ⋮ \partial y n \partial x 1 \dots ⋱ \dots \partial y 1 \partial x n ⋮ \partial y n \partial x n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

上小節的結論推廣如下：

p y (y) = p x (x) | d e t (\partial x \partial y) | = p x (x) | d e t J y \to x |

其中

det Jy→x 表示單位

n 維封閉空間在應用函數

f 後面積的改變大小。

2.6.3 Central limit theorem 中心極限定理

首先，中心極限定理很神奇。其次，上面講的隨機變量的變換，其實是爲了這個定理做的鋪墊。（Really? I doublt that.）問題描述如下，假設有一組的獨立同分布（independent and identically distributed, iid）的樣本數據，其均值和方差分別是 μ 和 σ2 ，那麼可以定義求和函數 SN=∑Ni=1Xi ，其實是原隨機變量的變換，但是這個得到的新隨機變量，是逐漸逼近高斯分佈的。注意這裏的 X 的分佈是沒有限制的，可以是任意分佈，只要所有數據符合獨立同分布即可。概率密度函數如下：

p (S N = s) = 1 2 π N σ 2 - - - - - - \sqrt e x p (- ( s - N μ ) 2 2 N σ 2)

也可以在此基礎上做歸一化，有

Z N ≜ S N - N μ σ N - - \sqrt = X ¯ ¯ ¯ - μ σ / N - - \sqrt \sim N (0, 1)

即

ZN 是符合標準的高斯分佈的。通俗點說就是，符合任意分佈的數據，多次採樣的和構成的分佈是符合高斯分佈的。

這些就是中心極限定理的內容。中心極限定理在概率統計裏非常重要，是概率論中的非正式首席定理，也是後續很多理論的基石。可以參考《正態分佈的前世今生》這篇科普短文。

2.7 Monte Carlo approximation 蒙特卡洛近似

一般來說，用 the change of variables formula 來計算某隨機變量函數的分佈是很困難的，因此要採取求近似解的方法，如蒙特卡羅模擬。首先，我們從要求的分佈中採樣（比如用馬爾可夫鏈蒙特卡洛方法，Markov chain Monte Carlo or MCMC），這 S 個樣本爲 x1,...,xS ，而 f(X) 的分佈就可以用經驗分佈 {f(xs)}Ss=1 來估計（approximation）。要求均值的話，也可以近似出來，

E [f (X)] = \int f (x) p (x) d x \approx 1 S \sum s = 1 S f (x s)

其中

xs∼p(X) ，而上面的方法就稱爲蒙特卡洛積分法（Monte Carlo integration）

下面的結論也成立：

x¯=1S∑Ss=1xs→E[X]
1S∑Ss=1(xs−x¯)2→E[X]
1S#{xs≤c}=→P(X≤c)
median{x1,...,xS}=median(X)

2.7.1 Example: change of variables, the MC way

已知均勻分佈：x∼Unif(−1,1) 和 y=f(x)=x2 ，那麼求 y 的分佈。

2.7.2 Example: estimating π by Monte Carlo integration

用蒙特卡洛積分來估計 π 的值，直接計算下列的定積分，

I = \int r - r \int r - r I (x 2 + y 2 \leq r 2) d x d y

故可得

π=I/r2 ，後統計隨機點

(xs,ys) 的出現的概率爲

p(xs,ys) ，可以近似的算出

π 的值。

2.7.3 Accuracy of Monte Carlo approximation

蒙特卡洛近似的準確率取決於樣本的大小，因爲誤差是隨着樣本容量的增大而逐漸逼近高斯分佈的。即

(μ ˆ - μ) \to N (0, σ 2 S)

其中，

μˆ,S 是樣本中的均值和樣本大小，

μ,σ2 是實際的均值和方差。

當然，實際的方差 σ2 也是不知道的，也要通過蒙特卡洛的方法來估計，

σ ˆ 2 = 1 S \sum s = 1 S (f (x s) - μ ˆ) 2

要深刻理解蒙特卡洛的方法不簡單，因爲其方法要求的數學知識太多，可以參考《LDA數學八卦》這篇都科普短文，當然我們後面章節還會再次提到。

2.8 Information theory 信息理論

信息理論做的事，基本就是用緊湊的方式表示數據，或者叫數據壓縮（data compression）或者信源編碼（source coding），使得數據在傳輸的時候能保持很好的容錯性。

2.8.1 Entropy 熵

隨機變量 X 的熵可以用來表示其不確定性，定義如下：

H (X) ≜ - \sum k = 1 K p k log 2 p k

當然，這個是離散的隨機變量的熵的定義，

K 表示總的狀態數。一般基底取值爲

2 ，所以熵的單位是 bits；若是去自然底數

e ，那麼但是可以稱作是 nats.

從熵的定義中很容易得到推論，令熵最大（爲 log2K ）的分佈是均勻分佈的，此時不確定性最大；相反，可以令熵最小（爲零）的分佈是一個脈衝，delta function，此時不確定性爲0，即完全100%地確定。

我們可以通過伯努利分佈的例子來探究一下熵的直觀意義。已知 p(X=1)=θ ，那麼熵爲：

H (X) = - [p (X = 1) log 2 p (X = 1) + p (X = 0) log 2 p (X = 0)] = - [θ log 2 θ + (1 - θ) log 2 (1 - θ)]

從插圖 Figure 2.21 中可以看到熵最大最小的情況。

有時候，我們會把方差和熵拿來做一個比較，因爲這兩個量都可以衡量數據的分佈情況，且看起來負相關。然而方差側重的是數據的離散程度，和隨機變量的取值有關；而熵則只關注數據的分佈，和數據本身的取值無關，這點也表現在熵的定義上面。

2.8.1-2 cross-entropy 交叉熵

離散的信息熵有時候可以解釋爲編碼數據集需要的比特數的期望值，如對於數據集 D={A,B,C,D} 的一個分佈 p={12,12,0,0} ，熵 H(p)=−∑4j=1pilogpi=1 ，即只需要一個比特就可以編碼這個分佈。

假如我們的得到了一個錯誤的分佈 q={14,14,14,14} ，我們可以用 q 來編碼分佈 p ，可以這樣來計算熵，H(p,q)=−∑4j=1pilogqi=2 ，即用錯誤的分佈來編碼原來的分佈，需要兩個比特位才能滿足，即四個字母都要編碼進去。

上面這種計算兩個分佈的熵的形式，就是交叉熵的概念，

H (p, q) ≜ - \sum k p k log q k

注意這裏

p 是原分佈，

q 是錯誤的分佈，順序不可以調換。

2.8.2 KL divergence 離散度

KL散度，Kullback-Leibler divergence，或者叫相對熵（relative entropy），定義如下：

K L (p | | q) ≜ \sum k = 1 K p k log p k q k

也可以展開寫，

K L (p | | q) = \sum k p k log 1 q k - \sum k p k log 1 p k = H (p, q) - H (p)

可以發現離散度就是交叉熵減去原來的熵，且總是非負的。

Theorem 2.8.1. (Information inequality) KL(p||q)≥0 with equality iff p=q

信息不等式表示，當且僅當兩個分佈是相同的，相對熵才爲零。不等式的正確性可以用琴生不等式證明。

2.8.3 Mutual information 互信息

考慮兩個離散的隨機變量 X,Y ，定義如下：

I (X; Y) ≜ K L (p (X, Y) | | p (X) p (Y)) = \sum x \sum y p (x, y) log p ( x , y ) p ( x ) p ( y )

恆有 I(X,Y)≥0 成立，當且僅當滿足 p(X,Y)=p(X)p(Y) 時等號成立。即只有變量獨立時，互信息才爲零。

把互信息寫成聯合熵和條件熵的形式：

I (X; Y) = H (X) - H (X | Y) = H (Y) - H (Y | X)

其中

H(Y|X) 爲條件熵（conditional entropy），

H(Y|X)=∑xp(x)H(Y|X=x)

另外有衡量點對點之間的互信息（pointwise mutual information, PMI），定義爲在兩個事件中，

P M I (x, y) ≜ log p ( x , y ) p ( x ) p ( y ) = log p ( x | y ) p ( x ) = log p ( y | x ) p ( y )

2.8.3.1 Mutual information for continuous random variables

略～

張小彬的代碼人生

發佈了85 篇原創文章 · 獲贊 138 · 訪問量 40萬+

私信關注

MLaPP Chapter 2 Probability 概率論