2.1 Introduction 簡介
對概率一般有兩種理解(interpretations):
frequentist interpretation,
這個層面上是說,概率可以看作是多次事件實驗的發生的頻率的逼近
舉個例子,假如進行很多次拋硬幣實驗,會發現最終硬幣會出現正面的概率爲0.5
Bayesian interpretation,
貝葉斯派常把概率當做是量化事件不確定型的工具
原文 (probability is used to quantify our uncertainty about something)
貝葉斯派理解概率的好處是,可以拿來估算那些無法進行多次重複實驗的事件
2.2 A brief review of probability theory 概率論複習
2.2.1 Discrete random variables 離散隨機變量
p ( X = x ) 表示離散隨機變量 X 在有限或者可數無限集合中取 X = x 值時的概率,p ( ) 稱作是 probability mass function or pmf
2.2.2 Fundamental rules 基本規則
2.2.2.1 Probability of a union of two events 事件的並集
p ( A ∨ B ) = P ( A ) + p ( B ) − P ( A ∧ B )
其中,
p ( A ∧ B ) = 0 時表示互斥
2.2.2.2 Joint probabilities 聯合概率
Joint probabilities 聯合概率
p ( A , B ) = p ( A ∧ B ) = p ( A | B ) P ( B ) = P ( B | A ) P ( A )
聯合概率可以通過條件概率得到,有時候稱爲 product rule
margin distribution 邊緣分佈公式:
p ( A ) = ∑ b p ( A , B ) = ∑ b p ( A | B ) p ( B = b )
邊緣分佈可以有聯合概率分佈沿着特定的隨機變量求和得到,有時候稱爲 sum rule or the rule of total probability
2.2.2.3 Conditional probability 條件概率
p ( A | B ) = p ( A , B ) p ( B ) , i f p ( B ) > 0
2.2.3 Bayes rule 貝葉斯規則
p ( X = x | Y = y ) = p ( X = x , Y = y ) p ( Y = y ) = p ( X = x ) p ( Y = y | X = x ) ∑ x ′ p ( X = x ′ ) p ( Y = y | X = x ′ )
2.2.3.1 Example: medical diagnosis
癌症檢測的敏感度是80%,即如果你有癌症,那麼檢測陽性的概率爲80%,x = 1 表示檢測陽性,y = 1 表示有癌症,上述的敏感度表示爲:p ( x = 1 | y = 1 ) = 0.8 ,事實上,癌症在人羣中的發病率爲 0.004,即 p ( y = 1 ) = 0.004 ,這個是前驗概率,prior probability。忽略先驗信息而想當然的認爲檢測陽性後就有80%的可能會患癌症,叫做基數謬誤,base rate fallacy,而false positive or false alarm,即診斷錯誤的概率,沒有癌症但是檢測爲陽性,概率爲 p ( x = 1 | y = 0 ) = 0.1 。
利用上面的信息和貝葉斯規則,就可推斷出正確的答案了,即檢測爲陽性的情況下,實際也是的癌症的概率爲
p ( y = 1 | x = 1 ) = p ( x = 1 | y = 1 ) p ( y = 1 ) / p ( x = 1 ) = 0.8 ∗ 0.004 / 0.1028 = 0.031
其中分母,
p ( x = 1 ) = p ( x = 1 | y = 1 ) p ( y = 1 ) + p ( x = 1 | y = 0 ) p ( y = 0 ) = 0.8 ∗ 0.004 + 0.1 ∗ 0.996 = 0.1028
2.2.3.2 Example: Generative classifiers
生成分類器(generative classifier)
因爲我們用到了class-conditional density p ( x | y = c ) 和 先驗 prior p ( y = c )
判別分類器(discriminative classifier),直接判別
2.2.4 Independence and conditional independence 獨立和條件獨立
X, Y 是無條件獨立 unconditional independent 或者 marginally independent ,用 X ⊥ Y 表示,如下:
X ⊥ Y ⟺ p ( X , Y ) = p ( X ) p ( Y )
如果聯合概率可以寫成邊緣概率的乘積,那麼這兩個隨機變量是互斥的(mutually exclusive)
現實中無條件獨立很少見,條件獨立 更常見
X ⊥ Y | Z ⟺ p ( X , Y | Z ) = p ( X | Z ) p ( Y | Z )
原文如下:X and Y are conditionally independent given Z iff the conditional joint can be written as a product of conditional marginals
此外,圖模型中也有解釋,見chapter 10
Theorem 2.2.1
X ⊥ Y | Z 當且僅當存在函數 g , h 使得 p ( x , y | z ) = g ( x , z ) h ( y , z )
Conditional Independent 能讓我們一點點建立大概率模型,樸素貝葉斯,馬爾科夫模型,圖模型中均有應用。
2.2.5 Continuous random variables 連續隨機變量
連續隨機變量X取值在區間 [ a , b ] 內,a≤ X ≤ b ,定義事件 A = ( X ≤ a ) 和事件 B = ( X ≤ b ) ,事件 W = ( a < X ≤ b ) ,那麼事件 B , A , W 的關係是 B = A ∨ W ,即事件 B 包含 A 和 W
可得 p ( B ) = p ( A ) + p ( W ) 即 p ( W ) = p ( B ) − p ( A )
由此定義函數 F ( q ) ≜ p ( X ≤ q ) 稱爲積累分佈函數(cumulative distribution function, cdf ),顯然是單調遞增函數(monotonically increasing function)
p ( a < X ≤ b ) = F ( b ) − F ( a )
定義
F ( x ) 的導數爲
f ( x ) = d F ( x ) d x ,稱爲概率密度函數
probability density function ,
pdf
反之可以求積分,
F ( a < X ≤ b ) = ∫ b a f ( x ) d x
p ( x ) 可以大於零,只要求的積分爲
1 就可以了。比如區間長度小於1的均勻分佈(uniform distribution)
U n i f ( x | a , b ) = 1 b − a I ( a ≤ x ≤ b )
2.2.6 Quantiles 分位數
對任意的 p 有 0 < p < 1 , 稱 P ( X ) = p 的 X 爲此分佈的分數位(quantile),比如某分佈有 F ( 3 ) = 0.5 表示 P ( X ≤ 3 ) = 0.5 ,則 3 就是這個分佈的中值(median)分位數。換句話說,分位數就是取到某概率時的 x 座標值。分佈函數的反函數(或者叫逆函數,inverse function),F − 1 可以很方便地表示分數位。
思考,爲什麼區間 [ μ − 1.96 σ , μ + 1.96 σ ] 佔據了高斯分佈中 95 % 的數據?
2.2.7 Mean and variance 均值和方差
平均數(Mean)定義如下:
離散隨機變量:E ( x ) ≜ ∑ x ∈ X x p ( x )
連續隨機變量:E ( x ) ≜ ∫ x ∈ X x p ( x ) d x
方差定義如下:
var [ X ] ≜ E [ ( X − μ ) 2 ] = E [ X 2 ] − μ 2
2.3 Some common discrete distributions 常見的離散分佈
2.3.1 The binomial and Bernoulli distributions 二項分佈和伯努利分佈
考慮扔硬幣問題,假如扔 n 次硬幣,那麼正面朝上的次數定義爲隨機變量 X ,顯然有 X ∈ { 0 , . . . , n } ,若正面朝上的概率爲 θ 的話,那麼可以說 X 符合二項分佈 ,寫作 X ∈ B i n ( n , θ ) ,pmf(概率質量函數)爲:
B i n ( k | n , θ ) ≜ C k n θ k ( 1 − θ ) n − k
上面的組合數稱爲二項係數(binomial coefficient),二項分佈的期望爲 n θ ,方差爲 n θ ( 1 − θ )
假如只扔一次硬幣,那麼 X ∈ { 0 , 1 } ,那麼隨機變量 X 是符合伯努利分佈的,寫作 X ∈ B e r ( x | θ ) ,pmf(概率質量函數)爲:
B e r ( x | θ ) = θ I ( x = 1 ) ( 1 − θ ) I ( x = 0 )
或者寫做
B e r ( x | θ ) = { θ 1 − θ i f x = 1 i f x = 0
所以,伯努利分佈只是二項分佈的一種特殊情況。
2.3.2 The multinomial and numtinoulli distributions 多項式分佈和多努利分佈
多項式分佈可以對一個 K 面的篩子(K-side die)建模,定義隨機向量 x = ( x 1 , . . . , x K ) ,其中 x j 表示投擲 n 次篩子時第 j 面出現的次數。要計算隨機向量出現的概率,這應該是一個有放回的組合問題,概率質量函數如下:
M u ( x | n , θ ) ≜ ( n x 1 , . . . , x K ) ∏ j = 1 K θ x j j
係數中的組合數稱作是多項式係數,定義爲:
( n x 1 , . . . , x K ) ≜ n ! x x ! x 2 ! ⋯ x K !
令 n = 1 ,意味着只投擲一次篩子,此時隨機向量 x 就是一堆的 0 和一個 1 而已,稱作是 one-hot encoding,可寫作 x = [ I ( x = 1 ) , . . . , I ( x = K ) ] ,概率質量函數 pmf 爲:
M u ( x | 1 , θ ) = ∏ j = 1 K θ I ( x j = 1 ) j
這個分佈有三種叫法:
1. categorical distributionor
2. discrete distribution
3. multinoulli distribution
當然也有專門的符號表示:
C a t ( x | θ ) ≜ M u ( x | 1 , θ )
2.3.2.1 Application: DNA sequence motifs
這個例子沒太看懂要做啥,不太重要吧?
2.3.3 The Poisson distribution 泊松分佈
給定離散隨機變量 X ∈ { 0 , 1 , 2 , . . . } , 定義泊松分佈的 pmf 爲:
P o i ( x | λ ) = e − λ λ x x !
第一項是歸一化係數,爲了保證整個分佈的和爲 1 ,其中參數 λ > 0
2.3.4 The empirical distribution 經驗分佈
經驗分佈又叫經驗測量(empirical measure),給定一組數據 D = { x 1 , . . . , x N } ,我們想統計一下里面有多少數據是在集合 A 中的,按照下面的公式計算:
p e m p ( A ) ≜ 1 N ∑ i = 1 N δ x i ( A )
其中
δ x ( A ) 叫做狄拉克測度(Dirac measure),定義爲
δ x ( A ) = { 0 1 i f x ∉ A i f x ∈ A
廣義上可以將每個樣本關聯一個權重,那麼有:
p ( x ) = ∑ i = 1 N w i δ x i ( x )
其中要求
0 ≤ w i ≤ 1 and
∑ N i = 1 w i = 1
然而翻了一下網上對經驗分佈的解釋,一般表述爲,把樣本集中的所有樣本按照從小到大的順序排序,計算其積累分佈,就得到了經驗分佈。
P ˆ ( X = x ) = 1 n ∑ i = 1 n I ( x i ≤ x )
2.4 Some commom continuous distributions
下面提到的連續分佈都是一維的概率分佈(univariate(one-dimensional) continuous probability distributions)
2.4.1 Gaussian (normal) distribution 高斯分佈
統計學和機器學習中最常用的應該就是高斯分佈了,其概率密度函數(pdf)公式如下:
N ( x | μ , σ 2 ) ≜ 1 2 π σ 2 − − − − √ e − 1 2 σ 2 ( x − μ ) 2
其中,參數 μ = E [ X ] 表示平均數,σ 2 = var [ X ] 表示方差,2 π σ 2 − − − − √ 表示歸一化的常數,保證密度的積分爲 1 。可以用 X ∼ N ( μ , σ 2 ) 來表示 p ( X = x ) ∼ N ( μ , σ 2 ) 。一般用 X ∼ N ( 0 , 1 ) 表示 X 服從標準高斯分佈(standard normal distribution)
定義 λ = 1 σ 2 爲高斯的精密度,和方差意思相對。高的精密度意味着小方差,數據會集中在均值附近。
高斯分佈的積累分佈函數(cdf)爲概率密度函數(pdf)的積分:
Φ ( x ; μ , σ 2 ) ≜ ∫ x − ∞ N ( z | μ , σ 2 ) d z
可以用誤差函數 error function (erf) 來計算,
Φ ( x ; μ , σ ) = 1 2 [ 1 + e r f ( z 2 √ ) ]
其中 z = ( x − μ ) σ ,e r f ( x ) ≜ 2 π √ ∫ x 0 e − t 2
高斯分佈之所以在統計學中應用如此之廣泛,除了其兩個參數很有解釋(interpret)之外,而且很適合拿來給殘差(residual error)或者說噪音(error)建模等諸多原因。
2.4.2 Degenerate pdf 退化的概率密度函數
限制 σ 2 → 0 ,高斯分佈的函數圖像變成了一個無限高,無限瘦,以 μ 爲中心的脈衝:
lim σ 2 → 0 N ( x | μ , σ 2 ) = δ ( x − μ )
這裏的
δ 稱作是 Dirac delta function,定義爲:
δ ( x ) = { ∞ 0 i f x = 0 i f x ≠ 0
同時保持在實數域上的積分爲
1
δ 函數可以拿來做篩選,信號與系統中常用到,如:∫ ∞ − ∞ f ( x ) δ ( x − μ ) d x = f ( μ )
然而高斯分佈一般會對異常值(outliers,離羣值)很敏感,因爲 log-probability 只是二次衰減。一個更魯棒的分佈是 Student t distribution,pdf 定義如下:
T ( x | μ , σ 2 , ν ) ∝ [ 1 + 1 ν ( x − μ σ ) 2 ] − ( ν + 1 2 )
其中
μ 是均值,要滿足
ν > 1 纔有意義。
σ 2 > 0 爲放縮參數(scale parameter),
ν > 0 爲自由度(degrees of freedom),t 分佈的方差是 var =
ν σ 2 ν − 2 ,但是方差要在
ν > 2 的條件下才有意義。
圖 Figure 2.8 展示了異常值(outliers)對高斯分佈影響很大,但是對 T 分佈和拉普拉斯分佈影響較小。
若取 ν = 1 ,那麼此時稱爲是 柯西或者洛倫茲分佈(Cauchy or Lorentz distribution) ,一般取 ν = 4 ,T 分佈會取得很好的效果,當 ν ≫ 5 時,學生分佈會快速接近高斯分佈,失去其魯棒性的性質。
2.4.3 The Laplace distribution 拉普拉斯分佈
拉普拉斯分佈有很重的尾巴(with heavy tails),又稱作是 雙邊指數分佈(double sided exponential distribution) ,pdf 如下:
L a p ( x | μ , b ) ≜ 1 2 b e x p ( − | x − μ | b )
均值爲
μ ,方差爲
2 b 2 ,拉普拉斯分佈的概率密度在均值處更集中,瑰麗模型的稀疏性。
2.4.4 The gamma distribution 伽馬分佈
伽馬分佈的變量爲正實數,有兩個參數來定義,a > 0 決定形狀(shape),b > 0 決定比率(rate),
G a ( T | s h a p e = a , r a t e = b ) ≜ b a Γ ( a ) T a − 1 e − T b
其中
Γ ( a ) 是伽馬函數,
Γ ( x ) ≜ ∫ ∞ 0 u x − 1 e − u d u
伽馬分佈下列的性質,均值
a / b ,方差
a / b 2
伽馬分佈的一些特殊情況:
1. Exponential distribution E x p o n ( x | λ ) ≜ G a ( x | 1 , λ )
2. Erlang distribution 和伽馬分佈相同,只是 a 要求爲整數,一般固定爲 2
3. Chi-squared distribution X 2 ( x | ν ) ≜ G a ( x | ν 2 , 1 2 )
若 X ∼ Ga ( a , b ) ,那麼有 1 X ∼ IG ( a , b ) ,其中 IG 爲逆伽馬分佈(Inverse Gamma)其性質略。
2.4.5 The Beta distribution 貝塔分佈
定義如下:
Beta ( x | a , b ) = 1 B ( a , b ) x a − 1 ( 1 − x ) b − 1
其中
B ( a , b ) 爲貝塔函數
B ( a , b ) ≜ Γ ( a ) Γ ( b ) Γ ( a + b ) ,
a , b > 0 時分佈是可積分的,
a = b = 1 時爲均勻分佈,若
a , b < 1 時,可以得到雙峯分佈;若
a , b > 1 時,可以得到單峯分佈。貝塔分佈的性質如下:
mean = a a + b , mode = a − 1 a + b − 2 , var = a b ( a + b ) 2 ( a + b + 1 )
2.4.6 Pareto distribution 柏拉圖分佈
柏拉圖分佈側重對數據長長的“尾巴”建模,pdf 如下:
P a r e t o ( x | k , m ) = k m k x − ( k + 1 ) I ( x ≥ m )
2.5 Joint probability distributions 聯合概率分佈
前面講的都是一元概率分佈(univariate probability distributions),下面拓展到聯合概率分佈上(Joint probability distributions)。
向量 p = ( x 1 , . . . , x D ) 有 D > 0 個向量,聯合概率分佈可以對這些變量之間的相互關係進行建模。如果所有的變量都是離散的,那麼可以用多維矩陣來表示此聯合分佈,每個維度對應一個隨機變量。
實際中,我們可以做隨機變量之間的條件獨立性來減少參數的個數。
對於連續分佈,可以顯示概率密度函數爲確定的泛函的形式。
2.5.1 Covariance and correlation 協方差和相關性
兩個隨機變量 X 和 Y 的協方差(covariance)可以衡量 X 和 Y 的相關程度。定義如下:
c o v [ X , Y ] ≜ E [ ( X − E [ X ] ) ( Y − E ( Y ) ) ] = E [ X Y ] − E [ X ] E [ Y ]
引申到 d 維的隨機向量 x ,可以定義協方差矩陣(covariance matrix)爲下列的對稱的,正定的矩陣(symmetric, positive definite matrix):
c o v [ x ] ≜ E [ ( x − E ( x ) ) ( x − E ( x ) ) T ] = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ v a r [ X 1 ] c o v [ X 2 , X 1 ] ⋮ c o v [ X d , X 1 ] c o v [ X 1 , X 2 ] v a r [ X 2 ] ⋮ c o v [ X d , X 2 ] ⋯ ⋯ ⋮ ⋯ c o v [ X 1 , X d ] c o v [ X 2 , X d ] v a r [ X d ] ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟
隨機變量的協方差矩陣 Σ 是對稱矩陣和半正定矩陣
作爲實對稱矩陣,其主要性質之一就是可以正交對角化,即存在正交矩陣U,使得 U T Σ U = Λ
作爲半正定矩陣,我們可以對協方差矩陣進行Cholesky分解:半正定矩陣 Σ ,可以分解爲Σ = U T Λ U ,其中U 是上三角陣,Λ 是對角線元素都非負的對角矩陣。所以 Σ = U T Λ U = [ U T Λ 1 / 2 ] [ Λ 1 / 2 U ] = [ Λ 1 / 2 U ] T [ Λ 1 / 2 U ]
這樣一來,矩陣Σ = C T C ,其中C = Λ 1 / 2 U 。
因爲協方差的取值在 0 到正無窮之間,所以有時候需要做歸一化處理,於是引申出了相關係數(Pearson correlation coefficient)的概念,公式如下:
corr [ X , Y ] ≜ cov [ X , Y ] var [ X ] var [ Y ] − − − − − − − − − − √
相應的,相關性矩陣可寫作下列的形式:
R = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ c o r r [ X 1 , X 1 ] ⋮ c o r r [ X d , X 1 ] c o r r [ X 1 , X 2 ] ⋮ c o r r [ X d , X 2 ] ⋯ ⋮ ⋯ c o r r [ X 1 , X d ] c o r r [ X d , X d ] ⎞ ⎠ ⎟ ⎟ ⎟ ⎟
R 的取值在 [ − 1 , 1 ] 之間,矩陣中的對角項都是同一個隨機變量,因此相關係數爲 1 ,而事實上,相關係數爲 1 的充要條件是兩個隨機變量線性相關。如可以用相應的兩個實數 a , b 聯繫起來:Y = a X + b
若隨機變量 X , Y 相互獨立(independent),意味着有 p ( X , Y ) = P ( X ) p ( Y ) 那麼有 cov ( X , Y ) = 0 ,因此相關係數爲 0 可以表示兩者不相關。然而反過來,不相關並不意味着兩者一定要獨立。(uncorrelated does not imply independent)
所以相關係數這鬼東西就沒啥用嘍!
2.5.2 The multivariate Gaussian 多元高斯
多元高斯(Multivariate Gaussian, Multivariate Normal, MVN)是對連續變量最常用的聯合概率密度函數。D 維的 MVN 的概率密度函數定義如下:
N ( x | μ , Σ ) ≜ 1 ( 2 π ) D / 2 | Σ | 1 / 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ]
其中
μ = E [ x ] ∈ R D 爲均值向量,
Σ = c o v [ x ] 爲
D × D 維的協方差矩陣。或者叫 precision matrix or concentration matrix. 又有符號
Λ = Σ − 1 .
2.5.3 Multivariate Student t distribution 多元 t 分佈
公式太長了且不常用,略。
2.5.4 Dirichlet distribution 狄利克雷分佈
貝塔分佈(Beta distribution)的多元推廣版本,稱爲狄利克雷分佈,且分佈符合概率單純型的定義。(即該分佈中的任意兩點的運算,仍然落在該概率分佈中,因此是凸集,且限定凸集的形狀爲單純型)。
概率密度函數 pdf 爲:
D i r ( x | α ) ≜ 1 B ( α ) ∏ k = 1 K x α k − 1 k I ( x ∈ S K )
集合
S K 定義爲:
S K = { x : 0 ≤ x k ≤ 1 , ∑ k = 1 K x k = 1 }
而
B ( α 1 , . . . , α K ) 是貝塔函數的
K 變量問題的自然推廣,
B ( α ) ≜ ∏ K k = 1 Γ ( α k ) Γ ( α 0 )
其中,變量
α 0 ≜ ∑ K k = 1 α k 控制了強度的分佈(controls the strength of the distribution or how peaked it is),通俗點說,就是哪裏會冒尖,哪裏會平坦。
狄利克雷分佈的一些性質如下:
E [ x k ] = α k α 0 , m o d e [ x k ] = α k − 1 α 0 − K , v a r [ x k ] = α k ( α 0 − α k ) α 2 0 ( α 0 − 1 )
其中,
α 0 = ∑ k α k ,通常增大
α 會降低方差。
即已知隨機變量 x 滿足 x ∼ p ( ) ,求 y = f ( x ) 的分佈。
假設 f ( x ) 爲線性函數,y = f ( x ) ,那麼 y 的均值爲
E [ y ] = E [ A x + b ] = A μ + b
方差爲:
c o v [ y ] = c o v [ A x + b ] = A Σ A T
若 X 是離散的隨機變量,概率密度函數可以通過把所有的 y 加起來得到,即
p y ( y ) = ∑ x : f ( x ) = y p x ( x )
其中,
p x ( x ) 是
x 的概率質量函數。
若 X 是連續的隨機變量,考慮對應 Y 的積累分佈函數(cdf),
P y ( y ) ≜ P ( Y ≤ y ) = P ( f ( X ) ≤ y ) = P ( X ∈ { x | f ( x ) ≤ y } )
所以可以通過對此函數求導數得到概率密度函數(derive the pdf of y by differentiating the cdf),要求解上述公式,還要進一步限定
y = f ( x ) 是單調的(monotonic),因此也是可逆的。故可以進一步得到:
P y ( y ) = P ( f ( X ) ≤ y ) = P ( X ≤ f − 1 ( y ) ) = P x ( f − 1 ( y ) )
求概率密度函數,可以通過求導數得到,帶入上式的結果可得:
p y ( y ) ≜ d d y P y ( y ) = d d y P x ( f − 1 ( y ) ) = d x d y d d x P x ( x ) = d x d y p x ( x )
2.6.2.1 Multivariate change of variables *
上述問題的多元推廣,這裏先引入雅各比矩陣(Jacobian matrix)的概念,定義函數 f : R n → R n ,令 y = f ( x ) ,那麼雅各比矩陣爲:
J x → y ≜ ∂ ( y 1 , . . . , y n ) ∂ ( x 1 , . . . , x n ) ≜ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ∂ y 1 ∂ x 1 ⋮ ∂ y n ∂ x 1 ⋯ ⋱ ⋯ ∂ y 1 ∂ x n ⋮ ∂ y n ∂ x n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟
上小節的結論推廣如下:
p y ( y ) = p x ( x ) | d e t ( ∂ x ∂ y ) | = p x ( x ) | d e t J y → x |
其中
d e t J y → x 表示單位
n 維封閉空間在應用函數
f 後面積的改變大小。
2.6.3 Central limit theorem 中心極限定理
首先,中心極限定理很神奇。其次,上面講的隨機變量的變換,其實是爲了這個定理做的鋪墊。(Really? I doublt that.)問題描述如下,假設有一組的獨立同分布(independent and identically distributed, iid)的樣本數據,其均值和方差分別是 μ 和 σ 2 ,那麼可以定義求和函數 S N = ∑ N i = 1 X i ,其實是原隨機變量的變換,但是這個得到的新隨機變量,是逐漸逼近高斯分佈的。注意這裏的 X 的分佈是沒有限制的,可以是任意分佈,只要所有數據符合獨立同分布即可。概率密度函數如下:
p ( S N = s ) = 1 2 π N σ 2 − − − − − − √ e x p ( − ( s − N μ ) 2 2 N σ 2 )
也可以在此基礎上做歸一化,有
Z N ≜ S N − N μ σ N − − √ = X ¯ ¯ ¯ − μ σ / N − − √ ∼ N ( 0 , 1 )
即
Z N 是符合標準的高斯分佈的。通俗點說就是,符合任意分佈的數據,多次採樣的和構成的分佈是符合高斯分佈的。
這些就是中心極限定理的內容。中心極限定理在概率統計裏非常重要,是概率論中的非正式首席定理,也是後續很多理論的基石。可以參考《正態分佈的前世今生》這篇科普短文。
2.7 Monte Carlo approximation 蒙特卡洛近似
一般來說,用 the change of variables formula 來計算某隨機變量函數的分佈是很困難的,因此要採取求近似解的方法,如蒙特卡羅模擬。首先,我們從要求的分佈中採樣(比如用馬爾可夫鏈蒙特卡洛方法,Markov chain Monte Carlo or MCMC),這 S 個樣本爲 x 1 , . . . , x S ,而 f ( X ) 的分佈就可以用經驗分佈 { f ( x s ) } S s = 1 來估計(approximation)。要求均值的話,也可以近似出來,
E [ f ( X ) ] = ∫ f ( x ) p ( x ) d x ≈ 1 S ∑ s = 1 S f ( x s )
其中
x s ∼ p ( X ) ,而上面的方法就稱爲蒙特卡洛積分法(Monte Carlo integration)
下面的結論也成立:
x ¯ = 1 S ∑ S s = 1 x s → E [ X ]
1 S ∑ S s = 1 ( x s − x ¯ ) 2 → E [ X ]
1 S # { x s ≤ c } =→ P ( X ≤ c )
m e d i a n { x 1 , . . . , x S } = m e d i a n ( X )
2.7.1 Example: change of variables, the MC way
已知均勻分佈:x ∼ U n i f ( − 1 , 1 ) 和 y = f ( x ) = x 2 ,那麼求 y 的分佈。
2.7.2 Example: estimating π by Monte Carlo integration
用蒙特卡洛積分來估計 π 的值,直接計算下列的定積分,
I = ∫ r − r ∫ r − r I ( x 2 + y 2 ≤ r 2 ) d x d y
故可得
π = I / r 2 ,後統計隨機點
( x s , y s ) 的出現的概率爲
p ( x s , y s ) ,可以近似的算出
π 的值。
2.7.3 Accuracy of Monte Carlo approximation
蒙特卡洛近似的準確率取決於樣本的大小,因爲誤差是隨着樣本容量的增大而逐漸逼近高斯分佈的。即
( μ ˆ − μ ) → N ( 0 , σ 2 S )
其中,
μ ˆ , S 是樣本中的均值和樣本大小,
μ , σ 2 是實際的均值和方差。
當然,實際的方差 σ 2 也是不知道的,也要通過蒙特卡洛的方法來估計,
σ ˆ 2 = 1 S ∑ s = 1 S ( f ( x s ) − μ ˆ ) 2
要深刻理解蒙特卡洛的方法不簡單,因爲其方法要求的數學知識太多,可以參考《LDA數學八卦》這篇都科普短文,當然我們後面章節還會再次提到。
信息理論做的事,基本就是用緊湊的方式表示數據,或者叫數據壓縮(data compression)或者信源編碼(source coding),使得數據在傳輸的時候能保持很好的容錯性。
2.8.1 Entropy 熵
隨機變量 X 的熵可以用來表示其不確定性,定義如下:
H ( X ) ≜ − ∑ k = 1 K p k log 2 p k
當然,這個是離散的隨機變量的熵的定義,
K 表示總的狀態數。一般基底取值爲
2 ,所以熵的單位是 bits;若是去自然底數
e ,那麼但是可以稱作是 nats.
從熵的定義中很容易得到推論,令熵最大(爲 log 2 K )的分佈是均勻分佈的,此時不確定性最大;相反,可以令熵最小(爲零)的分佈是 一個脈衝,delta function,此時不確定性爲0,即完全100%地確定。
我們可以通過伯努利分佈的例子來探究一下熵的直觀意義。已知 p ( X = 1 ) = θ ,那麼熵爲:
H ( X ) = − [ p ( X = 1 ) log 2 p ( X = 1 ) + p ( X = 0 ) log 2 p ( X = 0 ) ] = − [ θ log 2 θ + ( 1 − θ ) log 2 ( 1 − θ ) ]
從插圖 Figure 2.21 中可以看到熵最大最小的情況。
有時候,我們會把方差和熵拿來做一個比較,因爲這兩個量都可以衡量數據的分佈情況,且看起來負相關。然而方差側重的是數據的離散程度,和隨機變量的取值有關;而熵則只關注數據的分佈,和數據本身的取值無關,這點也表現在熵的定義上面。
2.8.1-2 cross-entropy 交叉熵
離散的信息熵有時候可以解釋爲編碼數據集需要的比特數的期望值,如對於數據集 D = { A , B , C , D } 的一個分佈 p = { 1 2 , 1 2 , 0 , 0 } ,熵 H ( p ) = − ∑ 4 j = 1 p i log p i = 1 ,即只需要一個比特就可以編碼這個分佈。
假如我們的得到了一個錯誤的分佈 q = { 1 4 , 1 4 , 1 4 , 1 4 } ,我們可以用 q 來編碼分佈 p ,可以這樣來計算熵,H ( p , q ) = − ∑ 4 j = 1 p i log q i = 2 ,即用錯誤的分佈來編碼原來的分佈,需要兩個比特位才能滿足,即四個字母都要編碼進去。
上面這種計算兩個分佈的熵的形式,就是交叉熵的概念,
H ( p , q ) ≜ − ∑ k p k log q k
注意這裏
p 是原分佈,
q 是錯誤的分佈,順序不可以調換。
2.8.2 KL divergence 離散度
KL散度,Kullback-Leibler divergence,或者叫相對熵(relative entropy),定義如下:
K L ( p | | q ) ≜ ∑ k = 1 K p k log p k q k
也可以展開寫,
K L ( p | | q ) = ∑ k p k log 1 q k − ∑ k p k log 1 p k = H ( p , q ) − H ( p )
可以發現離散度就是交叉熵減去原來的熵,且總是非負的。
Theorem 2.8.1. (Information inequality) K L ( p | | q ) ≥ 0 w i t h e q u a l i t y i f f p = q
信息不等式表示,當且僅當兩個分佈是相同的,相對熵才爲零。不等式的正確性可以用琴生不等式證明。
考慮兩個離散的隨機變量 X , Y ,定義如下:
I ( X ; Y ) ≜ K L ( p ( X , Y ) | | p ( X ) p ( Y ) ) = ∑ x ∑ y p ( x , y ) log p ( x , y ) p ( x ) p ( y )
恆有 I ( X , Y ) ≥ 0 成立,當且僅當滿足 p ( X , Y ) = p ( X ) p ( Y ) 時等號成立。即只有變量獨立時,互信息才爲零。
把互信息寫成聯合熵和條件熵的形式:
I ( X ; Y ) = H ( X ) − H ( X | Y ) = H ( Y ) − H ( Y | X )
其中
H ( Y | X ) 爲條件熵(conditional entropy),
H ( Y | X ) = ∑ x p ( x ) H ( Y | X = x )
另外有衡量點對點之間的互信息(pointwise mutual information, PMI),定義爲在兩個事件中,
P M I ( x , y ) ≜ log p ( x , y ) p ( x ) p ( y ) = log p ( x | y ) p ( x ) = log p ( y | x ) p ( y )
略~