MLaPP Chapter 2 Probability 概率論

2.1 Introduction 簡介

對概率一般有兩種理解(interpretations):

  • frequentist interpretation,
    • 這個層面上是說,概率可以看作是多次事件實驗的發生的頻率的逼近
    • 舉個例子,假如進行很多次拋硬幣實驗,會發現最終硬幣會出現正面的概率爲0.5
  • Bayesian interpretation,
    • 貝葉斯派常把概率當做是量化事件不確定型的工具
      • 原文 (probability is used to quantify our uncertainty about something)
    • 貝葉斯派理解概率的好處是,可以拿來估算那些無法進行多次重複實驗的事件
      • 如2020年之前北極冰川融化的概率

2.2 A brief review of probability theory 概率論複習

2.2.1 Discrete random variables 離散隨機變量

p(X=x) 表示離散隨機變量 X 在有限或者可數無限集合中取 X=x 值時的概率,p() 稱作是 probability mass function or pmf

2.2.2 Fundamental rules 基本規則

2.2.2.1 Probability of a union of two events 事件的並集

p(AB)=P(A)+p(B)P(AB)
其中,p(AB)=0 時表示互斥

2.2.2.2 Joint probabilities 聯合概率

  • Joint probabilities 聯合概率
    • p(A,B)=p(AB)=p(A|B)P(B)=P(B|A)P(A)
    • 聯合概率可以通過條件概率得到,有時候稱爲 product rule
  • margin distribution 邊緣分佈公式:
    • p(A)=bp(A,B)=bp(A|B)p(B=b)
    • 邊緣分佈可以有聯合概率分佈沿着特定的隨機變量求和得到,有時候稱爲 sum rule or the rule of total probability

2.2.2.3 Conditional probability 條件概率

p(A|B)=p(A,B)p(B),if p(B)>0

2.2.3 Bayes rule 貝葉斯規則

p(X=x|Y=y)=p(X=x,Y=y)p(Y=y)=p(X=x)p(Y=y|X=x)xp(X=x)p(Y=y|X=x)

2.2.3.1 Example: medical diagnosis

癌症檢測的敏感度是80%,即如果你有癌症,那麼檢測陽性的概率爲80%,x=1 表示檢測陽性,y=1 表示有癌症,上述的敏感度表示爲:p(x=1|y=1)=0.8 ,事實上,癌症在人羣中的發病率爲 0.004,即 p(y=1)=0.004 ,這個是前驗概率,prior probability。忽略先驗信息而想當然的認爲檢測陽性後就有80%的可能會患癌症,叫做基數謬誤,base rate fallacy,而false positive or false alarm,即診斷錯誤的概率,沒有癌症但是檢測爲陽性,概率爲 p(x=1|y=0)=0.1

利用上面的信息和貝葉斯規則,就可推斷出正確的答案了,即檢測爲陽性的情況下,實際也是的癌症的概率爲

p(y=1|x=1)=p(x=1|y=1)p(y=1)/p(x=1)=0.80.004/0.1028=0.031
其中分母,
p(x=1)=p(x=1|y=1)p(y=1)+p(x=1|y=0)p(y=0)=0.80.004+0.10.996=0.1028

2.2.3.2 Example: Generative classifiers

  • 生成分類器(generative classifier)
    • 因爲我們用到了class-conditional density p(x|y=c) 和 先驗 prior p(y=c)
  • 判別分類器(discriminative classifier),直接判別

2.2.4 Independence and conditional independence 獨立和條件獨立

X, Y 是無條件獨立 unconditional independent 或者 marginally independent ,用 XY 表示,如下:

XYp(X,Y)=p(X)p(Y)
如果聯合概率可以寫成邊緣概率的乘積,那麼這兩個隨機變量是互斥的(mutually exclusive)

現實中無條件獨立很少見,條件獨立更常見 

XY|Zp(X,Y|Z)=p(X|Z)p(Y|Z)
原文如下:X and Y are conditionally independent given Z iff the conditional joint can be written as a product of conditional marginals
此外,圖模型中也有解釋,見chapter 10

Theorem 2.2.1

XY|Z 當且僅當存在函數 g,h 使得 p(x,y|z)=g(x,z)h(y,z)

Conditional Independent 能讓我們一點點建立大概率模型,樸素貝葉斯,馬爾科夫模型,圖模型中均有應用。

2.2.5 Continuous random variables 連續隨機變量

連續隨機變量X取值在區間 [a,b] 內,aXb ,定義事件 A=(Xa) 和事件 B=(Xb) ,事件 W=(a<Xb) ,那麼事件 BAW 的關係是 B=AW ,即事件 B 包含 AW
可得 p(B)=p(A)+p(W)p(W)=p(B)p(A)

由此定義函數 F(q)p(Xq) 稱爲積累分佈函數(cumulative distribution function, cdf),顯然是單調遞增函數(monotonically increasing function)

p(a<Xb)=F(b)F(a)
定義 F(x) 的導數爲 f(x)=dF(x)dx ,稱爲概率密度函數 probability density function, pdf
反之可以求積分,
F(a<Xb)=baf(x)dx
p(x) 可以大於零,只要求的積分爲 1 就可以了。比如區間長度小於1的均勻分佈(uniform distribution)
Unif(x|a,b)=1baI(axb)

2.2.6 Quantiles 分位數

對任意的 p0<p<1 , 稱 P(X)=pX 爲此分佈的分數位(quantile),比如某分佈有 F(3)=0.5 表示 P(X3)=0.5 ,則 3 就是這個分佈的中值(median)分位數。換句話說,分位數就是取到某概率時的 x 座標值。分佈函數的反函數(或者叫逆函數,inverse function),F1 可以很方便地表示分數位。

思考,爲什麼區間 [μ1.96σ,μ+1.96σ] 佔據了高斯分佈中 95% 的數據?

2.2.7 Mean and variance 均值和方差

平均數(Mean)定義如下:

離散隨機變量:E(x)xXx p(x)

連續隨機變量:E(x)xXx p(x) dx

方差定義如下:

var[X]E[(Xμ)2]=E[X2]μ2

2.3 Some common discrete distributions 常見的離散分佈

2.3.1 The binomial and Bernoulli distributions 二項分佈和伯努利分佈

考慮扔硬幣問題,假如扔 n 次硬幣,那麼正面朝上的次數定義爲隨機變量 X ,顯然有 X{0,...,n} ,若正面朝上的概率爲 θ 的話,那麼可以說 X 符合二項分佈,寫作 XBin(n,θ) ,pmf(概率質量函數)爲:

Bin(k|n,θ)Cknθk(1θ)nk

上面的組合數稱爲二項係數(binomial coefficient),二項分佈的期望爲 nθ ,方差爲 nθ(1θ)

假如只扔一次硬幣,那麼 X{0,1} ,那麼隨機變量 X 是符合伯努利分佈的,寫作 XBer(x|θ) ,pmf(概率質量函數)爲:

Ber(x|θ)=θI(x=1)(1θ)I(x=0)
或者寫做
Ber(x|θ)={θ1θif x=1if x=0

所以,伯努利分佈只是二項分佈的一種特殊情況。

2.3.2 The multinomial and numtinoulli distributions 多項式分佈和多努利分佈

多項式分佈可以對一個 K 面的篩子(K-side die)建模,定義隨機向量 x=(x1,...,xK) ,其中 xj 表示投擲 n 次篩子時第 j 面出現的次數。要計算隨機向量出現的概率,這應該是一個有放回的組合問題,概率質量函數如下:

Mu(x|n,θ)(nx1,...,xK)j=1Kθxjj
係數中的組合數稱作是多項式係數,定義爲:
(nx1,...,xK)n!xx!x2!xK!

n=1 ,意味着只投擲一次篩子,此時隨機向量 x 就是一堆的 0 和一個 1 而已,稱作是 one-hot encoding,可寫作 x=[I(x=1),...,I(x=K)] ,概率質量函數 pmf 爲:

Mu(x|1,θ)=j=1KθI(xj=1)j

這個分佈有三種叫法:
1. categorical distributionor
2. discrete distribution
3. multinoulli distribution

當然也有專門的符號表示:

Cat(x|θ)Mu(x|1,θ)

2.3.2.1 Application: DNA sequence motifs

這個例子沒太看懂要做啥,不太重要吧?

2.3.3 The Poisson distribution 泊松分佈

給定離散隨機變量 X{0,1,2,...} , 定義泊松分佈的 pmf 爲:

Poi(x|λ)=eλλxx!

第一項是歸一化係數,爲了保證整個分佈的和爲 1 ,其中參數 λ>0

2.3.4 The empirical distribution 經驗分佈

經驗分佈又叫經驗測量(empirical measure),給定一組數據 D={x1,...,xN} ,我們想統計一下里面有多少數據是在集合 A 中的,按照下面的公式計算:

pemp(A)1Ni=1Nδxi(A)
其中 δx(A) 叫做狄拉克測度(Dirac measure),定義爲
δx(A)={01if xAif xA

廣義上可以將每個樣本關聯一個權重,那麼有:
p(x)=i=1Nwiδxi(x)
其中要求 0wi1 and Ni=1wi=1

然而翻了一下網上對經驗分佈的解釋,一般表述爲,把樣本集中的所有樣本按照從小到大的順序排序,計算其積累分佈,就得到了經驗分佈。

Pˆ(X=x)=1ni=1nI(xix)

2.4 Some commom continuous distributions

下面提到的連續分佈都是一維的概率分佈(univariate(one-dimensional) continuous probability distributions)

2.4.1 Gaussian (normal) distribution 高斯分佈

統計學和機器學習中最常用的應該就是高斯分佈了,其概率密度函數(pdf)公式如下:

N(x|μ,σ2)12πσ2e12σ2(xμ)2

其中,參數 μ=E[X] 表示平均數,σ2=var[X] 表示方差,2πσ2 表示歸一化的常數,保證密度的積分爲 1 。可以用 XN(μ,σ2) 來表示 p(X=x)N(μ,σ2) 。一般用 XN(0,1) 表示 X 服從標準高斯分佈(standard normal distribution)

定義 λ=1σ2 爲高斯的精密度,和方差意思相對。高的精密度意味着小方差,數據會集中在均值附近。

高斯分佈的積累分佈函數(cdf)爲概率密度函數(pdf)的積分:

Φ(x;μ,σ2)xN(z|μ,σ2)dz

可以用誤差函數 error function (erf) 來計算,

Φ(x;μ,σ)=12[1+erf(z2)]

其中 z=(xμ)σerf(x)2πx0et2

高斯分佈之所以在統計學中應用如此之廣泛,除了其兩個參數很有解釋(interpret)之外,而且很適合拿來給殘差(residual error)或者說噪音(error)建模等諸多原因。

2.4.2 Degenerate pdf 退化的概率密度函數

限制 σ20 ,高斯分佈的函數圖像變成了一個無限高,無限瘦,以 μ 爲中心的脈衝:

limσ20N(x|μ,σ2)=δ(xμ)
這裏的 δ 稱作是 Dirac delta function,定義爲:
δ(x)={0if x=0if x0
同時保持在實數域上的積分爲 1

δ 函數可以拿來做篩選,信號與系統中常用到,如:f(x)δ(xμ)dx=f(μ)


然而高斯分佈一般會對異常值(outliers,離羣值)很敏感,因爲 log-probability 只是二次衰減。一個更魯棒的分佈是 Student t distribution,pdf 定義如下:

T(x|μ,σ2,ν)[1+1ν(xμσ)2](ν+12)
其中 μ 是均值,要滿足 ν>1 纔有意義。σ2>0 爲放縮參數(scale parameter),ν>0 爲自由度(degrees of freedom),t 分佈的方差是 var = νσ2ν2 ,但是方差要在 ν>2 的條件下才有意義。

圖 Figure 2.8 展示了異常值(outliers)對高斯分佈影響很大,但是對 T 分佈和拉普拉斯分佈影響較小。

若取 ν=1 ,那麼此時稱爲是 柯西或者洛倫茲分佈(Cauchy or Lorentz distribution),一般取 ν=4 ,T 分佈會取得很好的效果,當 ν5 時,學生分佈會快速接近高斯分佈,失去其魯棒性的性質。

2.4.3 The Laplace distribution 拉普拉斯分佈

拉普拉斯分佈有很重的尾巴(with heavy tails),又稱作是 雙邊指數分佈(double sided exponential distribution),pdf 如下:

Lap(x|μ,b)12bexp(|xμ|b)
均值爲 μ ,方差爲 2b2 ,拉普拉斯分佈的概率密度在均值處更集中,瑰麗模型的稀疏性。

2.4.4 The gamma distribution 伽馬分佈

伽馬分佈的變量爲正實數,有兩個參數來定義,a>0 決定形狀(shape),b>0 決定比率(rate),

Ga(T|shape=a,rate=b)baΓ(a)Ta1eTb
其中 Γ(a) 是伽馬函數,
Γ(x)0ux1eudu
伽馬分佈下列的性質,均值 a/b ,方差 a/b2

伽馬分佈的一些特殊情況:
1. Exponential distribution    Expon(x|λ)Ga(x|1,λ)
2. Erlang distribution 和伽馬分佈相同,只是 a 要求爲整數,一般固定爲 2
3. Chi-squared distribution    X2(x|ν)Ga(x|ν2,12)

XGa(a,b) ,那麼有 1XIG(a,b) ,其中 IG 爲逆伽馬分佈(Inverse Gamma)其性質略。

2.4.5 The Beta distribution 貝塔分佈

定義如下:

Beta(x|a,b)=1B(a,b)xa1(1x)b1
其中 B(a,b) 爲貝塔函數 B(a,b)Γ(a)Γ(b)Γ(a+b)a,b>0 時分佈是可積分的,a=b=1 時爲均勻分佈,若 a,b<1 時,可以得到雙峯分佈;若a,b>1 時,可以得到單峯分佈。貝塔分佈的性質如下:
mean=aa+b,mode=a1a+b2,var=ab(a+b)2(a+b+1)

2.4.6 Pareto distribution 柏拉圖分佈

柏拉圖分佈側重對數據長長的“尾巴”建模,pdf 如下:

Pareto(x|k,m)=kmkx(k+1)I(xm)

2.5 Joint probability distributions 聯合概率分佈

前面講的都是一元概率分佈(univariate probability distributions),下面拓展到聯合概率分佈上(Joint probability distributions)。

向量 p=(x1,...,xD)D>0 個向量,聯合概率分佈可以對這些變量之間的相互關係進行建模。如果所有的變量都是離散的,那麼可以用多維矩陣來表示此聯合分佈,每個維度對應一個隨機變量。
實際中,我們可以做隨機變量之間的條件獨立性來減少參數的個數。
對於連續分佈,可以顯示概率密度函數爲確定的泛函的形式。

2.5.1 Covariance and correlation 協方差和相關性

兩個隨機變量 XY 的協方差(covariance)可以衡量 XY 的相關程度。定義如下:

cov[X,Y]  E[(XE[X])(YE(Y))]=E[XY]E[X]E[Y]

引申到 d 維的隨機向量 x ,可以定義協方差矩陣(covariance matrix)爲下列的對稱的,正定的矩陣(symmetric, positive definite matrix):

cov[x]  E[(xE(x))(xE(x))T]=var[X1]cov[X2,X1]cov[Xd,X1]cov[X1,X2]var[X2]cov[Xd,X2]cov[X1,Xd]cov[X2,Xd]var[Xd]
  • 隨機變量的協方差矩陣 Σ 是對稱矩陣和半正定矩陣
  • 作爲實對稱矩陣,其主要性質之一就是可以正交對角化,即存在正交矩陣U,使得 UTΣU=Λ
  • 作爲半正定矩陣,我們可以對協方差矩陣進行Cholesky分解:半正定矩陣 Σ ,可以分解爲Σ=UTΛU ,其中U 是上三角陣,Λ 是對角線元素都非負的對角矩陣。所以 Σ=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
    這樣一來,矩陣Σ=CTC ,其中C=Λ1/2U

因爲協方差的取值在 0 到正無窮之間,所以有時候需要做歸一化處理,於是引申出了相關係數(Pearson correlation coefficient)的概念,公式如下:

corr[X,Y]cov[X,Y]var[X]var[Y]
相應的,相關性矩陣可寫作下列的形式:
R=corr[X1,X1]corr[Xd,X1]corr[X1,X2]corr[Xd,X2]corr[X1,Xd]corr[Xd,Xd]

R 的取值在 [1,1] 之間,矩陣中的對角項都是同一個隨機變量,因此相關係數爲 1 ,而事實上,相關係數爲 1 的充要條件是兩個隨機變量線性相關。如可以用相應的兩個實數 a,b 聯繫起來:Y=aX+b

若隨機變量 X,Y 相互獨立(independent),意味着有 p(X,Y)=P(X)p(Y) 那麼有 cov(X,Y)=0 ,因此相關係數爲 0 可以表示兩者不相關。然而反過來,不相關並不意味着兩者一定要獨立。(uncorrelated does not imply independent)

所以相關係數這鬼東西就沒啥用嘍!

2.5.2 The multivariate Gaussian 多元高斯

多元高斯(Multivariate Gaussian, Multivariate Normal, MVN)是對連續變量最常用的聯合概率密度函數。D 維的 MVN 的概率密度函數定義如下:

N(x|μ,Σ)1(2π)D/2|Σ|1/2exp[12(xμ)TΣ1(xμ)]
其中 μ=E[x]RD 爲均值向量,Σ=cov[x]D×D 維的協方差矩陣。或者叫 precision matrix or concentration matrix. 又有符號 Λ=Σ1 .

2.5.3 Multivariate Student t distribution 多元 t 分佈

公式太長了且不常用,略。

2.5.4 Dirichlet distribution 狄利克雷分佈

貝塔分佈(Beta distribution)的多元推廣版本,稱爲狄利克雷分佈,且分佈符合概率單純型的定義。(即該分佈中的任意兩點的運算,仍然落在該概率分佈中,因此是凸集,且限定凸集的形狀爲單純型)。

概率密度函數 pdf 爲:

Dir(x|α)1B(α)k=1Kxαk1kI(xSK)
集合 SK 定義爲:
SK={x:0xk1,k=1Kxk=1}
B(α1,...,αK) 是貝塔函數的 K 變量問題的自然推廣,
B(α)Kk=1Γ(αk)Γ(α0)
其中,變量 α0Kk=1αk 控制了強度的分佈(controls the strength of the distribution or how peaked it is),通俗點說,就是哪裏會冒尖,哪裏會平坦。

狄利克雷分佈的一些性質如下:

E[xk]=αkα0, mode[xk]=αk1α0K, var[xk]=αk(α0αk)α20(α01)
其中,α0=kαk ,通常增大 α 會降低方差。

2.6 Tranformations of random variables 隨機變量的變換

即已知隨機變量 x 滿足 xp() ,求 y=f(x) 的分佈。

2.6.1 Linear transformations 線性變換

假設 f(x) 爲線性函數,y=f(x) ,那麼 y 的均值爲

E[y]=E[Ax+b]=Aμ+b
方差爲:
cov[y]=cov[Ax+b]=AΣAT

2.6.2 General transformations 一般的變換

X 是離散的隨機變量,概率密度函數可以通過把所有的 y 加起來得到,即

py(y)=x:f(x)=ypx(x)
其中,px(x)x 的概率質量函數。

X 是連續的隨機變量,考慮對應 Y 的積累分佈函數(cdf),

Py(y)P(Yy)=P(f(X)y)=P(X{x|f(x)y})
所以可以通過對此函數求導數得到概率密度函數(derive the pdf of y by differentiating the cdf),要求解上述公式,還要進一步限定 y=f(x) 是單調的(monotonic),因此也是可逆的。故可以進一步得到:
Py(y)=P(f(X)y)=P(Xf1(y))=Px(f1(y))

求概率密度函數,可以通過求導數得到,帶入上式的結果可得:
py(y)ddyPy(y)=ddyPx(f1(y))=dxdyddxPx(x)=dxdypx(x)

2.6.2.1 Multivariate change of variables *

上述問題的多元推廣,這裏先引入雅各比矩陣(Jacobian matrix)的概念,定義函數 f:RnRn ,令 y=f(x) ,那麼雅各比矩陣爲:

Jxy(y1,...,yn)(x1,...,xn)y1x1ynx1y1xnynxn

上小節的結論推廣如下:

py(y)=px(x) | det(xy) |=px(x) | det Jyx |
其中 det Jyx 表示單位 n 維封閉空間在應用函數 f 後面積的改變大小。

2.6.3 Central limit theorem 中心極限定理

首先,中心極限定理很神奇。其次,上面講的隨機變量的變換,其實是爲了這個定理做的鋪墊。(Really? I doublt that.)問題描述如下,假設有一組的獨立同分布(independent and identically distributed, iid)的樣本數據,其均值和方差分別是 μσ2 ,那麼可以定義求和函數 SN=Ni=1Xi ,其實是原隨機變量的變換,但是這個得到的新隨機變量,是逐漸逼近高斯分佈的。注意這裏的 X 的分佈是沒有限制的,可以是任意分佈,只要所有數據符合獨立同分布即可。概率密度函數如下:

p(SN=s)=12πNσ2exp((sNμ)22Nσ2)

也可以在此基礎上做歸一化,有

ZNSNNμσN=X¯¯¯μσ/N  N(0,1)
ZN 是符合標準的高斯分佈的。通俗點說就是,符合任意分佈的數據,多次採樣的和構成的分佈是符合高斯分佈的。

這些就是中心極限定理的內容。中心極限定理在概率統計裏非常重要,是概率論中的非正式首席定理,也是後續很多理論的基石。可以參考《正態分佈的前世今生》這篇科普短文。

2.7 Monte Carlo approximation 蒙特卡洛近似

一般來說,用 the change of variables formula 來計算某隨機變量函數的分佈是很困難的,因此要採取求近似解的方法,如蒙特卡羅模擬。首先,我們從要求的分佈中採樣(比如用馬爾可夫鏈蒙特卡洛方法,Markov chain Monte Carlo or MCMC),這 S 個樣本爲 x1,...,xS ,而 f(X) 的分佈就可以用經驗分佈 {f(xs)}Ss=1 來估計(approximation)。要求均值的話,也可以近似出來,

E[f(X)]=f(x)p(x)dx1Ss=1Sf(xs)
其中 xsp(X) ,而上面的方法就稱爲蒙特卡洛積分法(Monte Carlo integration)

下面的結論也成立:

  • x¯=1SSs=1xsE[X]
  • 1SSs=1(xsx¯)2E[X]
  • 1S#{xsc}=P(Xc)
  • median{x1,...,xS}=median(X)

2.7.1 Example: change of variables, the MC way

已知均勻分佈:xUnif(1,1)y=f(x)=x2 ,那麼求 y 的分佈。

2.7.2 Example: estimating π by Monte Carlo integration

用蒙特卡洛積分來估計 π 的值,直接計算下列的定積分,

I=rrrrI(x2+y2r2)dxdy

故可得 π=I/r2 ,後統計隨機點 (xs,ys) 的出現的概率爲 p(xs,ys) ,可以近似的算出 π 的值。

2.7.3 Accuracy of Monte Carlo approximation

蒙特卡洛近似的準確率取決於樣本的大小,因爲誤差是隨着樣本容量的增大而逐漸逼近高斯分佈的。即

(μˆμ)N(0,σ2S)
其中,μˆ,S 是樣本中的均值和樣本大小,μ,σ2 是實際的均值和方差。

當然,實際的方差 σ2 也是不知道的,也要通過蒙特卡洛的方法來估計,

σˆ2=1Ss=1S(f(xs)μˆ)2

要深刻理解蒙特卡洛的方法不簡單,因爲其方法要求的數學知識太多,可以參考《LDA數學八卦》這篇都科普短文,當然我們後面章節還會再次提到。

2.8 Information theory 信息理論

信息理論做的事,基本就是用緊湊的方式表示數據,或者叫數據壓縮(data compression)或者信源編碼(source coding),使得數據在傳輸的時候能保持很好的容錯性。

2.8.1 Entropy 熵

隨機變量 X 的熵可以用來表示其不確定性,定義如下:

H(X)k=1Kpklog2pk
當然,這個是離散的隨機變量的熵的定義,K 表示總的狀態數。一般基底取值爲 2 ,所以熵的單位是 bits;若是去自然底數 e ,那麼但是可以稱作是 nats.

從熵的定義中很容易得到推論,令熵最大(爲 log2K )的分佈是均勻分佈的,此時不確定性最大;相反,可以令熵最小(爲零)的分佈是 一個脈衝,delta function,此時不確定性爲0,即完全100%地確定。

我們可以通過伯努利分佈的例子來探究一下熵的直觀意義。已知 p(X=1)=θ ,那麼熵爲:

H(X)=[p(X=1)log2p(X=1)+p(X=0)log2p(X=0)]=[θlog2θ+(1θ)log2(1θ)]

從插圖 Figure 2.21 中可以看到熵最大最小的情況。

有時候,我們會把方差和熵拿來做一個比較,因爲這兩個量都可以衡量數據的分佈情況,且看起來負相關。然而方差側重的是數據的離散程度,和隨機變量的取值有關;而熵則只關注數據的分佈,和數據本身的取值無關,這點也表現在熵的定義上面。

2.8.1-2 cross-entropy 交叉熵

離散的信息熵有時候可以解釋爲編碼數據集需要的比特數的期望值,如對於數據集 D={A,B,C,D} 的一個分佈 p={12,12,0,0} ,熵 H(p)=4j=1pilogpi=1 ,即只需要一個比特就可以編碼這個分佈。

假如我們的得到了一個錯誤的分佈 q={14,14,14,14} ,我們可以用 q 來編碼分佈 p ,可以這樣來計算熵,H(p,q)=4j=1pilogqi=2 ,即用錯誤的分佈來編碼原來的分佈,需要兩個比特位才能滿足,即四個字母都要編碼進去。

上面這種計算兩個分佈的熵的形式,就是交叉熵的概念,

H(p,q)kpklogqk
注意這裏 p 是原分佈,q 是錯誤的分佈,順序不可以調換。

2.8.2 KL divergence 離散度

KL散度,Kullback-Leibler divergence,或者叫相對熵(relative entropy),定義如下:

KL(p||q)k=1Kpklogpkqk
也可以展開寫,
KL(p||q)=kpklog1qkkpklog1pk=H(p,q)H(p)

可以發現離散度就是交叉熵減去原來的熵,且總是非負的。

Theorem 2.8.1. (Information inequality)    KL(p||q)0 with equality iff p=q

信息不等式表示,當且僅當兩個分佈是相同的,相對熵才爲零。不等式的正確性可以用琴生不等式證明。

2.8.3 Mutual information 互信息

考慮兩個離散的隨機變量 X,Y ,定義如下:

I(X;Y)KL(p(X,Y)||p(X)p(Y))=xyp(x,y)logp(x,y)p(x)p(y)

恆有 I(X,Y)0 成立,當且僅當滿足 p(X,Y)=p(X)p(Y) 時等號成立。即只有變量獨立時,互信息才爲零。

把互信息寫成聯合熵和條件熵的形式:

I(X;Y)=H(X)H(X|Y)=H(Y)H(Y|X)
其中 H(Y|X) 爲條件熵(conditional entropy),H(Y|X)=xp(x)H(Y|X=x)

另外有衡量點對點之間的互信息(pointwise mutual information, PMI),定義爲在兩個事件中,

PMI(x,y)logp(x,y)p(x)p(y)=logp(x|y)p(x)=logp(y|x)p(y)

2.8.3.1 Mutual information for continuous random variables

略~

發佈了85 篇原創文章 · 獲贊 138 · 訪問量 40萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章