本系列爲《模式識別與機器學習》的讀書筆記。

一，二元變量

1，二項分佈

考慮⼀個⼆元隨機變量 $x \in \{0, 1\}$ 。例如， $x$ 可能描述了扔硬幣的結果， $x = 1$ 表⽰“正⾯”， $x = 0$ 表⽰反⾯。我們可以假設有⼀個損壞的硬幣，這枚硬幣正⾯朝上的概率未必等於反⾯朝上的概率。 $x = 1$ 的概率被記作參數 $\mu$ ，因此有：
$p(x=1|\mu) = \mu\tag{2.1}$
其中 $0\le \mu\le 1$ 。 $x$ 的概率分佈因此可以寫成：
$\text {Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}\tag{2.2}$
這被叫做伯努利分佈（Bernoulli distribution）。容易證明，這個分佈是歸⼀化的，並且均值和⽅差分別爲：
$\mathbb{E}[x] = \mu\tag{2.3}$

$\text{var}[x] = \mu(1-\mu)\tag{2.4}$

如圖 2.1：⼆項分佈關於 $m$ 的函數的直⽅圖，其中 $N = 10$ 且 $\mu = 0.25$ 。

假設我們有⼀個 $x$ 的觀測值的數據集 $\mathcal{D} = \{x_1 ,\dots, x_N\}$ 。假設每次觀測都是獨⽴地從 $p(x | \mu)$ 中抽取的，因此可以構造關於 $\mu$ 的似然函數：
$p(\mathcal{D}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\tag{2.5}$
其對數似然函數：
$\ln p(\mathcal{D}|\mu) = \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x^n \ln \mu + (1-x^n) \ln (1-\mu)\}\tag{2.6}$
在公式(2.6)中，令 $\ln p(\mathcal{D}|\mu)$ 關於 $\mu$ 的導數等於零，就得到了最⼤似然的估計值，也被稱爲樣本均值（sample mean）：
$\mu_{ML} = \frac{1}{N} \sum_{n=1}^{N} x_{n}\tag{2.7}$
求解給定數據集規模 $N$ 的條件下， $x = 1$ 的觀測出現的數量 $m$ 的概率分佈。這被稱爲⼆項分佈 （binomial distribution）：
$\text {Bin}(m|N, \mu) = \dbinom{N}{m} \mu^{m}(1-\mu)^{N-m}\tag{2.8}$
其中，
$\dbinom{N}{m} = \frac{N!}{(N-m)!m!}\tag{2.9}$
二項分佈 的均值和⽅差分別爲：
$\mathbb{E}[m] = \sum_{m=0}^{N} \text{Bin}(m|N, \mu) = N\mu\tag{2.10}$

$\text{var}[m] = \sum_{m=0}^{N} (m-\mathbb{E}[m])^{2} \text{Bin}(m|N, \mu) = N\mu(1-\mu)\tag{2.11}$

2，`Beta`分佈

首先，Gamma函數的定義爲：
$\Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u\tag{2.12}$
Gamma函數具有如下性質：

1） $\Gamma(x+1) = x \Gamma(x)$
2） $\Gamma(1)=1$
3）當 $n$ 爲整數時， $\Gamma(n+1) = n!$

如果我們選擇⼀個正⽐於 $\mu$ 和 $(1 − \mu)$ 的冪指數的先驗概率分佈，那麼後驗概率分佈（正⽐於先驗和似然函數的乘積）就會有着與先驗分佈相同的函數形式。這個性質被叫做共軛性（conjugacy）。
先驗分佈選擇**Beta分佈定義爲：
$\text {Beta}(\mu | a,b) = \frac{\Gamma{(a+b)}}{\Gamma{(a)}\Gamma{(b)}} \mu^{(a-1)}(1-\mu)^{(b-1)}\tag{2.13}$
其中參數 $a$ 和 $b$ 經常被稱爲超參數**（hyperparameter），均值和⽅差分別爲：
$\mathbb{E}[\mu] = \frac{a}{a+b}\tag{2.14}$

$\text{var}[\mu] = \frac{ab}{(a+b)^{2}(a+b+1)}\tag{2.15}$

把Beta先驗與⼆項似然函數相乘，然後歸⼀化。只保留依賴於 $\mu$ 的因⼦，從而得到後驗概率分佈的形式爲：
$p(\mu | m, l, a,b) = \frac{\Gamma{(m+a+l+b)}}{\Gamma{(m+a)}\Gamma{(l+b)}} \mu^{(m+a-1)}(1-\mu)^{(l+b-1)}\tag{2.16}$
其中 $l = N − m$ 。

如圖2.2～2.5：對於不同的超參數 $a$ 和 $b$ ，公式(2.13)給出的Beta分佈 $\text{Beta}(\mu | a, b)$ 關於 $\mu$ 的函數圖像。

貝葉斯學習過程存在⼀個共有的屬性：隨着我們觀測到越來越多的數據，後驗概率表⽰的不確定性將會持續下降。

爲了說明這⼀點，我們可以⽤頻率學家的觀點考慮貝葉斯學習問題。考慮⼀個⼀般的貝葉斯推斷問題，參數爲 $\boldsymbol {\theta}$ ，並且我們觀測到了⼀個數據集 $\mathcal{D}$ ，由聯合概率分佈 $p(\boldsymbol {\theta}, \mathcal{D})$ 描述，有：
$\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \mathbb{E}_{\mathcal{D}}[\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]]\tag{2.17}$
其中，
$\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \int p(\boldsymbol {\theta}) \boldsymbol {\theta} \mathrm{d} \boldsymbol {\theta}\tag{2.18}$

$\mathbb{E}_{\mathcal{D}}[\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]] = \int \left \{ \int \boldsymbol {\theta}p(\boldsymbol {\theta}|\mathcal{D}) \mathrm{d} \boldsymbol {\theta} \right \} p(\mathcal{D})\mathrm{d} \mathcal{D}\tag{2.19}$

方差，
$\text{var}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \mathbb{E}_{\mathcal{D}}[\text{var}[\boldsymbol {\theta}|\mathcal{D}]] + \text{var}_{\mathcal{D}} [\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]]\tag{2.20}$

二，多項式變量

1，多項式分佈

“1-of-K ”表⽰法 ：變量被表⽰成⼀個 $K$ 維向量 $\boldsymbol{x}$ ，向量中的⼀個元素 $x_k$ 等於1，剩餘的元素等於0。注意，這樣的向量 $\boldsymbol{x}$ 滿足 $\sum_{k=1}^{K} x_k = 1$ ，如果我們⽤參數 $\mu_k$ 表⽰ $x_k = 1$ 的概率，那麼 $\boldsymbol{x}$ 的分佈：
$p(\boldsymbol{x}|\boldsymbol{\mu}) = \prod_{k=1}^{K} \mu_{k}^{x_k}\tag{2.21}$
其中 $\boldsymbol{\mu} = (\mu_1 ,\dots, \mu_K)^T$ ，參數 $\mu_k$ 要滿⾜ $\mu_k \ge 0$ 和 $\sum_{k} \mu_k = 1$ 。

容易看出，這個分佈是歸⼀化的：
$\sum_{\boldsymbol {x}}p(\boldsymbol{x} | \boldsymbol{\mu}) = \sum_{k=1}^{K} \mu_k = 1\tag{2.22}$
並且，
$\mathbb{E}[\boldsymbol{x}|\boldsymbol{\mu}] = \sum_{\boldsymbol {x}}p(\boldsymbol{x} | \boldsymbol{\mu}) \boldsymbol{x} = (\mu_1 ,\dots, \mu_K)^T = \boldsymbol {\mu}\tag{2.23}$
現在考慮⼀個有 $N$ 個獨⽴觀測值 $\boldsymbol {x}_1 ,\dots, \boldsymbol {x}_N$ 的數據集 $\mathcal{D}$ 。對應的似然函數的形式爲：
$p(\mathcal{D}|\boldsymbol{\mu}) = \prod_{n=1}^{N} \prod_{k=1}^{K} \mu_{k}^{x_{nk}} = \prod_{k=1}^{K} \mu_{k}^{(\sum_{n}x_{nk})} = \prod_{k=1}^{K} \mu_{k}^{m_k}\tag{2.24}$

看到似然函數對於 $N$ 個數據點的依賴只是通過 $K$ 個下⾯形式的量：
$m_k = \sum_{n}x_{nk}\tag{2.25}$

它表⽰觀測到 $x_k = 1$ 的次數。這被稱爲這個分佈的充分統計量（sufficient statistics）。

通過拉格朗⽇乘數法容易求得最大似然函數：
$\mu_k^{ML} = \frac{m_k}{N}\tag{2.26}$
考慮 $m_1 ,\dots , m_K$ 在參數 $\boldsymbol{\mu}$ 和觀測總數 $N$ 條件下的聯合分佈。根據公式(2.24)，這個分佈的形式爲：
$\text{Mult}(m_1 ,\dots , m_K | \boldsymbol{\mu}, N) = \dbinom{N}{m_1 \dots m_K}\prod_{k=1}^{K} \mu_{k}^{m_k}\tag{2.27}$
這被稱爲多項式分佈（multinomial distribution）。歸⼀化係數是把 $N$ 個物體分成⼤⼩爲 $m_1 ,\dots , m_K$ 的 $K$ 組的⽅案總數，定義爲：
$\dbinom{N}{m_1 \dots m_K} = \frac{N!}{m_1!m_2! \dots m_K!}\tag{2.28}$
其中， $m_k$ 滿足以下限制 $\sum_{k=1}^{K} m_k = N$ 。

2，狄利克雷分佈

狄利克雷分佈（Dirichlet distribution）或多元Beta分佈（multivariate Beta distribution）是一類在實數域以正單純形（standard simplex）爲支撐集（support）的高維連續概率分佈，是 Beta分佈 在高維情形的推廣。狄利克雷分佈是指數族分佈之一，也是劉維爾分佈（Liouville distribution）的特殊形式，將狄利克雷分佈的解析形式進行推廣可以得到廣義狄利克雷分佈（generalized Dirichlet distribution）和組合狄利克雷分佈（Grouped Dirichlet distribution）。

狄利克雷分佈概率的歸⼀化形式爲：
$\text{Dir}(\boldsymbol{\mu}|\boldsymbol{\alpha}) = \frac{\Gamma{(\alpha_{0})}}{\Gamma{(\alpha_{1})} \dots \Gamma{(\alpha_{K})}} \prod_{k=1}^{K}\mu_{k}^{\alpha_{k-1}}\tag{2.29}$
其中， $\alpha_{0}=\sum_{k=1}^{K} \alpha_{k}$ 。