LDA主題模型之基礎數學知識

二項分佈和Beta分佈

二項分佈

隨機變量 $X$ 服從二項分佈，寫作 $X \sim B i n (n, p)$ ，它的概率質量函數爲：

P (X = k) = (\binom{n}{k}) p^{k} (1 - p)^{n - k}

例如有一位NBA球員，他的命中率是0.55，現在他投了6次，那麼他命中2次的概率是 $(\binom{6}{2}) {0.55}^{2} (1 - 0.55)^{6 - 2} = 0.19$ 。

Beta分佈

Beta分佈被用來描述概率的概率。

$X \sim B e t a (α, β)$ ：

f (x) = \frac{x^{α - 1} (1 - x)^{β - 1}}{\int_{0}^{1} u^{α - 1} (1 - u)^{β - 1} d u}, x \in [0, 1]

期望 $E (X) = \frac{α}{α + β}$ 。

假如我們這個NBA球員上一賽季的命中率是0.55，我們想預測他當前賽季的命中率。本來命中率就是一個概率，現在我們把它當做自變量，這也就是爲什麼Beta分佈描述的是概率的概率。

現在賽季剛開始，他投了3個球，然後都沒中，如果我們直接預測他的命中率 $p = 0 / 3 = 0$ ，這貌似就有點不太合理了，比較合理的是利用他上一賽季的命中率信息（這在統計學中也叫做先驗）。

這裏就可以用到Beta分佈了，設 $α = 55, β = 45$ ，求得期望 $E (X) = 0.55$ ，這樣就用到了他上一賽季的信息，這樣一開始他的命中率大概是0.55。

當他投了3個球，0中，那就是 $α + 0 = 55, β + 3 = 48$ ，求得期望 $E (X) = 0.53$ ，現在就可以預測他的命中率大概是0.53。

當他投了100個球，60中，那就是 $α + 60 = 115, β + 40 = 85$ ，求得期望 $E (X) = 0.575$ ，現在就可以預測他的命中率大概是0.575了。

可以發現，利用了Beta分佈之後，可以隨着比賽進行，不斷更新他的命中率預測。

多項式分佈和Dirichlet分佈

多項式分佈

多項式分佈是二項分佈從二維向多維的拓展， $X \sim M u l (n, p_{1}, p_{2}, . . ., p_{m})$ ：

P (X_{1} = k_{1}, . . ., X_{m} = k_{m}) = \frac{n!}{k_{1}! \dots k_{m}!} p_{1}^{k_{1}} \dots p_{m}^{k_{m}}, \sum_{i = 1}^{m} k_{i} = n

還是那個NBA球員的例子，如果他的投籃命中率是0.55，打鐵率0.25，空炮率0.2（這裏可能女生有點沒概念，打鐵也就是碰到籃筐但沒中，空炮也就是Air Ball，籃筐、籃板、籃網都沒碰到，我們這裏將命中打鐵之外的都當做空炮），他投了6次，那其中2次命中，3次打鐵，1次空炮的概率是： $\frac{6!}{2! \cdot 3! \cdot 1!} \cdot {0.55}^{2} \cdot {0.25}^{3} \cdot {0.2}^{1} = 0.06$ 。

狄利克雷分佈

狄利克雷分佈是Beta分佈從二維向多維的拓展， $X \sim D i r (α_{1}, \dots, α_{m})$ ：

f (x_{1}, \dots, x_{m}) = \frac{\prod_{i = 1}^{m} x_{i}^{α_{i} - 1}}{\int_{0}^{1} \dots \int_{0}^{1} \prod_{i = 1}^{m} u_{i}^{α_{i} - 1} d u_{1} \dots d u_{m}}

其中分母是一個多重積分， $\forall x_{i} \in [0, 1]$ ， $\sum_{i = 1}^{m} x_{i} = 1$ 。

期望 $E (X) = (\frac{α_{1}}{\sum_{i = 1}^{m} α_{i}}, \frac{α_{i}}{\sum_{i = 1}^{m} α_{i}}, \dots, \frac{α_{m}}{\sum_{i = 1}^{m} α_{i}})$ 。

我們可以發現，狄利克雷分佈的概率密度函數是一個多元函數，每個自變量的取值範圍都是[0,1]。

還是以那個NBA球星作爲例子，假設他上一個賽季出手投籃共100次（命中55次，打鐵25次，空炮20次），我們設 $α_{1} = 55, α_{2} = 25, α_{3} = 20$ 。

他投了10次（命中8，打鐵1，空炮1），預測他的命中率，打鐵率，空炮率分別爲：

x_{1} = \frac{55 + 8}{(55 + 8) + (25 + 1) + (20 + 1)} = 0.57 x_{2} = \frac{25 + 1}{(55 + 8) + (25 + 1) + (20 + 1)} = 0.23 x_{3} = \frac{20 + 1}{(55 + 8) + (25 + 1) + (20 + 1)} = 0.20

LDA主題模型之基礎數學知識

二項分佈和Beta分佈

多項式分佈和Dirichlet分佈

Gibbs Sampling

基於遺傳算法的車輛路徑規劃問題

Python中matplotlib畫圖筆記

Holt-Winters指數平滑預測

CentOS7使用快速入門

谷歌OR-Tools解決車輛路徑規劃問題筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結