概率圖模型
感謝B站up主@shuhuai008!
本文是學習他發佈在b站上的概率圖模型視頻的一些筆記。
地址:https://www.bilibili.com/video/av33545406
P1 背景介紹
可以從兩個角度來看概率圖模型,即一個是概率,一個是圖。
要預測其實概率就足夠了,這個圖,其實是一個工具。我們在數據結構中也有圖,但都是比較抽象的;這裏的圖,其實是把原來數據結構中的圖,賦予了概率,把概率嵌進去,使得整個模型更加清晰,也可以進一步構建更高級的模型。
我們先來看看概率這一塊。
概率在建模過程中,其實是對現實問題的一個抽象。我們關注的問題,我們的數據往往是多維的,因此我們在用隨機變量表示問題的時候,就會假設這是一個高維的隨機變量。
也就是說,我們概率模型關注的對象其實就是高維的隨機變量,或者說是它的概率分佈。我們對這個高維隨機變量可以做很多事情,比如求邊緣概率,條件概率。
在進行概率計算的過程中,有兩個很重要基本的法則——加法法則和乘法法則。
- 加法法則 Sum Rule (求和就其實是求積分)
- 乘法法則 Product Rule
引申有鏈式法則,其實就是對上述兩個法則的泛化。
- 鏈式法則 Chain Rule
- 貝葉斯法則 Bayesian Rule
但高維隨機變量的計算有自己的困境:維度高,計算複雜。比如計算量太大。那麼我們就要爭取簡化運算,簡化模型。
怎麼簡化?
第一步,我們可以假設每個維度之間相互獨立。
這樣,我們得到
由此,Chain Rule可以略去了。
一個典型的例子,就是樸素貝葉斯(做分類問題),它其實就是假設維度之間是相互獨立的。
Naive Bayes:
但這種相互獨立性假設是很強的,我們可以適當放寬點。那麼,接下來——
第二步,馬爾可夫性質(Markov Property)。這裏只介紹一階馬爾可夫性質。即在給定當前時刻狀態的情況下,將來與過去是相互獨立的。用數學公式表示,即爲:
。對於一列數,這樣的假設下就只與有關。
典型的例子有HMM,有齊次馬爾可夫假設。以及觀測獨立假設。都是爲了簡化高維下的運算。
但這樣的假設,其實還是太簡單太隨意了。所以我們可以引申出條件獨立性假設。它其實是馬氏性質的一個推廣。數學表示可以寫作:
是變量集合,且不相交。至於集合中到底有幾個,就無所謂的。
有了條件獨立性,我們可以大大簡化聯合概率計算的一個分解。所以條件獨立性,是我們概率模型中一個核心的概念。如果要把概率引申到圖的概念,無論是有向圖還是無向圖,都要表現出條件獨立性;也就是說,條件獨立性的概念要在圖的形式上有所映射。
以上就是我們對高維隨機變量和條件獨立性的介紹。
有向圖又叫貝葉斯網絡,無向圖又叫馬爾可夫網路,我們往往假設是離散的隨機變量。高斯圖是從另一個維度分類的,即連續的隨機變量,且服從高斯。由此,高斯也可以進一步分爲高斯有向(Gaussian BN),和高斯無向(Gaussian MN)。
推斷——給定已知數據的情況下,求一些概率分佈。
學習——概率圖中分爲參數學習(把參數學出來)和結構學習(學習出更好的圖的結構)。