什麼是概率圖模型
概率圖模型是概率論與圖論相結合的產物,爲統計推理和學習提供了一個統一的靈活框架。概率圖模型提供了一個描述框架,使我們能夠將不同領域的知識抽象爲概率模型,將各種應用中的問題都歸結爲計算概率模型裏某些變量的概率分佈,從而將知識表示和推理分離開來。
利用圖模型進行實際問題求解的時候包括兩步:
- 知識表示,概率圖模型的表示建模;
- 將實際問題轉化爲一個推理的問題。
這樣就把知識表示和推理分離開來了。
上圖中的左圖是一個圖,圖中含有節點,有邊,每一個節點表示我們所研究問題的一個變量,變量之間的邊表示:變量局部的依賴關係。右邊所表示的是系統的聯合概率分佈,這個問題包含維變量,每個變量包含個可能的取值。概率圖模型就是在這樣一個圖上定義一個聯合概率分佈,建模完成以後再在這個概率圖模型上進行推理計算。從而解決一些實際的應用問題。
概率圖模型用節點表示變量,節點之間的邊表示局部變量間的概率依賴關係。在概率圖模型的表示框架下,系統的聯合概率分佈表示爲局部變量勢函數的連乘積,該表示框架不僅避免了對複雜系統的聯合概率分佈直接進行建模,而且易於在圖模型建模中引入先驗知識。
2012
年圖靈獎頒給UCLA
的Judea Pearl
教授,獎勵其在貝葉斯網絡上的開創性工作,貝葉斯網絡屬於有向的概率圖模型。消息傳遞是概率圖模型中消息傳遞的一種比較創新的機制。通過消息傳遞可以把全局的概率推理轉化爲圖上的局部變量之間的消息傳遞。能夠大大降低推理的複雜度。
概率圖模型統一了目前廣泛應用的許多統計模型和方法。比如:
- 馬爾可夫隨機場 (
MRF
)一種無向的概率圖模型,在圖像處理,統計物理學上有非常廣泛的應用。 - 條件隨機場(
CRF
),可以應用於NL
P(自然語言處理) - 隱馬爾可夫模型(
HMM
) - 多元高斯模型
Kalman
濾波、粒子濾波、變分推理
這些不同的統計模型和方法都可以納入到概率圖模型這個統一的框架裏面。也就是說上述的方法是特殊的概率圖模型,都可以歸納到概率圖模型的大類裏面。
概率圖模型舉例:
貝葉斯網
貝葉斯網絡(Bayesian network
)又稱信度網絡(belief network
),是Bayes
方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。
如上圖所示,每一個節點表示一個變量,變量可以是任何問題的抽象,如:測試值,觀測現象,意見徵詢等。變量之間的邊用有向的箭頭連接,貝葉斯網絡是一個有向無環圖(Directed Acyclic Graph,DAG
),所以貝葉斯網絡是一種有向的概率圖模型。貝葉斯網絡中可以定義一個聯合概率分佈,具體表示爲每個節點的條件概率連乘積的形式:
適用於表達和分析不確定性和概率性的事件,應用於有條件地依賴多種控制因素的決策,可以從不完全、不精確或不確定的知識或信息中做出推理。
馬爾可夫隨機場
馬爾可夫隨機場(Markov Random Field
)
馬爾可夫隨機場是一種無向的概率圖模型,這個無向的概率圖模型上的聯合概率分佈可以表示成節點勢函數和邊上的勢函數連乘積的形式。
馬爾可夫隨機場是建立在馬爾可夫模型和貝葉斯理論基礎之上的,它包含兩層意思:一是什麼是馬爾可夫,二是什麼是隨機場。
馬爾可夫性質:它指的是一個隨機變量序列按時間先後關係依次排開的時候,第N+1時刻的分佈特性,與N時刻以前的隨機變量的取值無關。拿天氣來打個比方。如果我們假定天氣是馬爾可夫的,其意思就是我們假設今天的天氣僅僅與昨天的天氣存在概率上的關聯,而與前天及前天以前的天氣沒有關係。其它如傳染病和謠言的傳播規律,就是馬爾可夫的。
隨機場:當給每一個位置中按照某種分佈隨機賦予相空間的一個值之後,其全體就叫做隨機場。我們不妨拿種地來打個比方。其中有兩個概念:位置(site),相空間(phase space)。“位置”好比是一畝畝農田;“相空間”好比是種的各種莊稼。我們可以給不同的地種上不同的莊稼,這就好比給隨機場的每個“位置”,賦予相空間裏不同的值。所以,俗氣點說,隨機場就是在哪塊地裏種什麼莊稼的事情。
馬爾可夫隨機場:馬爾科夫隨機場是具有馬爾科夫特性的隨機拿種地打比方,如果任何一塊地裏種的莊稼的種類僅僅與它鄰近的地裏種的莊稼的種類有關,與其它地方的莊稼的種類無關,那麼這些地裏種的莊稼的集合,就是一個馬爾可夫隨機場。
因子圖
將一個具有多變量的全局函數因子分解,得到幾個局部函數的乘積,以此爲基礎得到的一個雙向圖叫做因子圖。在概率論及其應用中, 因子圖是一個在貝葉斯推理中得到廣泛應用的模型。
因子圖和之前兩類圖模型有一定的區別,因子圖中包含兩類節點,第一類是下圖所示的圓圈節點,代表的是一個變量,第二個是下圖所示的方塊,代表圖模型的因子。變量和因子之間的連線表示這個因子包含的變量有哪些。在因子圖中因子的聯合概率分佈可以表示爲變量的連乘積的形式。
概率圖模型發展歷程
-
歷史上,曾經有來自不同學科的學者嘗試使用圖的形式表示高維分佈的變量間的依賴關係 。
-
在人工智能領域,概率方法始於構造專家系統的早期嘗試 。
-
到 20 世紀 80 年代末,在貝葉斯網絡和一般的概率圖模型中的推理取得重要進展。
1988
年,人工智能領域著名學者Pearl
提出了信念傳播(Belief Propagation, BP
)算法(與深度學習中的反向傳播算法是完全不同的算法),BP
算法是一種推理算法,把全局的概率推理過程轉變爲局部變量間的消息傳遞,從而大大降低了推理的複雜度。 -
BP
算法引起了國際上學者的廣泛關注,掀起了研究的熱潮。 -
前面的BP算法是在樹狀的圖模型上才能取得精確的結果, 在一般的有環的圖模型上是近似的,而且收斂性無法得到保證,針對這個問題,
2003
年,Wainwright
等人提出了樹重置權重信度傳播(tree-reweighted belief propagation
)算法,其主要思想是將一個有環概率圖模型分解爲若干生成樹的加權和,從而將原複雜的推理問題轉化爲若干樹狀圖模型的推理問題。 -
2008年
,Globerson
和Sontag
等人提出了基於線性規劃鬆弛和對偶分解的推理算法。這個算法的意義在於把一個推理問題轉化爲一個優化問題。而且之前的許多推理問題都能夠納入到這個框架裏面。 -
如今,經過近
30
餘年的發展,概率圖模型的推斷和學習已廣泛應用於機器學習、計算機視覺、自然語言處理、醫學圖像處理、計算神經學、生物信息學等研究領域,成爲人工智能相關研究中不可或缺的一門技術。
概率圖模型的表示、推理、學習
概率圖模型理論中有三大要素,表示、推理和學習。
概率圖模型的表示
概率圖模型的表示刻畫了模型的隨機變量在變量層面的依賴關係,反映出問題的概率結構,爲推理算法提供了數據結構。概率圖模型的表示方法主要有貝葉斯網絡、馬爾科夫隨機場、因子圖這三大類。
概率圖模型的表示主要解決的是如何在一個圖上定義一個聯合概率分佈,他要解決的是如何把聯合概率分佈表示成局部因子連乘積的形式。概率圖模型的表示其實也就是建模的問題;
概率圖模型表示主要研究的問題是,爲什麼聯合概率分佈可以表示爲局部勢函數的聯乘積形式(由於條件獨立性,使得概率圖模型的聯合概率分佈可以表示成局部勢函數連乘積的形式,也正是這種局部勢函數連乘積的形式使得概率圖建模的複雜度大大地降低),如何在圖模型建模中引入先驗知識等。
概率圖模型的推理
概率圖模型的第二大部分是推理,推理是建立在概率圖模型表示的基礎上,也就是說圖模型的結構和參數給定了,我們需要對這個圖模型進行一定的推理計算,主要的推理計算有:求邊緣概率、求最大後驗概率狀態以及求歸一化因子等等。
求邊緣概率是指已知聯合概率分佈,求部分變量的邊緣概率。
最大後驗概率狀態是已知聯合概率分佈,求這個分佈中的某個取值能夠使得整個聯合概率分佈最大。
歸一化因子是求一個歸一化因子,使得聯合概率分佈滿足概率求和爲1的這個約束。
概率推理相當於模型求解,在一般圖模型中,概率推理是 NP
難問題。概率推理又分爲精確推理和近似推理,精確推理是近似推理的基礎。在實際的問題中我們很多時候採取的算法是近似推理算法。近似推理算法並不是最準確的,但是平衡了推理的準確度和時間複雜度。
概率圖模型的學習
概率圖模型的第三大問題就是圖模型的學習,學習是給定訓練數據,從訓練數據中學習出圖模型的結構和參數。其訓練數據可表示爲如下形式:
表示有個訓練樣本,每個訓練樣本是維的訓練數據,我們要從這個訓練數據中把結構和參數學習出來。所謂的結構就是圖模型有哪些節點,以及哪些節點之間有邊連接,這個是結構部分;參數就是邊之間的連接權重,邊上之間的概率依賴關係中具體的數值是多少。
概率圖模型的學習可以分爲參數學習和結構學習。參數學習:從已知圖模型的結構中學習模型的參數(圖模型中節點與節點之間的邊上連接的權重)。結構學習表示的是:從數據中推斷變量之間的依賴關係(有哪些節點,節點之間的依賴關係,有時候可以依據經驗知識確定模型結構,比如:圖像問題直接用馬爾可夫隨機場表示相鄰像素之間的依賴關係)。
概率圖模型的應用舉例
概率圖模型的應用非常廣泛,這裏舉一些典型的應用案例。
圖像分割
圖像分割就是把圖像分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。其輸入是一張原始圖像,輸出是分割之後得到的圖像。
- Kim, T.; Nowozin, S.; Kohli, P. & Yoo, C. Variable Grouping for Energy Minimization. CVPR, 2011
那如何對圖像分割進行建模呢?一般用馬爾可夫隨機場,一種無向的概率圖模型對這個問題進行建模。圖像的每一個像素點對應圖模型的一個節點。相鄰像素點之間定義一條邊,邊上的參數表示相鄰像素的相似性,一副自然圖像的像素變化一般是均勻變化的,所以像素點與像素點之間存在概率依賴關係也很正常。在這個圖模型上進行概率推理,推理的結果就是分割後的結果圖像。
立體視覺
立體視覺的任務是,給定圖像,要求輸出圖像中每一個像素點對應的圖像深度(物體的遠近關係)。同樣可以用概率圖模型進行建模,像素表示每一個節點,節點之間的連接邊表示像素點之間的依賴關係,採用最大後驗概率推理得到上述結果。結果表示爲圖像顏色的深淺。
- Tappen, Freeman. Comparison of graph cuts with belief propagation for stereo, using identical MRF parameters. ICCV 2003.
圖像去噪
圖像去噪就是剔除圖像中的噪聲信號。建模過程也是將一個像素點當作一個概率圖模型的一個節點。相鄰像素點連接的邊表示相鄰像素的相似性,相似度越高,概率值越大。
- Felzenszwalb P F, Huttenlocher D P. Efficient Belief Propagation for Early Vision. International Journal of Computer Vision, 2006, 70(1):41–54.
人體姿態估計
人體姿態估計是對給定的人物圖像,估計其中的人處於什麼姿態。
對於上述問題我們先將人體劃分爲各個區塊,對不同區塊用概率圖模型建模,也就是每個區塊對應一個概率圖模型的節點。對於這個節點,它具有多個變量,比如矩形中心位置的座標,矩形塊的角度、長寬等等。概率圖模型的邊引入人體運動學的約束,然後將這種約束定義到概率圖模型的邊上。之後就可以進行推理求解了。
- Wang, H. & Koller, D. Multi-Level Inference by Relaxed Dual Decomposition for Human Pose Segmentation. CVPR, 2011
醫學圖像處理
- Jianwu Dong et al. Phase unwrapping with graph cuts optimization and dual decomposition acceleration for 3D high‐resolution MRI data. MRM 2016
醫學診斷
醫學診斷是模擬醫生做一個概率的推斷,醫生判斷一個患者是否得某種疾病往往是會去觀察這種疾病的一些症狀,然後分析這些疾病相關的症狀,結合他的專家經驗來下結論。下面這篇貝葉斯網絡做醫學診斷也是這個原理。
- D. Nikovski. Constructing Bayesian networks for medical diagnosis from incomplete and partially correct statistics. IEEE TKDE 2000.
對一些疾病會給出相關的很多變量,對這些變量構成概率圖模型的節點連接關係,通過專家經驗對其進行賦值,然後完成建模。建模完成之後就可以進行推理計算。
計算神經學
在計算神經學領域,研究表明,大腦具有表示和處理不確定性信息的能力。大量的生理和心理學實驗發現,大腦的認知處理過程是一個概率推理過程。
Ott
和 Stoop
建立了二值馬爾可夫隨機場中信度傳播算法和神經動力學模型的聯繫,證明了連續 Hopfield 網絡的方程可以由 BP 算法的消息傳遞迭代方程得到。因此,馬爾可夫隨機場中的BP
算法可以由神經元實現,每個神經元對應於MRF
的一個節點,神經元之間的突觸連接對應於節點之間的依賴關係 。這就非常巧妙地建立了概率圖模型在生理學與神經元之間的聯繫。
- Ott T, Stoop R. The neurodynamics of belief propagation on binary Markov random fields. NIPS, 2006. 1057–1064.
現有人工智能技術(AI)分爲兩種主流“大腦”:
- 支持人工神經網路的深度學習加速器,基於研究“電腦”的計算機科學,讓計算機運行機器學習算法;
- 支持脈衝神經網絡的神經形態芯片,基於研究“人腦”的神經科學,無限模擬人類大腦。
本文爲自己學習筆記,如有侵權請聯繫刪除。
我的微信公衆號名稱:深度學習與先進智能決策
微信公衆號ID:MultiAgent1024
公衆號介紹:主要研究分享深度學習、機器博弈、強化學習等相關內容!期待您的關注,歡迎一起學習交流進步!