目錄
1. 背景
1.1 數理統計學兩大派
貝葉斯學派與頻率學派是當今數理統計學的兩大學派,基於各自的理論,在諸多領域中都起到了重要作用。自20世紀初數理統計學大發展開始,一直到20世紀中葉,頻率學派一直佔據主導地位,當時諸多大咖如Fisher、K.Pearson等都屬於頻率學派,而從20世紀中葉以後,貝葉斯學派迅速發展壯大起來,可與頻率學派分庭抗禮(我想這也是社會發展的需求,一些問題用原來的方法解決不了,需要一種的新的思維出現來解決問題),由於其發展較新,因此人們也將頻率學派稱爲古典學派。
頻率學派與貝葉斯學派的估計思想:
對於樣本分佈,此時我們要對其中的未知進行估計,讓我們來看看頻率學派與貝葉斯學派分別是如何做的。
(1)頻率學派
頻率學派認爲,對於一批樣本,其分佈是確定的,也即
是確定的,只不過
未知。爲什麼會有這樣的想法?這就要從頻率學派的基本宗旨來看了,頻率學派認爲概率即是頻率,某次得到的樣本X只是無數次可能的試驗結果的一個具體實現,樣本中未出現的結果不是不可能出現,只是這次抽樣沒有出現而已,因此綜合考慮已抽取到的樣本X以及未被抽取、實現的結果,可以認爲總體分佈是確定的,不過未知,而樣本來自於總體,故其樣本分佈
也同樣的特點。 基於此,就可以使用估計方法去推斷
。
(2)貝葉斯學派
貝葉斯學派否定了概率及頻率的觀點,並且反對把樣本X放到“無限多可能值之一”背景下去考慮,既然只得到了樣本X,那麼就只能依靠它去做推斷,而不能考慮那些有可能出現而未出現的結果。與此同時,貝葉斯學派引入了主觀概率的概念,認爲一個事件在發生之前,人們應該對它是有所認知的,即中的
不是固定的,而是一個隨機變量,並且服從分佈
,該分佈稱爲“先驗分佈”(指抽樣之前得到的分佈),當得到樣本X後,我們對
的分佈則有了新的認識,此時
有了更新,這樣就得到了“後驗分佈”(指抽樣之後得到的分佈),此時可以再對
做點估計、區間估計,此時的估計不再依賴樣本,完全只依賴
的後驗分佈了。
GMM:高斯混合模型,獨立同分布
1.2 概率圖
Dynamic Model:普通模型 + 時間序列(時間、一個句子)的概率圖模型
(1)HMM:隱變量是離散的
(2)Kalman Filter:又叫 Linear Dynamic Model 或 Linear Gaussian Model
隱變量和觀測變量都是連續的,都是服從高斯分佈的
(3)Particle Filter:Non-Linear、Non-Guaaian
2. HMM
條件:隱狀態必須是離散的
2.1 一個模型,兩個假設,三個問題
2.2 Evaluation問題
推導過程使用了兩個假設和A、B的定義
(1)前向
直接求P(O|lamda)時,算法複雜度太大,方式不可行,因此提出前向和後向算法。
(2)後向
2.3 Learning問題
拉格朗日乘子法:https://blog.csdn.net/qq_40036484/article/details/80457800
EM算法
2.4 Decoding問題
給定觀測序列,求解最優隱狀態序列——動態規劃問題
3. 總結
3.1 HMM
隱狀態必須是離散的,發射矩陣可以是連續的/離散的;P(O|I)~N(u, a)
3.2 動態模型(Dynamic Model)
又叫狀態空間模型State Space Model