文章目錄

隱馬爾可夫模型（HMM）

隱馬爾可夫模型（HMM）

1、模型背景

現實生活中很多事情的發生都是有規律可循的，即表現出來的結果，受到某些“隱藏”因素的影響。舉個例子，某個人事業成功與否，這與他自身是否努力有一定關係的。其表現出來的狀態是成功或者失敗，而隱藏的影響因素爲努力與否。對於類似這類問題可以通過統計學的方法，計算表現結果爲X的情況下，隱藏狀態爲Y的概率即 $P(Y|X)$ 。利用這個概率可以將給定的表現結果X,標註上其最有可能對應的隱藏狀態Y。這就是機器學習中樣本標註的過程。

貝葉斯公式：
$P(A|B) = \cfrac{P(AB)}{P(B)} = \cfrac{P(B|A) P(A)}{P(B)}\tag1$
$X = \{x_1,x_2,\cdots,x_n\}Y = \{y_1,y_2,\cdots,y_n\}$
$\begin{aligned} P(Y|X) &= P(y_1,y_2,...,y_n|x_i,x_2,\cdots,x_n)\\ &= \cfrac{P(x_1,x_2,...,x_n|y_1,y_2,\cdots,y_n) P(y_1,y_2,\cdots,y_n)}{P(x_1,x_2,\cdots,x_n)}\\ & \propto P(x_1,x_2,...,x_n|y_1,y_2,\cdots,y_n) P(y_1,y_2,\cdots,y_n) \end{aligned}$
其中
$\begin{aligned} P(y_1,y_2,\cdots,y_n) &= P(y_1) P(y_2,\cdots,y_n|y_1)\\ &=P(y_1) P(y_2|y_1) P(y_3,\cdots,y_n|y_1,y_2)\\ &=P(y_1) P(y_2|y_1) P(y_3|y_1,y_2) P(y_4,\cdots,y_n|y_1,y_2,y_3)\\ &=P(y_1) P(y_2|y_1) P(y_3|y_1,y_2)\cdots P(y_i|y_1,\cdots,y_{i-1}) P(y_{i+1},\cdots,y_n|y_1,\cdots,y_i)\\ &=P(y_1)\prod_{i=2}^n P(y_i|y_1,\cdots,y_{i-1}) \end{aligned}$
假設隱藏狀態 $y_i$ 僅與前一狀態 $y_{i-1}$ 有關(即齊次性假設)，而與其他狀態無關，則
$P(y_1)\prod_{i=2}^n P(y_i|y_1,\cdots,y_{i-1}) \approx P(y_1)\prod_{i=2}^n P(y_i|y_{i-1}) \tag2$
而
$\begin{aligned} P(x_1,x_2,...,x_n|y_1,y_2,\cdots,y_n) &=P(x_1|y_1,\cdots,y_n) P(x_2,\cdots,x_n|x_1,y_1,\cdots,y_n)\\ &=P(x_1|y_1,\cdots,y_n) P(x_2|x_1,y_1,\cdots,y_n) P(x_3,\cdots,x_n|x_1,x_2,y_1,\cdots,y_n)\\ &=P(x_1|y_1,\cdots,y_n) P(x_2|x_1,y_1,\cdots,y_n) \cdots P(x_i|x_1,\cdots,x_{i-1},y_1,\cdots,y_n)\\ &P(x_{i+1},\cdots,x_n|x_1,\cdots,x_i,y_1,\cdots,y_n)\\ &= \prod_{i=1}^n P(x_i|x_1,\cdots,x_{i-1},y_1,\cdots,y_n) \end{aligned}$
假設當前的表現 $x_i$ 僅與當前的隱藏狀態 $y_i$ 有關，與其他時刻的表現及隱藏狀態無關（獨立性假設），則
$\prod_{i=1}^n P(x_i|x_1,\cdots,x_{i-1},y_1,\cdots,y_n) \approx \prod_{i=1}^n P(x_i|y_i) \tag3$
結合公式（2）和公式（3）則有如下關係：
$P(y_1,y_2,...,y_n|x_i,x_2,\cdots,x_n) \propto \prod_{i=1}^n P(x_i|y_i) P(y_i|y_{i-1}) \tag4$
公式（4）需滿足一個初始條件，中當 $i = 1$ 時， $P(y_1|y_0) = P(y_1)$ 。公式（4）所代表的模型即爲隱馬爾可夫模型。

2、模型定義

隱馬爾可夫模型是關於時序的概率模型，描述由一個隱藏的馬爾可夫鏈隨機生成不可觀測的狀態隨機序列，再由各個狀態生成一個觀測從而產生觀測隨機序列的過程。隱藏的馬爾可夫鏈隨機生成的狀態的序列，稱爲狀態序列（state sequence）；每個狀態生成一個觀測，而由此產生的觀測的隨機序列，稱爲觀測序列（observation sequence）。序列的每一個位置又可以看作是一個時刻。
隱馬爾可夫模型由初始概率分佈、狀態轉移概率分佈以及觀測概率分佈確定。隱馬爾可夫模型的定義如下：
設 $Q$ 是所有可能的狀態的集合， $V$ 是所有可能的觀測的集合：
$Q = \{q_1,q_2,\cdots,q_N\}, \ \ \ \ \ V =\{v_1,v_2,\cdots,v_M\}$
其中， $N$ 是可能的狀態數， $M$ 是可能的觀測數。
$I$ 是長度爲 $T$ 的狀態序列， $O$ 是對應的觀測序列：

$I = \{i_1,i_2,\cdots,i_T\}, \ \ \ \ \ O=\{o_1,o_2,\cdots,o_T\}$
$A$ 是狀態轉移概率矩陣：
$A=[a_{ij} ]_{N×N}$
其中，
$a_{ij} = P(i_{t+1} = q_j | i_ t = q_i), \ \ \ \ \ i=1,2,\cdots,N;\ \ j=1,2,\cdots,N$
代表在 $t$ 時刻處於 $q_i$ 的條件下在 $t+1$ 時刻轉移到狀態 $q_j$ 的概率。
$B$ 代表觀測矩陣：
$B=[b_j(k)]_{N×M}$
其中，
$b_j(k)=P(o_t=v_k|i_t=q_j)\ \ \ j=1,2,\cdots,N; \ \ \ k=1,2,\cdots,M$
代表在 $t$ 時刻處於 $q_j$ 的條件下生成觀測 $v_k$ 的概率。
$\pi$ 是初始狀態概率向量：
$\pi=(\pi_i)$
其中，
$\pi_i=P(i_1=q_i)\ \ \ \ \ i=i,2,\cdots,N$
代表 $t=1$ 的時刻，狀態爲 $q_i$ 的概率。
隱馬爾可夫模型由初始狀態概率向量 $\pi$ 、狀態轉移概率矩陣 $A$ 和觀測概率矩陣 $B$ 決定。 $\pi$ 和 $A$ 決定狀態序列， $B$ 決定觀測序列。因此，隱馬爾可夫模型 $\lambda$ 可以用三元符號表示，即
$\lambda=(A,B,\pi)$
$A$ , $B$ , $\pi$ 稱位隱馬爾可夫模型的三要素。
狀態轉移概率矩陣 $A$ 與初始狀態概率向量 $\pi$ 確定了隱藏的馬爾可夫鏈，生成不可觀測的狀態序列。觀測概率矩陣 $B$ 確定瞭如何從狀態生成觀測，與狀態序列綜合確定瞭如何產生觀測序列。
前面背景介紹中涉及到的兩種基本假設，下面在這裏進行詳細介紹：
（1）齊次馬爾可夫假設，即假設隱藏的馬爾可夫鏈在任意時刻 $t$ 的狀態只依賴於其前一時刻的狀態，與其他時刻的狀態及觀測無關，也與時刻t無關：
$P(i_t|i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(i_t|i_{t-1}),\ \ \ \ \ t=1,2,\cdots,T \tag5$
（2）觀測獨立性假設，即假設任意時刻的觀測只依賴於該時刻的馬爾可夫鏈的狀態，與其他觀測及狀態無關：
$P(o_t|i_T,o_T,i_{T-1},o_{T-1},\cdots,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(o_t|i_t) \tag6$
隱馬爾可夫模型可以用於標註，這是狀態對應着標記。標註問題是給定觀測的序列預測其對應的標記序列。可以假設標註問題的數據是由隱馬爾可夫模型生成的。這樣我們可以利用隱馬爾可夫模型的學習與預測算法進行標註。
本節內容可以用一句話簡單概括，一個定義，二個假設，三個要素。

3、模型的三個基本問題

3.1、概率計算問題

給定模型 $\lambda=(A,B,\pi)$ 和觀測序列 $O=(o_1,o_2,\cdots,o_T)$ ，計算在模型 $\lambda$ 下觀測序列 $O$ 出現的概率 $P(O|\lambda)$ 。
1、直接計算法
給定模型 $\lambda=(A,B,\pi)$ 和觀測序列 $O=(o_1,o_2,\cdots,o_T)$ ，計算觀測序列 $O$ 出現的概率 $P(O|\lambda)$ 。最直接的方法是按照概率公式直接計算。列舉所有可能的長度爲 $T$ 的狀態序列 $I=(i_1,i_2,\cdots,i_T)$ ，求各個狀態序列 $I$ 與觀測序列 $O=(o_1,o_2,\cdots,o_T)$ 的聯合概率 $P(O,I|\lambda)$ ，然後對所有可能的狀態序列求和，得到 $P(O|\lambda)$ 。
狀態序列 $I=(i_1,i_2,\cdots,i_T)$ 的概率是：
$P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}\cdots a_{i_{T-1}i_T} \tag7$
對固定的狀態序列 $I=(i_1,i_2,\cdots,i_T)$ ，生成觀測序列 $O=(o_1,o_2,\cdots,o_T)$ 的概率是：
$P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)\cdots b_{i_T}(o_T)\tag8$
$O和I同時出現的聯合概率爲$
$P(O,I|\lambda)=P(O|I,\lambda)P(I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T)\tag9$
$然後，對所有可能的狀態序列I求和，得到觀測序列O的概率P(O|\lambda)，即$
$P(O|\lambda) =\sum_IP(O|I,\lambda)P(I|\lambda) =\sum_{i_1,i_2,\cdots,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T)\tag{10}$
按照第2小節所介紹的，所有狀態的集合爲 $Q$ ，集合內的元素個數爲 $N$ 。那麼對於長度爲 $T$ 的狀態序列 $I$ ，其對應的任意時刻都有 $N$ 種選擇，因此對於狀態序列 $I$ 就有 $N^T$ 種選擇。這樣不難看出，公式（10）計算量很大，時間複雜度是 $O(TN^T)$ ，這種算法基本不可行。
2、前向算法
定義(前向概率) 給定隱馬爾可夫模型 $\lambda$ ，定義到時刻 $t$ 部分觀測序列爲 $o_1,o_2,\cdots,o_t$ 且狀態爲 $q_i$ 的概率爲前向概率，記作
$\alpha_t(i) = P(o_1,o_2,\cdots,o_t,i_t=q_i|\lambda)\tag{11}$
算法(觀測序列概率的前向算法)
輸入：隱馬爾可夫模型 $\lambda$ ，觀測序列 $O$ ；
輸出：觀測序列概率 $P(O|\lambda)$ 。
（1）初值
$\alpha_1(i)=\pi_ib_i(o_1),\ \ \ \ \ i=1,2,\cdots,N\tag{12}$
（2）遞推對 $t=1,2,\cdots,T-1,$
$\alpha_{t+1}(i)=\Bigg[\sum_{j=1}^N\alpha_t(j)a_{ji}\Bigg]b_i(o_{t+1})\tag{13}$
（3）終止
$P(O|\lambda)=\sum_{i=1}^N \alpha_T(i)\tag{14}$
前向算法，步驟（1）初始化前向概率，是初始時刻的狀態 $i_1=q_i$ 和觀測 $o_1$ 的聯合概率。步驟（2）是前向概率的遞推公式，計算時刻 $t+1$ 部分觀測序列爲 $o_1,o_2,\cdots,o_t,o_{t+1}$ 且在時刻 $t+1$ 處於狀態 $q_i$ 的前向概率，如圖1所示。在公式（13）的方括號裏，既然 $\alpha_t(j)$ 是到時刻 $t$ 觀測到 $o_1,o_2,\cdots,o_t$ 並在時刻 $t$ 處於狀態 $q_j$ 的前向概率，那麼乘積 $\alpha_t(j)a_{ji}$ 就是到時刻 $t$ 觀測到 $o_1,o_2,\cdots,o_t$ 並在時刻 $t$ 處於狀態 $q_j$ 而在時刻 $t+1$ 到狀態 $q_i$ 的聯合概率。對這個乘積在時刻 $t$ 的所有可能的 $N$ 個狀態 $q_j$ 求和，其結果就是到時刻 $t$ 觀測爲 $o_1,o_2,\cdots,o_t$ 並在時刻 $t+1$ 處於狀態 $q_i$ 的聯合概率。方括號裏面的觀測概率 $b_i(o_{t+1})$ 的乘積恰好是到時刻 $t+1$ 觀測到 $o_1,o_2,\cdots,o_t,o_{t+1}$ 並在時刻 $t+1$ 處於狀態 $q_i$ 的前向概率 $\alpha_{t+1}(i)$ 。步驟（3）給出 $P(O|\lambda)$ 的計算公式。因爲
$\alpha_T(i)=P(o_1,o_2,\cdots,o_T,i_T=q_i|\lambda)$
所以
$P(O|\lambda)=\sum_{i=1}^N\alpha_T(i)$

圖 1 前向概率的遞推公式
如圖2所示，前向算法實際是基於“狀態序列的路徑結構”遞歸計算

P(O|\lambda)

的算法。前向算法高效的關鍵是其局部計算前向概率，然後利用路徑結構將前向概率“遞歸”到全局，得到

P(O|\lambda)

。具體地，在時刻

t=1

，計算

\alpha_1(i)

的

N

個值

(i=1,2,\cdots,N);

在各個時刻

t=1，2，\cdots,T-1

，計算

\alpha_{t+1}

的

N

個值

(i=1,2,\cdots,N)

，而且每個

\alpha_{t+1}

的計算利用前一時刻

N

個

\alpha_t(j)

。減少計算量的原因在於每一次計算直接引用前一個時刻的計算結果，避免重複計算。這樣，利用前向概率計算

P(O|\lambda)

的計算量是

O(N^2T)

階的。

圖 2 觀測序列路徑結構

前向遞推公式證明：
已知聯合概率公式如下：
$P(ABC) = P(AB|C)P(A|B)P(B)$
基於上面公式證明如下：
$\begin{aligned} \because \ \ \ \alpha_t(j) a_{ji} &= P(o_1,\cdots,o_t,i_t=q_j|\lambda)P(i_{t+1}=q_i|i_t=q_j,\lambda)\\ &=P(o_1,\cdots,o_t|i_t=q_j,\lambda)P(i_t=q_j|\lambda)P(i_{t+1}=q_i|i_t=q_j,\lambda)\\ &=P(o_1,\cdots,o_t|i_t=q_j,\lambda)P(i_t=q_j,i_{t+1}=q_i|\lambda)\\ &=P(o_1,\cdots,o_t|i_t=q_j, i_{t+1}=q_i ,\lambda)P(i_t=q_j,i_{t+1}=q_i|\lambda)\\ &=P(o_1,\cdots,o_t,i_t=q_j,i_{t+1}=q_i|\lambda) \end{aligned}$

$\begin{aligned} \therefore \ \ \Bigg[\sum_{j=1}^N \alpha_t(j)a_{ji} \Bigg] b_{t+1}(i)&=\sum_{j=1}^N\bigg[P(o_1,\cdots,o_t,i_t=q_j,i_{t+1}=q_i|\lambda)\bigg]P(o_{t+1}|i_{t+1}=q_i,\lambda)\\ &=P(o_1,\cdots,o_t,i_{t+1}=q_i|\lambda)P(o_{t+1}|i_{t+1}=q_i,\lambda)\\ &=P(o_1,\cdots,o_t|i_{t+1}=q_i,\lambda)P(i_{t+1}=q_i|\lambda)P(o_{t+1}|i_{t+1}=q_i,\lambda)\\ &=P(o_1,\cdots,o_t|i_{t+1}=q_i,\lambda)P(o_{t+1},i_{t+1}=q_i|\lambda)\\ &=P(o_1,\cdots,o_t|o_{t+1},i_{t+1}=q_i,\lambda)P(o_{t+1},i_{t+1}=q_i|\lambda)\\ &=P(o_1,\cdots,o_t,o_{t+1},i_{t+1}=q_i|\lambda)\\ &=\alpha_{t+1}(i) \end{aligned}$

3、後向算法
定義（後向概率） 給定隱馬爾可夫模型 $\lambda$ ，定義在時刻 $t$ 狀態爲 $q_i$ 的條件下，從 $t+1$ 到 $T$ 的部分觀測序列爲 $o_{t+1},o_{t+2},\cdots,o_T$ 的概率爲後向概率，記作
$\beta_t(i)=P(o_{t+1},o_{t+2},\cdots,o_T|i_t=q_i,\lambda)\tag{15}$
算法（觀測序列概率的後向算法）
輸入：隱馬爾可夫模型 $\lambda$ ，觀測序列 $O$ ；
輸出：觀測序列概率 $P(O|\lambda)$ 。
（1）初值
$\beta_T(i) = 1, \ \ \ \ \ \ i=1,2,\cdots,N$
代表 $t=T$ 時刻，任意狀態的後向概率均爲1。
（2）遞推對 $t=T-1,T-2,\cdots,1$
$\beta_t(i)=\sum_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j),\ \ \ \ \ i =1,2,\cdots,N\tag{16}$
（3）終止
$P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)\tag{17}$
步驟（1）初始化後向概率，對最終時刻的所有狀態 $q_i$ 規定 $\beta_T(i)=1$ 。步驟（2）是後向概率的遞推公式。如圖3所示，爲了計算在時刻 $t$ 狀態爲 $q_i$ 條件下時刻 $t+1$ 之後的觀測序列爲 $O_{t+1},o{t+2},\cdots,o_T$ 的後向概率 $\beta_t(i)$ ，只需考慮在時刻 $t+1$ 所有可能的 $N$ 個狀態 $q_j$ 的轉移概率（即 $a_{ij}$ ），以及在此狀態下的觀測 $o_{t+1}$ 的觀測概率（即 $b_j(o_{t+1})$ 項），然後考慮狀態 $q_j$ 之後的觀測序列的後向概率（即 $\beta_{t+1}(j)$ 項）。步驟（3）求 $P(O|\lambda)$ 的思路與步驟（2）一致，只是初始概率 $\pi_i$ 代替轉移概率。

圖 3 後向概率遞推公式

後向遞推公式證明：
$\begin{aligned} \sum_{j=1}^N a_{ij}b_j(o_{t+1})\beta_{t+1}(j)&=\sum_{j=1}^NP(i_{t+1}=q_j|i_t=q_i,\lambda)P(o_{t+1}|i_{t+1}=q_j,\lambda)P(o_{t+2},\cdots,o_T|i_{t+1}=q_j,\lambda)\\ &=\sum_{j=1}^NP(i_{t+1}=q_j|i_t=q_i,\lambda)P(o_{t+1}|i_{t+1}=q_j,\lambda)P(o_{t+2},\cdots,o_T|o_{t+1},i_{t+1}=q_j,\lambda)\\ &=\sum_{j=1}^NP(i_{t+1}=q_j|i_t=q_i,\lambda)P(o_{t+1},o_{t+2},\cdots,o_T|i_{t+1}=q_j,\lambda)\\ &=\sum_{j=1}^NP(i_{t+1}=q_j|i_t=q_i,\lambda)P(o_{t+1},o_{t+2},\cdots,o_T|i_t = q_i,i_{t+1}=q_j,\lambda)\\ &=\sum_{j=1}^N P(o_{t+1},o_{t+2},\cdots,o_T, i_{t+1}=q_j|i_t=q_i,\lambda)\\ &=P(o_{t+1},o_{t+2},\cdots,o_T|i_t=q_i,\lambda)\\ &=\beta_t(i) \end{aligned}$

利用前向概率和後向概率的定義可以將觀測序列概率 $P(O|\lambda)$ 統一寫成
$P(O|\lambda)=\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)\tag{18}$
4、一些概率與期望值的計算
利用前向概率和後向概率，可以得到關於單個狀態和兩個狀態概率的計算公式。

定義模型 $\lambda$ 和觀測 $O$ ，在時刻 $t$ 處於狀態 $q_i$ 的概率。記
$\gamma_t(i)=P(i_t=q_i|O,\lambda)=\cfrac{P(i_t=q_i,O|\lambda)}{P(O|\lambda)}=\cfrac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}\tag{19}$
給定模型 $\lambda$ 和觀測 $O$ ，在時刻 $t$ 處於狀態 $q_i$ 且在時刻 $t+1$ 處於 $q_j$ 的概率。記
$\begin{aligned} \xi_t(i,j) &=P(i_t=q_i,i_{t+1}=q_j|O,\lambda)\\ &=\cfrac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}\tag{20} \end{aligned}$
將 $\gamma_t(i)$ 和 $\xi_t(i,j)$ 對各個時刻 $t$ 求和，可以得到一些有用的期望值。
（1）在觀測 $O$ 下狀態 $i$ 出現的期望值：
$\sum_{t=1}^T\gamma_t(i)\tag{21}$
（2）在觀測 $O$ 下由狀態 $i$ 轉移的期望值：
$\sum_{t=1}^{T-1}\gamma_t(i)\tag{22}$
（3）在觀測 $O$ 下由狀態 $i$ 轉移到狀態 $j$ 的期望值：
$\sum_{t=1}^{T-1}\xi_t(i,j)\tag{23}$

3.2、學習問題

隱馬爾可夫模型的學習，根據訓練數據是包括觀測序列和對應的狀態序列還是隻有觀測序列，可以分別由監督學習與無監督學習實現。

監督學習方法
已知觀測序列 $O=(o_1,o_2,\cdots,o_T)$ ，估計模型 $\lambda=(A,B,\pi)$ 參數，使得在該模型下觀測概率 $P(O|\lambda)$ 最大。即用極大似然估計的方法估計參數。
1、轉移概率 $a_{ij}$ 的估計
設樣本中時刻 $t$ 處於狀態 $i$ 時刻 $t+1$ 轉移到狀態 $j$ 的頻數爲 $A_{ij}$ ，那麼狀態轉移概率爲
$a_{ij}=\cfrac{A_{ij}}{\sum_{j=1}^NA_{ij}}\ \ \ \ \ \ i=1,2,\cdots,N;\ \ \ \ j=1,2,\cdots,N \tag{24}$
2、觀測概率 $b_j(k)$ 的估計
設樣本中狀態爲 $j$ 並觀測爲 $k$ 的頻數是 $B_{jk}$ ，那麼狀態 $j$ 觀測爲 $k$ 的概率估計是：
$b_j(k)=\cfrac{B_{jk}}{\sum_{k=1}^MB_{}jk}\ \ \ \ \ \ j=1,2,\cdots,N;\ \ \ \ k=1,2,\cdots,M\tag{25}$
3、初始狀態概率 $\pi_i$ 的估計爲 $S$ 個樣本中初始狀態爲 $q_i$ 的頻率。
無監督學習方法
暫時略過

3.3、預測問題（解碼問題）

已知模型 $\lambda=(A,B,\pi)$ 和觀測序列 $O=(o_1,o_2,\cdots,o_T)$ ，求對給定觀測序列條件概率 $P(I|\lambda)$ 最大的狀態序列 $I=(i_1,i_2,\cdots,iT)$ 。即給定觀測序列，求最有可能的對應的狀態序列。

近似算法
近似算法的想法是，在每個時刻 $t$ 選擇在該時刻最有可能出現的狀態 $i_t^*$ ，從而得到一個狀態序列 $I^*(i_1^*,i_2^*,\cdots,i_T^*)$ ，將它作爲預測的結果。
給定隱馬爾可夫模型 $\lambda$ 和觀測序列 $O$ ，在時刻 $t$ 處於狀態 $q_i$ 的概率 $\gamma_t(i)$ 是
$\gamma_t(i)=\cfrac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$
在每一個時刻 $t$ 最有可能的狀態 $i_t^*$ 是
$i_t^*=arg\max_{1\leq i \leq N}\big[\gamma_t(i)\big], \ \ \ \ \ t=1,2,\cdots,T\tag{26}$
從而得到狀態序列 $I^*(i_1^*,i_2^*,\cdots,i_T^*)$ 。
近似算法的優點就是計算簡單，其缺點是不能保證預測的狀態序列整體是最有可能的狀態序列，因爲預測的狀態序列可能有實際不發生的部分。事實上，上述方法得到的狀態序列中有可能存在轉移概率爲0的相鄰狀態，即對於某些 $i,j,a_{ij}=0$ 。儘管如此，近似算法仍然是有用的。
維特比算法
維特比算法實際是用動態規劃解隱馬爾可夫模型預測問題，即用動態規劃求概率最大路徑（最優路徑）。這時一條路徑對應着一個狀態序列。

4、模型應用

5、模型的偏執問題

以詞性標註的例子來描述偏執問題。詞性標註是指給一段文字，標註出這段文字所對應的詞性序列。
例如：
原文：延安供水工程建成通水。
正確標註結果：延安\ns 供水\vn 工程\n 建成\v 通水\v。
延安 ---------地名
供水 ---------名動詞
工程 ---------名詞
建成 ---------動詞
通水 ---------動詞
預測過程中，需要嘗試各種詞性組合，最終通過HMM模型預測出概率最大的詞性序列。因爲有一些詞性出現的頻次非常低（比如rg 代詞素），所以導致任何詞性轉移到rg的概率很低，但是有可能它的發射概率相對很高，最終導致預測的詞性序列均爲rg。注意：詞性序列上每個詞的詞性由轉移概率和發射概率共同決定。

實際中可能的預測情況：
（以下數據不具真實性，單純用來舉例）

詞語	延安	供水	工程	建成	通水
正確的詞性	\ns	\vn	\n	\v	\v
轉移概率	5%	1.2%	1.5%	1.3%	1.1%
發射概率	2%	1%	2.3%	1.5%	1.6%

詞語	延安	供水	工程	建成	通水
正確的詞性	\rg	\rg	\rg	\rg	\rg
轉移概率	0.01%	0.1%	0.1%	0.1%	0.1%
發射概率	10%	10%	10%	10%	10%

對比以上兩個表格不難發現，雖然rg的詞性序列轉移概率很小，但是發射概率相對較高，最終導致預測的結果爲rg序列。這就是HMM模型處理過程中，如果選用的平滑處理方法不當，可能會出現的偏執問題。

6、預測結果數據分析

（1）爲什麼初始階段隨着訓練樣本的增加，模型的預測效率會越來越好？
答：第一、當樣本規模較小，所訓練出來的模型在進行預測時，未知錯誤所佔的比重較大，因此導致準確率低。隨着訓練樣本的增加，未知錯誤所佔的比重降低，所以準確率提高。即所謂的“見多識廣”。第二、因爲樣本有限，所以訓練得到的模型對一些詞性的預測很大概率是錯誤的，隨着樣本增加會逐漸糾正這些錯誤的概率。
（2）爲什麼後面階段，隨着訓練樣本的增加，預測效果趨於平緩？
答：因爲很多詞是存在多種詞性即存在歧義，而如何判斷這個詞當前應該是什麼詞性就需要結合語境等因素，這就對模型提出很高的要求。二元HMM模型僅僅考慮前後詞性之間的關係，這還不足以涵蓋所有情況，因此無法解決所有歧義問題，所以最終模型會趨於平緩。
（3）爲什麼有些類型的預測錯誤，大語料的時候反而佔比大於小語料的時候？
答：因爲隨着樣本的增加，整體的錯誤率降低，但是有些類型的預測錯誤可能沒有降低，所以在大語料時這種類型的預測錯誤佔比反而提升。

隱馬爾可夫模型（HMM）未完待續……

文章目錄

隱馬爾可夫模型（HMM）

1、模型背景

2、模型定義

3、模型的三個基本問題

3.1、概率計算問題

3.2、學習問題

3.3、預測問題（解碼問題）

4、模型應用

5、模型的偏執問題

6、預測結果數據分析

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

C++ 常量指針和指針常量的區別

LeetCode 415——字符串相加

LeetCode 226——翻轉二叉樹（遞歸）

隱馬爾可夫模型（HMM）未完待續……

LeetCode 58——最後一個單詞的長度

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結