隱馬爾可夫模型學習筆記（之二，學習算法）

隱馬爾可夫模型的學習，根據訓練數據是包括觀測序列和狀態序列還是隻有觀測序列，可以分別由監督學習與非監督學習實現。由於監督學習需要使用訓練數據，而人工標註訓練數據往往代價很高，有時就會利用非監督學習的方法，即Baum-Welch算法（也就是EM算法)。在介紹學習算法之前，先介紹一些概率和期望值的計算。這些計算會成爲Baum-Welch算法公式的基礎。

一些概率和期望值的計算

利用前向概率和後向概率，可以得到關於單個狀態和兩個狀態概率的計算公式。
1. 給定模型 $λ$ 和觀測 $O$ ，在時刻 $t$ 處於狀態 $q_{i}$ 的概率。記爲

γ_{t} (i) = P (i_{t} = q_{i} | O, λ)

先分解爲分數形式

\begin{matrix} (1) & γ_{t} (i) = \frac{P (i_{t} = q_{i}, O | λ)}{P (O | λ)} \end{matrix}

根據前向概率的定義可以做以下變換

α_{t} (i) = P (o_{1}, o_{2} . . . o_{t}, i_{t} = q_{t} | λ) = P (i_{t} = q_{t} | λ) P (o_{1}, o_{2} . . . o_{t} | i_{t} = q_{t}, λ)

後向概率的定義如下

β_{t} (i) = P (o_{t + 1}, o_{t + 2} . . ., o_{T} | i_{t} = q_{t}, λ)

將這兩者相乘得到

\begin{array}{rcl} (1) & α_{t} (i) * β_{t} (i) & = & P (i_{t} = q_{t} | λ) P (o_{1}, o_{2} . . . o_{t} | i_{t} = q_{t}, λ) P (o_{t + 1}, o_{t + 2} . . ., o_{T} | i_{t} = q_{t}, λ) \\ (2) & = & P (i_{t} = q_{t} | λ) P (o_{1}, o_{2} . . . o_{T} | i_{t} = q_{t}, λ) \\ (3) & = & P (i_{t} = q_{t} | λ) P (O | i_{t} = q_{t}, λ) \\ (2) & = & P (i_{t} = q_{t}, O | λ) \end{array}

以上結果從兩者的定義上也很好理解。
對變量

i

在範圍

i = 1, 2, . . . N

上求和

\begin{matrix} (3) & \sum_{i = 1}^{N} P (i_{t} = q_{t}, O | λ) = P (O | λ) \end{matrix}

將式

(2), (3)

代入

(1)

可以得到

\begin{matrix} (4) & γ_{t} (i) = \frac{α_{t} (i) * β_{t} (i)}{\sum_{j = 1}^{N} α_{t} (j) * β_{t} (j)} \end{matrix}

2. 給定模型

λ

和觀測

O

，在時刻

t

處於狀態

q_{i}

且在時刻

t + 1

處於狀態

q_{j}

的概率。記爲

ξ_{t} (i, j) = P (i_{t} = q_{i}, i_{t + 1} = q_{j} | O, λ)

通過前向後向概率計算：

ξ_{t} (i) = \frac{P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ)}{P (O | λ)} = \frac{P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ)}

分子可以用前向後向概率表示

P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ) = α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)

則

ξ_{t} (i)

可以表示爲

ξ_{t} (i) = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}

3. 將

γ_{t} (i)

和

ξ_{t} (i, j)

對各個時刻求和，可以得到一些有用的期望值。
(1) 觀測

O

下，狀態

i

出現的期望值

\sum_{t = 1}^{T} γ_{t} (i)

將每一個時刻下，出現狀態

i

的概率相加
(2) 觀測

O

下，由狀態

i

轉移的期望值

\sum_{t = 1}^{T - 1} γ_{t} (i)

能夠從狀態

i

轉移的時刻是

1, 2... T - 1

，比上一個求和公式少了時刻

T

(3) 觀測

O

下，由狀態

i

轉移到狀態

j

的期望值

\sum_{t = 1}^{T - 1} ξ_{t} (i, j)

Baum-Welch模型

參數估計公式

·推導的過程，尤其是拉格朗日對偶，我暫時還不十分理解，先直接給出訓練方法，公式和代碼。Baum-Welch算法（Baum-Welch algorithm)，它是EM算法在隱馬爾可夫模型學習過程中的具體實現，由Baum和Welch提出。
(1)初始化
對n=0，選取 $a_{i j}^{0} ， b_{j} (k)^{0} ， π_{i}^{0}$ ，得到模型 $λ^{0} = (a_{i j}^{0} ， b_{j} (k)^{0} ， π_{i}^{0})$
(2)遞推。對 $n = 1, 2, . . .$

a_{i j}^{n + 1} = \frac{\sum_{t = 1}^{T - 1} ξ_{t} (i, j)}{\sum_{t = 1}^{T - 1} γ_{t} (i)}

b_{j} (k)^{n + 1} = \frac{\sum_{t = 1, o_{t} = v_{k}}^{T} γ_{t} (j)}{\sum_{t = 1}^{T} γ_{t} (j)}

π_{i}^{n + 1} = γ_{1} (i)

公式右端按照觀測

O = (o_{1}, o_{2}, . . . o_{T})

和模型

λ^{n} = (a_{i j}^{n} ， b_{j} (k)^{n} ， π_{i}^{n})

代入計算
(3)終止，得到模型

λ^{n + 1} = (a_{i j}^{n + 1} ， b_{j} (k)^{n + 1} ， π_{i}^{n + 1})

Baum-Welch算法的Python實現

def baum_welch_train(self, observations, criterion=0.05):
    n_states = self.A.shape[0]
    n_samples = len(observations)

    done = False
    while not done:
        # alpha_t(i) = P(O_1 O_2 ... O_t, q_t = S_i | hmm)
        # Initialize alpha
        alpha = self._forward(observations)

        # beta_t(i) = P(O_t+1 O_t+2 ... O_T | q_t = S_i , hmm)
        # Initialize beta
        beta = self._backward(observations)

        xi = np.zeros((n_states,n_states,n_samples-1))
        for t in range(n_samples-1):
            denom = np.dot(np.dot(alpha[:,t].T, self.A) * self.B[:,observations[t+1]].T, beta[:,t+1])
            for i in range(n_states):
                numer = alpha[i,t] * self.A[i,:] * self.B[:,observations[t+1]].T * beta[:,t+1].T
                xi[i,:,t] = numer / denom

        # gamma_t(i) = P(q_t = S_i | O, hmm)
        gamma = np.sum(xi,axis=1)
        # Need final gamma element for new B
        prod =  (alpha[:,n_samples-1] * beta[:,n_samples-1]).reshape((-1,1))
        gamma = np.hstack((gamma,  prod / np.sum(prod))) #append one more to gamma!!!

        newpi = gamma[:,0]
        newA = np.sum(xi,2) / np.sum(gamma[:,:-1],axis=1).reshape((-1,1))
        newB = np.copy(self.B)

        num_levels = self.B.shape[1]
        sumgamma = np.sum(gamma,axis=1)
        for lev in range(num_levels):
            mask = observations == lev
            newB[:,lev] = np.sum(gamma[:,mask],axis=1) / sumgamma

        if np.max(abs(self.pi - newpi)) < criterion and \
                        np.max(abs(self.A - newA)) < criterion and \
                        np.max(abs(self.B - newB)) < criterion:
            done = 1

        self.A[:],self.B[:],self.pi[:] = newA,newB,newpi

隱馬爾可夫模型學習筆記（之二，學習算法）

一些概率和期望值的計算

Baum-Welch模型

參數估計公式

Baum-Welch算法的Python實現

單通道噪聲抑制算法總結

HTK 3.5解碼工具HVITE獨立工程

什麼是濾波器的線性相位

Ubuntu下Anaconda和Pycharm的配合使用

Introduction to Advanced Machine Learning, 第二週，Tensorflow-task（hse-aml/intro-to-dl，簡單註釋，答案，附圖）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結