隱馬爾可夫模型進行序列標註

原創

2020-06-23 21:41

三元隱馬爾可夫模型

三元隱馬爾可夫模型依賴二階馬爾科夫假設，包含所有詞的有限集 $V$ ，以及所有標籤有限集 $\Kappa$ ，以及如下兩個參數： $q(s|u,v)$ ，其中 $s\in \Kappa \cup \{STOP\}, u,v \in \Kappa \cup \{*\}$ ， $STOP$ 表示結束標籤， $*$ 表示開始標籤，其值表示標籤 $s$ 跟在標籤 $(u,v)$ 後的概率。 $e(x|s)$ ，其中 $x\in V, s\in \Kappa$ ，其值表示標籤 $s$ 對應詞 $x$ 的概率。定義 $S$ 表示詞序列和對應的標籤序列的集合 $<x_1,x_2,..,x_n,y_1,...,y_n>$ ，其中 $n\ge 0$ ，對於任意 $i=1...n, x_i\in V, y_i \in \Kappa$ ，並且 $y_{-1}, y_0 \in \{*\},y_{n+1}=STOP$ ，則任意 $<x_1,..,x_n,y_1,..,y_n>\in S$ 的概率可以按如下求得：
由概率鏈式法則： $p(x_1,..,x_n,y_1,..,y_n)=p(y_1,..,y_n)\times p(x_1,..,x_n|y_1,..,y_n) \tag{1}$ 由獨立假設： $p(y_1,..,y_n)=\prod_{i=1}^{n+1}p(y_i|y_{i-2},y_{i-1}) \tag{2}$ 由鏈式法則以及獨立性假設可得： $p(x_1,..,x_n|y_1,..,y_n)=\prod_{i=1}^np(x_i|x_1,..,x_{i-1},y_1,..,y_{n+1})=\prod_{i=1}^np(x_i|y_i) \tag{3}$
故： $p(x_1,..x_n,y_1,..,y_n)=\prod_{i=1}^{n+1}q(y_i|y_{i-2},y_{i-1})\prod_{i=1}^ne(x_i|y_i) \tag{4}$
對於訓練集中標籤序列 $(s,u,v)$ ，我們是可以計算出來的：
$q(s|u,v)=\frac{c(u,v,s)}{c(u,v)}$ $e(x|s)=\frac{c(s\to x)}{c(s)}$ 但是如果訓練集中 $x$ 從未出現，那麼 $e(x|s)$ 可能會出現概率爲0的情況，那麼聯合概率都爲0，可以使用pseudo-words來替換生僻詞，例如fourDigitNum可以用來替換所有的四位數字。

維特比算法

爲了尋找最可能的標籤序列，即計算：
$y^*=\underset{y_1,..,y_{n+1}}{\operatorname{argmax}}\ p(x_1,..,x_n,y_1,..,y_{n+1}) \tag{5}$ 使用暴力搜索是困難的，因爲對於長度爲 $n$ 的句子，總共有 $|\Kappa|^n$ 個標籤序列。

假如我們只考慮一句話的前k個詞，定義： $r(y_{-1},y_0,...,y_k)=\prod_{i=1}^kq(y_i|y_{i-2},y_{i-1})\prod_{i=1}^ke(x_i|y_i) \tag{6}$ 則 $(4)$ 式可以寫成： $\begin{array}{l} \quad p(x_1,..,x_n,y_1,..,y_{n+1}) \\ = r(*,*,y_1,..,y_n)\times q(y_{n+1}|y_{n-1},y_n) \\ = r(*,*,y_1,..,y_n)\times q(STOP|y_{n-1},y_n)\\ \end{array} \tag{7}$ 對於任意 $k\in \{-1,..,n\}$ 定義 $\Kappa_k$ 表示序列中第k個位置可能的標籤集合，則： $\Kappa_k=\Kappa, k \in \{1..n\}$ 特別地， $\Kappa_{-1}=\Kappa_0=\{*\}$
對於任意的 $k\in\{1,..,n\}$ 以及任意 $u\in\Kappa_{k-1},v\in\Kappa_k$ ，定義 $S(k,u,v)$ 爲序列 $y_{-1},y_0,y_1,..,y_k$ 的集合，此外這個集合滿足 $y_{k-1}=u,y_k=v$ ，即爲以 $u,v$ 結尾的長度爲 $k$ 的序列。定義：
$\pi(k,u,v)=\max_{<y_{-1},y_0,..,y_k>\in S(k,u,v)}r(y_{-1},y_0,y_1,...,y_k) \tag{8}$ 即 $\pi(k,u,v)$ 爲任意長度爲k以 $(u,v)$ 結尾的序列的最大概率。特別地， $\pi(0,*,*)=1$ 。

實際上， $\pi(k,u,v)$ 是可以遞歸定義的： $\pi(k,u,v)=\max_{w\in \Kappa_{k-2}}(\pi(k-1,w,u)\times q(v|w,u)\times e(x_k|v)) \tag{9}$ ，因此由 $(7)$ 可得： $\max_{y_1,..,y_{n+1}}p(x_1,..,x_n,y_1,..,y_{n+1})=\max_{u \in \Kappa_{n-1},v\in \Kappa_n}(\pi(n,u,v)\times q(STOP|u,v)) \tag{10}$ 式子 $(10)$ 即我們最大化的目標函數。但是，我們需要的是最大的標籤序列，即式子 $(5)$ ，所以我們需要在算法遞推的時候每次保存“反向指針” $bp(k,u,v)$ ，其記錄了使得長度爲 $k$ 以 $(u,v)$ 結尾的序列分數最高的先前的 $w$ 。在算法結束，我們需要從後向前尋找保存的序列，具體算法流程如下，時間複雜度爲 $O(n|\Kappa|^3)$ 。

來源

Hidden Markov models and tagging (sequence labeling) problems

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

隱馬爾可夫模型進行序列標註

三元隱馬爾可夫模型

維特比算法

來源

隱馬爾可夫模型進行序列標註

pytorch實現attention機制，並可視化

雙邊多視角自然語言句子匹配(BiMpm)

Java 8 中使用流

Java 8 Lambda表達式

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結