HMM、MEMM、CRF模型的比較

一、HMM

在這裏插入圖片描述
HMM屬於生成模型,模型中2個假設:

  • 輸出觀測值XiX_i之間相互獨立;
  • 齊次一階Markov,即狀態的轉移過程中當前狀態只與前一狀態有關。

二、MEMM

在這裏插入圖片描述
P(IO)=t=1nexp(a)λafa(o,i)Z(o,ii1),i=1,,n P(I | O)=\prod_{t=1}^{n} \frac{\exp \left(\sum_{a}\right) \lambda_{a} f_{a}(o, i)}{Z\left(o, i_{i-1}\right)}, i=1, \cdots, n
求和的作用在概率中是歸一化,但是這裏歸一化放在了指數內部,管這叫local歸一化。 來了,viterbi求解過程,是用dp的狀態轉移公式(MEMM的沒展開,請參考CRF下面的公式),因爲是局部歸一化,所以MEMM的viterbi的轉移公式的第二部分出現了問題,導致dp無法正確的遞歸到全局的最優。
δi+1=max1jm{δi(I)+iTkMλkfk(O,Ii1,Ii,i)} \delta_{i+1}=\max _{1 \leq j \leq m}\left\{\delta_{i}(I)+\sum_{i}^{T} \sum_{k}^{M} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)\right\}

  • MEMM模型屬於判別模型,打破了觀察值之間相互獨立產生的問題,但是由於狀態之間的假設理論,MEMM傾向於選擇擁有更少轉移的狀態,使得該模型存在 標註偏置問題(label bias problem)

三、CRF(Conditional Random Field)

在這裏插入圖片描述
從概率圖可以很形象的看出一個區別:
HMM是有向圖,嚴格定義了y的有序性,只能從左至右。CRF是無向圖,y無序,可左可右。HMM是生成模型,通過求聯合概率獲得;CRF是判別模型,通過條件概率求得。在如詞性標註上的應用中CRF更合理,因爲它直接求某個標註的概率,而HMM需要先算聯合概率再轉而求目標的概率。
對於所謂的條件隨機場的理解:

  • 條件:屬於生成模型
  • 隨機場:無向圖模型
    CRF模型屬於判別模型,解決了標註偏置問題,去除了HMM中兩個不合理的假設,當然,模型相應得也變複雜了。
    CRF建模公式如下,整個過程的推導可以結合這個詞性標註的案例更好理解 :CRF詞性標註
    P(IO)=1Z(O)iψi(IiO)=1Z(O)iekλkfk(O,li1,Ii,i)=1Z(O)eikλkfk(O,Ii1,Ii,i) P(I | O)=\frac{1}{Z(O)} \prod_{i} \psi_{i}\left(I_{i} | O\right)=\frac{1}{Z(O)} \prod_{i} e^{\sum_{k} \lambda_{k} f_{k}\left(O, l_{i-1}, I_{i}, i\right)}=\frac{1}{Z(O)} e^{\sum_{i} \sum_{k} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)}
    因爲是判別模型,所以直接爲了確定邊界而去建模,因爲創造出來就是爲了這個分邊界的目的。比如說序列求概率(分類)問題,直接考慮找出函數分類邊界。所以才爲什麼會有這個公式。所以再看到這個公式也別懵逼了。

除了建模總公式,關鍵的CRF重點概念與MEMM類似:判別式模型、特徵函數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章