CRF Layer on the top of BiLSTM-5_trans

https://createmomo.github.io/2017/11/11/CRF-Layer-on-the-Top-of-BiLSTM-5/
在4中解釋瞭如何計算S(i),在這節中說明如何計算P(total)
P(total)可以直接求解,但是效率非常低。
在這裏插入圖片描述
根據之前的loss定義,我們加上一個log,會變成了負數,再加上一個負號,求當前loss的最小值了。【和P(real)/P(total)成反比,即求當前loss的最小化,即爲求P(real)/P(total)得最大化】
如下公式得最後一行,應該是分別爲發射概率矩陣和轉移概率矩陣,但是轉移概率矩陣爲什麼是y(i),y(i+1)得關係呢?
在這裏插入圖片描述
那麼,現在求P(total)的過程轉換成了上面的公式,而轉移矩陣和發射矩陣是可以直接算得的。那麼重點就是求
在這裏插入圖片描述
接下來的步驟中,有兩個重要的變量,obs和previous,其中obs表示當前單詞的信息,previous存儲了前面所有步驟的結果。
下一篇是要講,當來了一個句子之後,如何通過模型預測出序列標籤。那麼…到目前爲止,實際上是講到了loss,並沒有講網絡參數(forward)如何更新參數(optimizer),而這個內容在pytorch中有比較好的講解。pytorch_learning pytorch with examples

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章