《中文分詞之字標註法----概述》

文章通過基於字標註的中文分詞方法,將中文分詞當作序列標註的問題來對待。
既然說要將中文分詞當作詞性標註的問題來對待,那麼就必須有標註對象和標註集啦。

在中文分詞過程中,它的標註對象當然是單個的漢字,當然除了漢字之外,還需要包含一定量的非漢字字符,這是不可避免的。

而相對於標註對象來說,標註集的概念就比較靈活了,是根據漢字在漢語詞中的位置來定義的,最簡單的就是2-tag,舉個例子來說吧,假如我們將一個詞的詞首標註爲B,該詞的其它部分標註爲I,那麼例如中國這個詞,就可以標註爲“中/B國/I”,除了2-tag之外,還有4-tag和6-tag,與2-tag類似。
數學建模的本質:把現實世界中的實際問題加以提煉,抽象爲數學模型,求出模型的解,驗證模型的合理性,並用該數學模型所提供的解答來解釋現實問題,我們把數學模型的這一應用稱爲數學建模。

隱馬爾科夫模型(HMM):說白了,HMM其實就是一個數學模型,用一堆的數學符號和數學參數表示,包括隱藏狀態集合,觀察符號集合,初始概率向量pi,狀態轉移矩陣A,混淆矩陣B。

HMM的三大基本問題:
1,對於一個觀察序列匹配最可能的系統一一評估,使用前向算法解決。
2,對於已生成的一個觀察序列,確定最可能的隱藏狀態序列一一解碼,使用Viterbi算法解決。
3,對於已生成的觀察序列,決定最可能的模型參數一一學習,使用前向-後向算法解決。










發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章