《中文分詞之字標註法----概述》

原創

2018-09-03 00:05

文章通過基於字標註的中文分詞方法，將中文分詞當作序列標註的問題來對待。

既然說要將中文分詞當作詞性標註的問題來對待，那麼就必須有標註對象和標註集啦。

在中文分詞過程中，它的標註對象當然是單個的漢字，當然除了漢字之外，還需要包含一定量的非漢字字符，這是不可避免的。

而相對於標註對象來說，標註集的概念就比較靈活了，是根據漢字在漢語詞中的位置來定義的，最簡單的就是2-tag，舉個例子來說吧，假如我們將一個詞的詞首標註爲B，該詞的其它部分標註爲I，那麼例如中國這個詞，就可以標註爲“中/B國/I”，除了2-tag之外，還有4-tag和6-tag，與2-tag類似。

‘

數學建模的本質：把現實世界中的實際問題加以提煉，抽象爲數學模型，求出模型的解，驗證模型的合理性，並用該數學模型所提供的解答來解釋現實問題，我們把數學模型的這一應用稱爲數學建模。

隱馬爾科夫模型（HMM）：說白了，HMM其實就是一個數學模型，用一堆的數學符號和數學參數表示，包括隱藏狀態集合，觀察符號集合，初始概率向量pi，狀態轉移矩陣A，混淆矩陣B。

HMM的三大基本問題：

1，對於一個觀察序列匹配最可能的系統一一評估，使用前向算法解決。

2，對於已生成的一個觀察序列，確定最可能的隱藏狀態序列一一解碼，使用Viterbi算法解決。

3，對於已生成的觀察序列，決定最可能的模型參數一一學習，使用前向-後向算法解決。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

中文分詞算法 mmseg python版本

mmseg算法是對最大匹配算法的擴展。簡單來說，mmseg每次匹配時，總會多向後匹配兩個單詞，然後選擇這個三個單詞的總體匹配最優的。 mmseg 主要做了以下幾方面的擴展：假設對字符串C1C2...Cn進行分割匹配時，從小到大

2020-07-05 15:00:55

Trie三叉樹分詞實現

最長匹配中文詞典分詞算法中文的語句與英文不同，英文單詞之間均有空格隔開，英文的語句沒有分詞的概念。而中文則不同，單詞之間沒有空格隔開。在處理中文語句時需要對中文語句進行分詞。目前多數的中文分詞的算法採用了，最長匹配詞典的算法。

2020-07-04 03:43:22

隱馬爾可夫模型及viberte算法

2020-07-01 01:17:38

以kenlm爲例，詳細介紹N-gram語言模型

本文爲轉載https://blog.csdn.net/asrgreek/article/details/81979194的基礎上，做了一些推演與推演過程的修正，如有錯誤歡迎指正。本文以KenlM介紹常用的N-gram語言模型原理。Ken

笨笨猪的学习之路

2020-06-29 06:35:46

基於機器學習的評論情感分析

貼吧評論敏感詞識別及情感分析初級實現之情感分析分三個模塊實現貼吧評論敏感詞識別及情感分析研究：“評論爬蟲抓取”、“評論敏感詞識別”、“評論情感分析（積極或消極）”。數據存儲於MongoDB中，現設數據庫“spiders”，數據集

会飞的哼哧

2020-06-29 03:06:04

最大概率法分詞及性能測試

最大概率分詞是一種最基本的統計方法分詞。一個待分割的字符串有多種分詞結果，最大概率分詞的原則是將其中概率最大的那個作爲該字符串的分詞結果。第一部分理論基礎如對一個字符串： S：有

2020-06-26 23:55:01

最大概率法分詞中詞頻懲罰因子的作用探究

在最大概率法分詞的程序中，由於每個詞出現的次數分佈非常不均勻，而且我們要計算每個詞出現的概率，對於出現次數比較少的詞概率就很小，求句子中詞的概率之積的時候，需要將好多非常小的數作乘法，可能會將超出計算機所能表示的數的最小範

2020-06-26 23:55:01

ICTClAS

ICTClAS分詞系統是由中科院計算所的張華平、劉羣所開發的一套獲得廣泛好評的分詞系統，難能可貴的是該版的Free版開放了源代碼，爲我們很多初學者提供了寶貴的學習材料。但有一點不完美的是，該源代碼沒有配套的文檔，閱讀

2020-06-21 10:22:01

jieba分詞流程及算法學習

目錄jieba特點算法jieba分詞流程圖Trie 樹建立 DAG 詞圖分詞 DAG 代碼實現計算全局概率Route ，基於詞頻最大切分組合隱馬爾可夫HMM 算法引用 jieba Python 中文分詞庫： github: htt

红瓤大柚子

2020-06-21 05:32:25

計算最長公共子序列（LCS）的兩種算法

最長公共子序列 LCS：動態規劃法得出以下： LCS(Xm,Yn) = LCS(Xm-1,Yn-1)+1 ## xm=yn LCS(Xm,Yn) = MAX{LCS(Xm-1,Yn),LCS(Xm,Yn-1)} ##

红瓤大柚子

2020-06-21 05:32:15

Eggjs筆記：ElasticSearch全文搜索引擎之安裝, 配置中文分詞插件, 以及CRUD操作

關於ES ElasticSearch 是一個基於 Lucene 的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎，基於 RESTful web 接口。Elasticsearch 是用 Java 開發的，並作爲 Apache

2020-06-16 16:18:59

lucene4.2自帶demo

lucene是做什麼的網上可以搜到很多資料，就不多說了。我想說了有一下幾點 1.爲什麼不直接用數據庫而選用lucene 因爲lucene是全文搜索引擎，所以它比較擅長從一個詞語中反過來找到那個詞在哪篇文章中，是反着的，假如用數據，從20

2020-06-16 06:19:42

二元語法模型與viterbi算法分詞

注意：本篇博文標紅字部分爲一處筆誤的改正。非常感謝獵兔網開發工程師羅剛指出錯誤。歡迎大家光臨我的博客指正各種思維不周，本人不拒絕嚴格的批評，只要能指出具體錯誤，和改進方案採用這種方法首先要弄懂1.什麼是二元語法模型：二元語法模

2020-06-14 19:45:45

自然語言處理--中文分詞之機械分詞

說到自然語言處理，對於中文首當其衝的就是分詞。和西方語言不同，中文句子中不像英語，每個單詞間有空格隔開，而是全部連在一起，詞間沒有明顯的界限。這就爲我們的翻譯、檢索等等更高級的信息處理帶來了不小的麻煩，怎樣將一句話中的關鍵詞

2020-06-14 19:45:45

結巴中文分詞使用學習（python）

中文分詞工具：結巴分詞 github地址：https://github.com/fxsjy/jieba 分詞功能精確模式（默認）：試圖將句子最精確地切開，適合文本分析；全模式，把句子中所有的可以成詞的詞語都掃描出來，但是不

2020-06-14 11:56:38

24小時熱門文章

HTTP URL 詳解

最新文章

最新評論文章