比較好的中文分詞方案彙總推薦

原創

2019-05-13 13:19

中文分詞是中文文本處理的一個基礎步驟，也是中文人機自然語言交互的基礎模塊。不同於英文的是，中文句子中沒有詞的界限，因此在進行中文自然語言處理時，通常需要先進行分詞，分詞效果將直接影響詞性、句法樹等模塊的效果。當然分詞只是一個工具，場景不同，要求也不同。

在人機自然語言交互中，成熟的中文分詞算法能夠達到更好的自然語言處理效果，幫助計算機理解複雜的中文語言。竹間智能在構建中文自然語言對話系統時，結合語言學不斷優化，訓練出了一套具有較好分詞效果的算法模型，爲機器更好地理解中文自然語言奠定了基礎。

在此，對於中文分詞方案、當前分詞器存在的問題，以及中文分詞需要考慮的因素及相關資源，竹間智能自然語言與深度學習小組做了些整理和總結，希望能爲大家提供一些參考。

中文分詞根據實現原理和特點，主要分爲以下2個類別：

1、基於詞典分詞算法

也稱字符串匹配分詞算法。該算法是按照一定的策略將待匹配的字符串和一個已建立好的“充分大的”詞典中的詞進行匹配，若找到某個詞條，則說明匹配成功，識別了該詞。常見的基於詞典的分詞算法分爲以下幾種：正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基於詞典的分詞算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字符串匹配方法進行優化，比如最大長度設定、字符串存儲和查找方式以及對於詞表的組織結構，比如採用TRIE索引樹、哈希索引等。

2、基於統計的機器學習算法

這類目前常用的是算法是HMM、CRF、SVM、深度學習等算法，比如stanford、Hanlp分詞工具是基於CRF算法。以CRF爲例，基本思路是對漢字進行標註訓練，不僅考慮了詞語出現的頻率，還考慮上下文，具備較好的學習能力，因此其對歧義詞和未登錄詞的識別都具有良好的效果。

Nianwen Xue在其論文《Combining Classifiers for Chinese Word Segmentation》中首次提出對每個字符進行標註，通過機器學習算法訓練分類器進行分詞，在論文《Chinese word segmentation as character tagging》中較爲詳細地闡述了基於字標註的分詞法。

常見的分詞器都是使用機器學習算法和詞典相結合，一方面能夠提高分詞準確率，另一方面能夠改善領域適應性。

隨着深度學習的興起，也出現了基於神經網絡的分詞器，例如有人員嘗試使用雙向LSTM+CRF實現分詞器，其本質上是序列標註，所以有通用性，命名實體識別等都可以使用該模型，據報道其分詞器字符準確率可高達97.5%。算法框架的思路與論文《Neural Architectures for

Named Entity Recognition》類似，利用該框架可以實現中文分詞，如下圖所示：

首先對語料進行字符嵌入，將得到的特徵輸入給雙向LSTM，然後加一個CRF就得到標註結果。

分詞器當前存在問題：

目前中文分詞難點主要有三個：

1、分詞標準：比如人名，在哈工大的標準中姓和名是分開的，但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標準。

2、歧義：對同一個待切分字符串存在多個分詞結果。歧義又分爲組合型歧義、交集型歧義和真歧義三種類型。

1) 組合型歧義：分詞是有不同的粒度的，指某個詞條中的一部分也可以切分爲一個獨立的詞條。比如“×××”，粗粒度的分詞就是“×××”，細粒度的分詞可能是“中華/人民/共和國”

2) 交集型歧義：在“鄭州天和服裝廠”中，“天和”是廠名，是一個專有詞，“和服”也是一個詞，它們共用了“和”字。

3) 真歧義：本身的語法和語義都沒有問題, 即便採用人工切分也會產生同樣的歧義，只有通過上下文的語義環境才能給出正確的切分結果。例如：對於句子“美國會通過對臺售武法案”，既可以切分成“美國/會/通過對臺售武法案”，又可以切分成“美/國會/通過對臺售武法案”。

一般在搜索引擎中，構建索引時和查詢時會使用不同的分詞算法。常用的方案是，在索引的時候使用細粒度的分詞以保證召回，在查詢的時候使用粗粒度的分詞以保證精度。

以下部分分詞器的簡單說明：

哈工大的分詞器：主頁上給過調用接口，每秒請求的次數有限制。

清華大學THULAC：目前已經有Java、Python和C++版本，並且代碼開源

斯坦福分詞器：作爲衆多斯坦福自然語言處理中的一個包，目前最新版本3.7.0， Java實現的CRF算法。可以直接使用訓練好的模型，也提供訓練模型接口。

Hanlp分詞：求解的是最短路徑。優點：開源、有人維護、可以解答。原始模型用的訓練語料是人民日報的語料，當然如果你有足夠的語料也可以自己訓練。

結巴分詞工具：基於前綴詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)；採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合；對於未登錄詞，採用了基於漢字成詞能力的 HMM 模型，使用了 Viterbi 算法。

字嵌入+Bi-LSTM+CRF分詞器：本質上是序列標註，這個分詞器用人民日報的80萬語料，據說按照字符正確率評估標準能達到97.5%的準確率，各位感興趣可以去看看。

ZPar分詞器：新加坡科技設計大學開發的中文分詞器，包括分詞、詞性標註和Parser，支持多語言，據說效果是公開的分詞器中最好的，C++語言編寫。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

比較好的中文分詞方案彙總推薦

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

一文搞懂 Spring 循環依賴

抖音面試：說說延遲任務的調度算法？

HanLP封裝爲web services服務的過程介紹

hanlp分詞工具應用案例：商品圖自動推薦功能的應用

HanLP分詞工具中的ViterbiSegment分詞流程

hanlp自然語言處理包的人名識別代碼解析

HanLP-命名實體識別總結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結