中文分詞技術一席談之典型分詞方法漫談

原創

hello9050

2020-02-25 05:26

2010-08-20 13:35:28

標籤：自然語言處理搜索分詞文本分析數據挖掘休閒職場

原創作品，允許轉載，轉載時請務必以超鏈接形式標明文章原始出處、作者信息和本聲明。否則將追究法律責任。http://langiner.blog.51cto.com/1989264/380563

中文分詞技術一席談之典型分詞方法漫談

Langiner

[email protected]

機械分詞（FMM、BMM、全切分）

產生式分詞（Naive Ngram分詞、Class-based Ngram分詞）

判別式分詞（Maxent分詞、CRF分詞、感知機分詞）

機械分詞（查詞典）
FMM/BMM：北京航天航空大學樑南元教授提出

定義：

把句子從左向右（從右向左）掃描一遍，遇到字典裏有的最長詞就標識出來，遇到不認識的字串就分割成單字詞。
例如：詞典如下
小瀋陽
瀋陽
演出
分成
成都
都
均
爲
是
9:1

句子實例：小瀋陽演出收入分成均爲9:1
FMM：小瀋陽/演出/收入/分成/均/爲/9:1 （正確）
BMM：小瀋陽/演出/收入/分成/均/爲/9:1 （正確）

句子實例：小瀋陽演出收入分成都是9:1
BMM：小瀋陽/演出/收入/分成/都/是/9:1 （正確）
FMM：小瀋陽/演出/收入/分/成都/是/9:1 （錯誤）

詞典
內塔尼亞胡
胡說
說
的
的確
確實
實在
在理

實例
句子實例：內塔尼亞胡說的確實在理
FMM：內塔尼亞胡/說/的確/實在/理（錯誤）
BMM：內塔尼亞/胡說/的/確實/在理（錯誤）

全切分：獲得文本所有可能的切分結果，得到所有切分單元

句子實例：他說的確實在理

切分實例：

機械分詞的優點

程序簡單易行，開發週期短
沒有任何複雜計算，分詞速度快

機械分詞的不足
不能處理歧義
不能識別新詞
分詞精度不能滿足實際的需要（規範文本 80%，互聯網文本在70%左右）

生成式統計分詞
原理
首先建立學習樣本的生成模型，再利用模型對預測結果進行間接推理

兩個假設前提
馬爾可夫假設
當前狀態出現的概率僅同過去有限的歷史狀態有關，而與其他狀態無關。具體到分詞任務，就是文本中第i個詞出現的概率僅僅依賴於它前面的i-1個詞，而與其他詞無關。

輸出獨立性假設
當前狀態的輸出僅僅取決於當前狀態本身，而與其他狀態無關。

Navie N-gram分詞
學習過程(利用MLE估計)
P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1)

分詞推導
P(W|O)=maxP(W|O)=maxP(w1w2...wn|o1,o2...om)=maxP(wt|wt-1,ot)
W：分詞結果
O：待分詞文本

分詞過程
第一步：全切分
第二步：Viterbi動態規劃，找到貫穿句子的路徑並計算每條路徑的概率
第三步：選擇概率最大的路徑爲切分結果

Ngram分詞評價
能夠處理大多數常用詞帶來的歧義問題
不能處理新詞以及新詞帶來的歧義問題

改善Naive Ngram不足之道：Class-based Ngram
在統一的框架下進行分詞與新詞識別
將詞分爲若干類
詞典詞：教師（詞典處理）
仿詞：2000年（規則處理）
新詞：劉德華（基於類的新詞識別）
形態詞：高高興興（規則處理）
不同類型的詞用不同處理方法，最後利用Ngram框架尋找全局最優切分結果
給定字符串S=s1s2…sn , 找最優的類序列C=c1c2…cm 使得P(C|S) 最大
下載中文分詞一席談.ppt看完整的數學推導

優點
在訓練語料規模足夠大和覆蓋領域足夠多的情況下，可以獲得較高的切分正確率（>=95%）
不足
需要很大的訓練語料
新詞識別能力弱
解碼速度相對較慢

具體方法：可以Google/Baidu上搜索中文分詞一席談.ppt下載ppt文檔瞭解詳情。

判別式分詞
原理
在有限樣本條件下建立對於預測結果的判別函數，直接對預測結果進行判別，建模無需任何假設。
由字構詞的分詞理念，將分詞問題轉化爲判別式分類問題

典型算法
Maxent SVM CRF Perceptron

優勢
能充分利用各種來源的知識
需要較少的訓練語料
解碼速度更快
新詞識別性能好

由字構詞

把分詞問題轉化爲確定句中每個字在詞中位置問題

每個字在詞中可能的位置可以分爲以下三種
詞首B（日本佔領了東三省）
詞中M（游泳比賽菲爾普斯獨佔鰲頭）
詞尾E（中國隊搶佔了風頭）
特徵選擇
設H是預定義條件的集合，T是一組可選標註集，條件隨機場的特徵函數定義爲f(h,t)=1（在h和t滿足觀察條前提下）

特徵所涉及的語言學知識列表
字的上下文知識
形態詞知識：處理重疊詞、離合詞、前後綴
仿詞知識：2000年
成語/慣用語知識
普通詞詞典知識
歧義知識
新詞知識/用戶詞典
新詞的全局化知識

分詞過程

優點
理論基礎紮實
解碼速度快
分詞精度高
新詞識別能力強
所需學習素材少

弱點
訓練速度慢
需要高配置的機器訓練
具體方法的描述可以搜索：中文分詞一席談.ppt來了解詳情。

本文出自 “專注自然語言技術” 博客，請務必保留此出處http://langiner.blog.51cto.com/1989264/380563

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

中文分詞技術一席談之典型分詞方法漫談

“應用程序配置不正確，程序無法啓動” 解決辦法（vc2008 sp1）

模擬退火簡介

對一些大數庫的簡介

slurm的安裝

Linux服務器集羣系統（五）LVS

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結