中文分詞技術一席談之典型分詞方法漫談


2010-08-20 13:35:28
原創作品,允許轉載,轉載時請務必以超鏈接形式標明文章 原始出處 、作者信息和本聲明。否則將追究法律責任。http://langiner.blog.51cto.com/1989264/380563
中文分詞技術一席談之典型分詞方法漫談
Langiner
 
目錄
機械分詞(FMM、BMM、全切分)
產生式分詞(Naive Ngram分詞、Class-based Ngram分詞)
判別式分詞(Maxent分詞、CRF分詞、感知機分詞)
 
機械分詞(查詞典)
FMM/BMM:北京航天航空大學 樑南元教授提出
定義:
把句子從左向右(從右向左)掃描一遍,遇到字典裏有的最長詞就標識出來,遇到不認識的字串就分割成單字詞。
例如:詞典如下
小瀋陽
瀋陽
演出
分成
成都




9:1
句子實例:小瀋陽演出收入分成均爲9:1
FMM:小瀋陽/演出/收入/分成/均/爲/9:1 (正確)
BMM:小瀋陽/演出/收入/分成/均/爲/9:1 (正確)
 
句子實例:小瀋陽演出收入分成都是9:1
BMM:小瀋陽/演出/收入/分成/都/是/9:1 (正確)
FMM:小瀋陽/演出/收入/分/成都/是/9:1 (錯誤)
 
詞典
內塔尼亞胡
胡說


的確
確實
實在
在理
實例
句子實例:內塔尼亞胡說的確實在理
FMM:內塔尼亞胡/說/的確/實在/理(錯誤)
BMM:內塔尼亞/胡說/的/確實/在理(錯誤)
 
全切分:獲得文本所有可能的切分結果,得到所有切分單元
句子實例:他說的確實在理
切分實例:

機械分詞的優點
程序簡單易行,開發週期短
沒有任何複雜計算,分詞速度快
機械分詞的不足
不能處理歧義
不能識別新詞
分詞精度不能滿足實際的需要(規範文本 80%,互聯網文本在70%左右)
 
 
生成式統計分詞
原理
首先建立學習樣本的生成模型,再利用模型對預測結果進行間接推理
兩個假設前提
馬爾可夫假設
當前狀態出現的概率僅同過去有限的歷史狀態有關,而與其他狀態無關。具體到分詞任務,就是文本中第i個詞出現的概率僅僅依賴於它前面的i-1個詞,而與其他詞無關。
輸出獨立性假設
當前狀態的輸出僅僅取決於當前狀態本身,而與其他狀態無關。
Navie N-gram分詞
學習過程(利用MLE估計)
P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1)
分詞推導
P(W|O)=maxP(W|O)=maxP(w1w2...wn|o1,o2...om)=maxP(wt|wt-1,ot)
  W:分詞結果
  O:待分詞文本
分詞過程
第一步:全切分
第二步:Viterbi動態規劃,找到貫穿句子的路徑並計算每條路徑的概率
第三步:選擇概率最大的路徑 爲切分結果
Ngram分詞評價
能夠處理大多數常用詞帶來的歧義問題
不能處理新詞以及新詞帶來的歧義問題
 
改善Naive Ngram不足之道:Class-based Ngram
在統一的框架下進行分詞與新詞識別
將詞分爲若干類
詞典詞:教師(詞典處理)
仿詞:2000年(規則處理)
新詞:劉德華(基於類的新詞識別)
形態詞:高高興興(規則處理)
不同類型的詞用不同處理方法,最後利用Ngram框架尋找全局最優切分結果
給定字符串S=s1s2…sn , 找最優的類序列C=c1c2…cm 使得P(C|S) 最大
下載中文分詞一席談.ppt看完整的數學推導
優點
在訓練語料規模足夠大和覆蓋領域足夠多的情況下,可以獲得較高的切分正確率(>=95%)
不足
需要很大的訓練語料
新詞識別能力弱
解碼速度相對較慢
具體方法:可以Google/Baidu上搜索 中文分詞一席談.ppt下載ppt文檔瞭解詳情。
 
判別式分詞
原理
在有限樣本條件下建立對於預測結果的判別函數,直接對預測結果進行判別,建模無需任何假設。
由字構詞的分詞理念,將分詞問題轉化爲判別式分類問題
典型算法
Maxent  SVM CRF Perceptron
優勢
能充分利用各種來源的知識
需要較少的訓練語料
解碼速度更快
新詞識別性能好
由字構詞
把分詞問題轉化爲確定句中每個字在詞中位置問題
每個字在詞中可能的位置可以分爲以下三種
 詞首B(日本 佔領 了 東三省)
 詞中M(游泳 比賽 菲爾普斯 獨佔鰲頭)
 詞尾E(中國隊 搶佔 了 風頭)
特徵選擇
設H是預定義條件的集合,T是一組可選標註集,條件隨機場的特徵函數定義爲f(h,t)=1(在h和t滿足觀察條前提下)
特徵所涉及的語言學知識列表
字的上下文知識
形態詞知識:處理重疊詞、離合詞、前後綴
仿詞知識:2000年
成語/慣用語知識
普通詞詞典知識
歧義知識
新詞知識/用戶詞典
新詞的全局化知識
分詞過程
優點
理論基礎紮實
解碼速度快
分詞精度高
新詞識別能力強
所需學習素材少
弱點
訓練速度慢
需要高配置的機器訓練
具體方法的描述可以搜索:中文分詞一席談.ppt來了解詳情。

本文出自 “專注自然語言技術” 博客,請務必保留此出處http://langiner.blog.51cto.com/1989264/380563

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章